인공지능 프로젝트 시작 전 알아야 할 3가지

데이터 개인정보 보호, 데이터의 편견 완화, 윤리적인 데이터 소싱

June 27, 2024

인공지능(AI)의 진화는 향후 몇 년 간 계속될 것이며 점점 더 일상과 밀접하게 연결될 것입니다. 이제 기업은 책임감 있게 인공지능 프로젝트에 접근하여 투명성을 극대화하고 편견을 줄이며 기술의 윤리적인 적용을 이끌어내는 것이 중요합니다. 잘 작동하는 AI는 모든 사람에게 공평하게 작동하는 것을 의미합니다. 또한 책임 있는 정책과 프로토콜에 대한 결정은 AI의 미래를 결정합니다.

데이터는 이러한 과정에서 토대가 되는 역할을 합니다. 데이터는 모든 AI 기술의 핵심이며 모델 성능에 직접적인 영향을 미칩니다. 모델은 훈련에 사용된 데이터의 양과 질로 그 성능이 결정됩니다. 이에 따라 데이터는 AI 모델의 차이를 만들 수 있는 핵심 영역이기도 합니다.

인공지능 프로젝트에서 가장 중요한 3가지

AI 프로젝트를 진행할 때 데이터 과학자는 대부분의 시간을 데이터 수집 및 가공에 사용합니다. 이러한 작업을 수행하는 데 있어 가장 중요한 세 가지 영역은 데이터 개인정보 보호, 데이터의 편견 완화, 윤리적인 데이터 소싱입니다.

데이터 개인정보 보호

AI 실무자로서 최우선 과제는 데이터 개인정보와 보안에 대한 것이어야 합니다. 이미 이 분야에는 규제가 있으며 조직의 데이터 처리 프로토콜은 이와 일관성을 유지해야 합니다. 예를 들어 국제적으로 인정받는 ISO 표준은 개인 정보 보호에 관한 것이며, GDPR(일반 데이터 보호 규정)은 EU에서 데이터 관리를 다룹니다. 또한 세계적으로 각기 다른 요구 사항들이 존재합니다. 비즈니스는 고객이 있는 모든 위치에 대한 해당 표준을 준수해야 합니다. 세계 일부 지역에서는 데이터 보호 규정에 일관성이 없거나 아예 규정 자체가 없을 수도 있습니다. 그럼에도 불구하고, 책임 있는 AI를 구축하기 위해서는 데이터 제공자를 보호하는 데이터 보안 관리 체계를 준수해야 합니다. 데이터를 사용하기 전에 먼저 개인의 동의를 얻고, 개인 식별 정보가 부적절하게 사용되지 않도록 보안 조치를 취해야 합니다.

만약 데이터 관리 실천에 어떤 유형의 보안 프로토콜을 통합해야 하는지 명확하지 않다면, 이미 이러한 시스템을 갖추고 있고 관련 전문 지식을 갖춘 데이터 제공 업체와 협업을 고려해 볼 수 있습니다.

데이터 편향

편향된 데이터는 편향된 결과를 낳습니다. 예를 들어 자동차에 사용할 음성 인식 모델을 만들고 있다고 가정해 봅시다. 음성에는 다양한 어조와 사투리, 추임새, 문법 등이 포함됩니다. 여러 인구 통계 및 배경을 가진 운전자들을 대상으로 음성 인식 모델을 작동시키기 위해서는, 각각의 사용 사례를 대표하는 데이터가 필요합니다. 만약 데이터에 남성 목소리만을 수집하면 음성 인식 모델은 여성 목소리를 인식하는 데 어려움을 겪게 되며 이는 실제로 인기 있는 음성 기반 제품에서 발생했던 일입니다. 이러한 문제는 모델이 훈련 중에 특정 유형의 데이터에 충분히 노출되지 않았을 때 발생합니다. 때문에 AI 프로젝트의 핵심은 완전하고 공정한 데이터셋, 즉 모든 사용 사례와 특이 케이스를 다루는 데이터셋을 만드는 것입니다. 모든 사용자에게 동일하게 작동하는 AI 제품을 만드는 것은 학습 데이터에서 모든 사용자가 대표되어 있는지 확인하는 것으로 시작됩니다.

데이터 수집

데이터는 윤리적인 방법으로 수집되어야 하며 데이터를 준비 및 제공하는 사람들에 대한 적절한 보상이 제공되어야 합니다. 또한 데이터 제공자는 스스로 데이터를 제공하고 있다는 사실을 인지하고 있어야 하며, 이는 돈이나 교환된 서비스 형태로 나타날 수 있습니다. 하지만 현실의 많은 데이터는 우리 자신도 모르는 사이에 수집되고 있으며 데이터 소유자가 누구인지에 대한 경계가 모호합니다. 예를 들어 사내 영상 미팅 중에 생성된 음성 데이터는 누구의 소유일까요? 회사, 영상 통화 플랫폼 혹은 개인? 이렇게 경계가 불분명한 경우 데이터 소유자를 판단하기가 어렵습니다. 책임 있는 AI를 구축하는 기업은 누구로부터 어떤 종류의 데이터를 언제 수집하는지에 대해 투명해야 하며, 개인에게 적절한 보상을 하는 노력을 기울여야 합니다.

데이터를 수집 프로세스의 또 다른 과제는 바로 데이터를 사용 가능한 상태로 만들어내는 것입니다. 인공지능 프로젝트에 적절한 데이터인지 확인하기 위해 많은 작업자들이 데이터를 정리하고 걸러내어야 하며, 그런 다음 정확한 라벨로 데이터에 어노테이션을 달아야 합니다. 이 과정에서 데이터 작업자들은 공정한 대우를 받아야 합니다. 이는 공정한 급여와 개방적인 의사소통, 기밀성 및 편안한 근무 환경을 포함합니다. 기업은 데이터 라벨링 작업자가 윤리적으로 대우받을 수 있도록 하기 위해 많은 노력을 기울여야 합니다. 예를 들어 AI 데이터 공급 업체인 저희 에펜에서는 고품질 어노테이션을 위해 전 세계의 크라우드를 보유하고 있으며, 복지 정책을 문서화한 “Crowd Code of Ethics“를 만들었습니다.

인공지능 프로젝트의 미래

기업들은 미래에 비즈니스와 사회 모두에 긍정적인 결과를 가져올 AI를 구축할 책임이 있습니다. 특히 데이터 거버넌스는 인공지능 프로젝트의 윤리성 전반에 상당한 영향을 미치며, 데이터 편향과 데이터 관리는 책임있는 기술 적용에서 중요한 역할을 합니다. AI 실무자는 책임있는 AI의 주요 원칙을 반영하는 데이터 거버넌스 프레임워크를 구축할 수 있어야 합니다. 이를 통해 우리는 더 공정한 기술에 기여하게 되며, 이는 우리 사회의 다양성을 더 잘 반영하는 결과를 가져올 것입니다.

인공지능 프로젝트를 준비 중이신가요? 윤리적 AI 모델 구축을 위한 도움이 필요하시다면 지금 바로 에펜의 데이터 전문가에게 상담받아보세요!