데이터 편향성을 줄이는 8가지 방법

2023/04/18

데이터 편향성이란?

데이터 편향성(Data Bias)이란, 데이터가 특정 방향으로 치우치거나 불균형하게 분포되어 있어, 분석 결과나 인공지능 모델의 예측이 왜곡되는 현상을 의미합니다. 데이터 편향의 예시로는 대명사 “hers”를 식별하지 못하는 음성 인식이 “his”는 식별할 수 있다거나, 안면 인식 소프트웨어가 백인을 더 잘 인식하는 등과 같은 사례가 있습니다. AI의 편향성을 완전히 제거하는 것은 불가능하지만, 이를 방지하기 위해 적극적으로 노력하는 것이 중요합니다. 고품질의 인공지능을 개발하는 것은 편향성이 낮은 데이터를 사용하는데서 시작됩니다.

데이터 편향성을 낮추기 위해서는 우리가 사용하는 모든 인공지능이 결국은 사람들과 사회적으로 생성된 데이터에 기반하여 만들어진다는 점을 기억하는 것이 중요합니다. 책임감 있고 성공적인 인공지능을 개발하기 위해서는 데이터 편향성을 줄이는 방법을 알고 이를 학습 데이터에 적용해야 합니다.


AI 편향성 사례

얼굴 인식

2018년 MIT와 스탠포드 연구진이 발표한 연구에 따르면, 백인 남성 얼굴의 인식 오류율이 1% 미안인 반면, 흑인 여성 얼굴의 오류율은 35%에 달했습니다. 이는 학습 데이터셋이 백인 남성의 얼굴 이미지를 더 많이 포함하고 있었기 때문으로, 인종 및 성별에 따른 심각한 편향을 보여줍니다.

음성 인식

음성 명령을 기반으로 한 인공지능 비서를 사용해 본 적이 있나요? 이런 알고리즘은 여전히 여성의 목소리보다 남성의 목소리를 더 쉽게 인식합니다. 이는 주로 모델을 훈련하는 데이터에 남성이 여성보다 더 많이 포함되기 때문에 나타나는 현상으로 이런 불균형은 여성 사용자에 대한 정확도를 떨어뜨립니다.

은행 대출

AI 편향은 은행에서도 찾아볼 수 있습니다. 일부 은행은 AI 알고리즘을 사용해 잠재적 차용자의 재무 상태를 평가하고 신용도를 결정합니다. 지난 70년 동안의 데이터를 기반으로 해당 인공지능이 학습되었다면, 여성보다 남성의 대출 사례가 압도적으로 많았을 가능성이 높습니다. 이에 따라 해당 AI는 여성보다 남성에게 쉽게 대출 허가를 내주는 사례가 많습니다. 실제로 동일한 프로파일의 한 남성과 그의 아내가 같은 은행에 같은 대출 신청서를 제출했을 때, 알고리즘이 남성의 대출은 승인하였지만 여성의 대출은 거부한 사례가 있습니다. 이처럼 데이터에 누가 포함되는지를 주의하지 않으면, 특정 집단에 불공정하게 작동하는 AI가 만들어질 위험이 있습니다. 이처럼 편향된 인공지능을 구축하려는 의도가 없이도 편향성은 AI 구축 및 배포 과정에서 여러 단계에서 무심코 발생할 수 있습니다. 그렇기 때문에 프로젝트 전체에 걸쳐 편향을 줄이는 데 주의를 기울이는 것이 중요합니다.

blog2-1-1024x552.jpg

인공지능의 모델의 데이터 편향성을 줄이는 8가지 방법

1.비즈니스 문제의 범위 좁히기

너무 많은 문제를 하나의 AI로 해결하려고 하면 관리하기 힘든 많은 수의 라벨이 필요할 수 있습니다. 먼저 문제를 좁혀 정의하면 인공지능을 개발한 정확한 목적에 대해 모델을 테스트하고 잘 작동하는지 확인할 수 있습니다.

2.다양한 구조적 데이터 수집하기

단일 데이터 포인트에 대해 여러 유효한 의견이나 라벨링이 있는 경우가 많습니다. 이러한 다양한 의견을 수집하면 인공지능 모델이 더 유연해집니다.

3.학습 데이터 이해하기

모든 데이터셋에는 인공지능에 편향성을 유발할 수 있는 클래스와 라벨이 있을 수 있습니다. 따라서 보유한 데이터를 더 많이 이해할수록 편향을 유발하는 데이터를 필터링할 수 있습니다. 또한 데이터가 최종 사용자의 전체 다양성을 나타내는지 확인하는 것도 중요합니다. 수집한 데이터에서 모든 잠재적 사용 사례가 다뤄졌는지 확인하세요. 그렇지 않은 경우 추가 데이터 소스를 찾아야 할 수 있습니다.

4.다양한 ML팀 구성하기

인종, 성별, 연령, 경험, 문화 등 다양한 배경을 가진 사람들은 본질적으로 다른 질문을 하고 다른 방식으로 AI와 상호 작용합니다. 이렇게 하면 인공지능 개발 단계에서 미리 문제를 파악하는 데 도움이 됩니다.

5.최종 사용자 고려하기

최종 사용자는 여러분이나 여러분의 팀과 동일한 사람이 아니라는 점을 염두하고 모든 사람들에 대한 공감 능력을 갖추어야 합니다. 다른 많은 사람들이 인공지능과 어떻게 상호작용하는지, 그렇게 할 때 어떤 문제가 발생할 수 있는지 예측하는 법을 학습하여 AI 편향을 줄이세요.

6.다양성을 고려한 데이터 라벨링

다양한 데이터 작업자가 데이터 라벨링을 하면 관점이 더 다양해집니다. 이러한 작업 방식은 인공지능 개발 단계와 재교육하는 단계 모두에서 데이터 편향성을 줄이는 데 실제로 도움이 됩니다.

7.피드백을 염두하고 AI 개발하기

인공지능은 전체 라이프사이클 동안 계속해서 변화합니다. AI 개발에서 일어나는 일반적인 실수는 최종 사용자가 인공지능에 대해 피드백을 제공할 수 있는 방법 없이 인공지능이 배포되는 것입니다. 이는 인공지능 편향성을 높일 수 있으므로 피드백을 위한 포럼을 열어 AI가 모든 사람에게 최적의 성능 수준을 유지하도록 보장해야 합니다.

8.인공지능 개선하기

사용자의 피드백뿐만 아니라 변경 사항, 예외 사례, 놓쳤을 수 있는 편향 사례 등을 감사하는 독립적인 인력을 활용하여 모델을 지속적으로 검토해야 합니다. 피드백을 기반으로 인공지능의 성능을 향상하면서 더 높은 정확도를 위해 해당 프로세스를 지속적으로 반복하세요.


에펜의 데이터 편향성 솔루션

AI-vs.-Deep-Learning-vs.-Machine-Learning_-Everything-Youve-Ever-Wanted-to-Know-2-1024x538.png

Appen은 지난 20여 년간 데이터 라벨링을 처리하고 다양한 크라우드소싱을 활용해 최적화된 인공지능 모델을 배포해왔습니다. 에펜은 130개국에서 온 100만 명이 넘는 크라우드소싱을 보유한 플랫폼을 제공함으로써 편향된 인공지능 알고리즘을 개선합니다. 또한 AI 모델에 맞는 최고의 학습 데이터를 생성하기 위해 전문가로 구성된 관리 서비스 팀을 구성합니다.

학습 데이터가 필요하신가요? 데이터 전문가에게 문의하세요.