데이터 어노테이션이란? 정의, 라벨링과의 차이, 작업 방법
학습 데이터의 품질과 양이 AI의 성공을 결정합니다. 실제로 전체 AI 프로젝트의 80%가 데이터 어노테이션을 포함한 학습 데이터를 다루는 데 사용되기도 하죠. 이 글에서는 이처럼 AI 개발에서 가장 중요한 단계인 데이터 어노테이션에 대해 자세히 알아보겠습니다.
데이터 어노테이션의 정의
데이터 어노테이션은 머신러닝과 관련된 중요한 데이터를 인식하고 각 데이터에 태그를 지정하는 프로세스입니다. AI 개발을 위해서는 데이터를 준비 및 전처리가 필요한데 어노테이션은 그 프로세스 중 하나에 속합니다.
데이터 어노테이션 워크플로우에는 데이터 라벨링, 태그 지정, 데이터 분류, 데이터 조정 및 처리가 포함됩니다. 원하는 결과를 생성하는 AI 모델을 구축하려면 어노테이션 되지 않은 데이터를 필요한 학습 데이터로 변환하는 프로세스가 필요합니다.
예를 들어, 얼굴 인식 모델을 위한 학습 데이터는 눈, 코, 입과 같은 특징을 가진 얼굴 이미지에 태그를 지정해야 합니다. 또는 AI 모델로 말투로 그 사람의 감정 상태를 알아내는 감성 분석을 수행할 때는 음성 데이터에 다양한 억양과 말투에 대한 태그를 지정해야 합니다.
데이터 어노테이션과 라벨링의 차이점
데이터 어노테이션과 라벨링은 매우 비슷한 개념으로 일반적으로는 거의 동일한 의미로써 사용됩니다. 하지만 데이터 어노테이션은 라벨링을 포함하는 개념으로 라벨링 작업을 포함하여 데이터에 다양한 유형의 메타데이터를 추가하는 작업을 의미합니다. 반면 데이터 라벨링은 데이터를 라벨로 분류하거나 태그를 붙이는 작업을 의미합니다.
자율주행 AI 모델을 위한 작업을 예로 들어 보겠습니다. 먼저 데이터 라벨링은 이미지에서 특정 개체(차, 사람, 차선 등)를 식별하고 라벨을 붙이는 작업이 포함됩니다. 반면 데이터 어노테이션의 경우, 특정 개체를 경계 상자로 표시하고 각각의 클래스를 할당하는 작업이 포함됩니다.
데이터 어노테이션 하는 법
정확한 예측이 가능한 AI 모델을 개발하기 위해서는 데이터 어노테이션의 정확도가 매우 중요합니다. 정확한 어노테이션을 위한 프로세스를 알아보겠습니다.
1. 접근 방식 선택
데이터 어노테이션은 데이터 가공 과정 중에서도 시간과 리소스가 가장 많이 투자되는 단계이기 때문에 기업에 적합한 방식을 선택하는 것이 중요합니다.
- 인하우스: 기존 직원과 리소스를 통한 데이터 어노테이션입니다. 이 방법은 결과를 효율적으로 관리할 수 있지만 어노테이션 작업자를 기업 내에서 자체적으로 고용 및 교육해야 하기 때문에 시간과 비용이 많이 듭니다.
- 아웃소싱: 프리랜서를 통한 데이터 어노테이션입니다. 이 경우 프리랜서의 능력에 대한 기술 평가는 가능하지만 워크플로우에 대한 기업의 통제력은 떨어지는 단점이 있습니다.
- 크라우드소싱: 신뢰할 수 있는 데이터 파트너사를 활용한 데이터 어노테이션입니다. 기업 내부 리소스가 부족하지만 대규모 AI 개발을 계획하는 기업에 적합한 방식입니다. 데이터 파트너사는 모델 구축 프로세스 전반에 걸쳐 전문 지식을 보유하고 있고 방대한 양의 데이터를 신속하게 처리할 수 있는 많은 어노테이션 작업자를 보유하기 때문에 빠르고 정확한 어노테이션 작업이 가능합니다.
- 기계 어노테이션: 데이터 어노테이션은 기계로도 수행될 수 있습니다. 특히 학습 데이터를 대규모로 준비해야 한다면 ‘머신러닝 지원 어노테이션’을 고려할 수 있습니다. 또한 이 방법은 데이터 분류가 필요한 비즈니스 프로세스를 자동화하는 데에도 사용할 수 있습니다.
이때, 위 네 가지 방법 중 개발하려는 AI의 복잡성과 기업 내 기술 수준 및 예산에 따라 알맞을 방법을 결정하는 것을 추천합니다.
2. 데이터 QA
데이터 품질 관리(QA)는 인공지능 모델이 학습하는 데이터의 품질을 보장하기 위한 프로세스로 데이터 어노테이션에서 아주 중요한 구성 요소입니다. 특히, 인하우스 방식으로 데이터를 준비한다면 이 단계가 꼭 필요합니다. 또는 크라우드소싱 방식을 택했다면, 해당 데이터 파트너사에 준비된 QA 프로세스를 이용할 수 있습니다.
데이터 품질 관리 단계에서 확인해야 할 주요 부분은 데이터 어노테이션이 정확한 정보를 제공하고 독립적인가의 여부입니다. 또한 어노테이션의 정확도를 체크하여 실측 정보 수준을 반영하는지 확인해야 합니다. 예를 들어, 자율주행차의 AI 모델이 성공적으로 작동하려면 모든 보행자, 표지판 및 기타 차량이 이미지 내에서 정확하게 어노테이션 되어야 합니다.
3. 훈련 및 테스트
데이터 어노테이션과 데이터 QA 단계를 통과했다면 마침내 해당 데이터를 사용하여 AI 모델을 훈련할 수 있습니다. 이 단계에서는 어노테이션 되지 않은 새로운 데이터셋에서 테스트를 통해 예측이 정확한지 확인합니다. 이때 기억해야 할 것은, AI 모델의 니즈에 따라 모델 정확도에 대한 기대치가 달라질 수 있다는 것입니다. 예를 들어, 방사선 감염을 식별하기 위해 이미지를 처리하는 AI 모델은 온라인 쇼핑몰에서 제품을 식별하는 데 사용되는 모델보다 훨씬 더 높은 정확도가 필요합니다. 따라서 인공지능 모델의 사용 용도에 따라 신뢰도 임계값을 다르게 설정하는 것이 중요합니다.
4. 휴먼 인 더 루프 활용
데이터를 테스트할 때는 사람이 실측 모니터링을 제공하는 프로세스가 수반되어야 합니다. 휴먼 인 더 루프(Human in the loop, HITL)는 인간 지능과 인공지능을 모두 활용해 머신러닝 모델을 생성하는 인공지능의 한 분야로서 이 기술을 활용하면 모델이 아래와 같은 주요 포인트를 효율적으로 관리할 수 있습니다.
- AI의 예측이 올바른지의 여부
- 학습 데이터 격차 식별
- AI 모델에 피드백 제공
- AI가 잘못된 예측을 했을 때 재훈련 가능
5. 유연한 프로세스 구축
위에 설명한 각 단계를 기업에 맞게 유연한 데이터 어노테이션 프로세스를 구축하고 이를 반복하여 지속적으로 AI 모델을 최적화할 수 있도록 합니다.
데이터 어노테이션 할 때 주의해야 할 점
- 성공적인 데이터 어노테이션은 사용 사례, 대상 페르소나 및 성공 메트릭에 대한 명확한 정의로부터 시작합니다. 이를 통해 학습 데이터 요구 사항을 식별하고 다양한 시나리오에서 적용 범위를 보장하며 데이터셋의 부족으로 인한 잠재적 편향을 완화할 수 있습니다. 또한 다양한 어노테이션 작업자 풀을 통합하면 프로세스에 도입된 편향을 피할 수 있습니다.
- AI 모델이 학습한 데이터와 실제 운영 환경에서 입력되는 데이터 간의 분포가 시간이 지나면서 달라지는 현상인 데이터 드리프트(Data drift)는 생각보다 흔히 나타납니다. 예를 들어, AI 모델이 보는 데이터가 매일 바뀜으로 인해 한 달 전에 학습한 모델이 예상대로 작동하지 않을 수 있습니다. 따라서 새로운 정보로 모델을 지속해서 훈련하려면 확장 가능하고 자동화된 학습 데이터 파이프라인을 구축하는 것이 중요합니다.
- 보안 및 개인 정보 보호는 아주 중요합니다. AI 모델을 훈련하는 데 필요하지 않은 민감한 데이터는 최대한 제거하세요. 만약 민감한 데이터가 포함된 어노테이션 작업해야 한다면, 안전한 엔터프라이즈급 데이터 어노테이션 플랫폼을 사용하고 정확하게 훈련된 작업자 인력을 활용하는 것을 추천합니다.
에펜의 데이터 어노테이션 솔루션
에펜은 고품질 데이터 어노테이션 플랫폼을 제공하기 위한 전문 데이터 팀을 보유하고 있습니다. 또한 저희는 고객의 AI 개발 니즈에 맞게 이미지, 동영상, 음성, 텍스트를 포함한 모든 데이터 유형에 걸쳐 대량의 고품질 데이터를 신속하게 제공합니다.
에펜의 데이터 어노테이션 솔루션에 대해 궁금한 점이 있으시다면 문의를 남겨주세요.
데이터 라벨링 지원이 필요하신가요? 데이터 전문가에게 문의하세요.