AI 데이터 품질 관리 - 데이터 중심 인공지능을 위한 가이드

2024/04/12

AI 데이터 품질 관리란?

데이터 품질은 AI 기반 프로그램을 성공적으로 구현하는 핵심이 되는 요소로써 모델 훈련에 사용됩니다. 품질이 낮은 학습 데이터를 사용하면 모델이 올바르게 훈련되지 않고 재교육 및 테스트에 추가 시간과 예산이 필요합니다. 이를 방지하기 위한 가장 좋은 방법은 모델 학습 과정에서 데이터 품질 검사를 실시하는 것입니다. 이때 품질 지표는 목적이나 데이터 유형에 따라 달라질 수 있습니다.

AI 데이터 품질 측정 방법

평가자 간 신뢰성(Inter-rater Reliability): 단일 및 이중 검토, 감사(audits)
F1 점수(F1 Score): 정밀도(precision), 재현율(recall)
정확성(Accuracy): 골든 데이터 세트(golden datasets), 퀴즈

1. 평가자 간 신뢰도(Inter-rater Reliability)

단일 검토는 두 명의 개별 작업자가 동일한 데이터에 한 사람은 라벨을 달고 다른 한 사람은 라벨링이 올바르게 작성되었는지 검토하고 서로의 일치 여부를 확인하는 프로세스입니다. 이 과정은 데이터에 올바르게 라벨링이 추가되었다고 판단될 때까지 계속됩니다. 이때 두 사람의 의견이 일치하지 않으면 이중 검토가 필요합니다. 여기서 추가되는 세 번째 작업자는 데이터 조각에 대해 작업합니다. 해당 작업이 처음 두 개 중 하나와 일치하면 데이터가 정답으로 간주됩니다. 만약 일치하는 항목이 없으면 데이터가 삭제되고 프로세스가 다시 진행됩니다. 이 프로세스는 100% 일치 또는 일치하지 않는 케이스가 아니라 원하는 경우 부분 일치가 허용될 수 있습니다. 이때 정확도 임계값이 중요한데 해당 임계값이 충족되지 않으면 모델이 제대로 작동하도록 훈련할 만큼 데이터 품질이 충분하지 않습니다.

감사자는 단일 및 이중 검토와 함께 혹은 별도로 작업할 수 있습니다. 감사자는 완성된 데이터를 평가하여 라벨링이 올바르게 작성되었는지 확인하는 임무를 맡고 데이터가 높은 품질을 유지하도록 하는 숙련된 작업자입니다. 또한 데이터 작업을 수행한 사람들에게 피드백을 제공하여 무언이 잘못 수행되었는지 알려줍니다. 잘못된 데이터가 모델에 유입되는 것을 방지하고 더 많은 데이터를 감사하려면 프로젝트에 두 명 이상의 감사자를 두는 것을 추천합니다.

2. F1 점수(F1 Score)

분류 데이터셋에서 자주 사용되는 F1은 제공된 학습 데이터를 기반으로 한 모델의 예측 정확도 점수입니다. 이 점수를 계산하는 데 필수적인 두 가지 측정항목은 재현율과 정밀도입니다. 재현율은 검색된 관련 항목의 비율을 나타내며, 정밀도는 검색된 항목 중에서 실제 관련 항목의 비율을 나타냅니다. 데이터 라벨링에서 정밀도와 재현율 점수 사이의 균형을 찾는 데 F1이 도움이 됩니다. 그러나 정밀도나 재현율 중 하나에만 중점을 두고 있는 경우, F1이 유익하지 않을 수 있습니다.

3. 정확성

퀴즈 기반 정확도는 프로젝트 시작 전과 진행 중에 실시되는 테스트를 통해 측정됩니다. 사전 심사는 크라우드가 프로젝트 요구 사항에 따라 데이터에 구체적으로 라벨링 하는 방법을 이해했는지 확인하기 위한 프로세스입니다. 이때 올바르게 대답해야 하는 질문이 정해져 있어야만 참여할 수 있습니다. 또한 프로젝트 진행 중에는 추가 퀴즈가 제공됩니다.

또 다른 퀴즈 수행 방법은 골든 데이터세트를 사용하는 것입니다. 골든 데이터세트는 라벨링 된 데이터셋에 통합된 사전 레이블이 지정된 데이터 조각입니다. 한 사람이 퀴즈를 수행하여 어노테이션을 달면 정확도 점수가 부여됩니다. 각 작업자가 특정 점수를 획득하면 프로젝트 작업을 계속할 수 있습니다. 이러한 테스트를 통해 프로젝트 소유자는 요구 사항을 충족하지 않는 작업자를 식별하고 훈련 중인 모델에서 해당 작업자와 작업한 데이터를 제거할 수 있습니다.

AI 데이터 품질 향상 방법

안정적이고 확장 가능한 AI 데이터 품질을 유지하기 위해서는 라벨링, 평가, 위험 관리의 복잡성을 포괄하는 다각적 접근이 필요합니다.

1. 지속적인 평가 및 품질 모니터링

일관된 평가 기준을 적용해 데이터 정확성을 추적하고 품질 저하를 감지합니다.
에펜의 Model Mate와 Quality Reporting Framework를 활용해 라벨링 수준 보고와 오류 추세 분석을 통해 AI 데이터 품질을 세부적으로 파악할 수 있습니다.

2. 일관성 및 복잡한 데이터 관리

평가자 간 합의(IRA) 기술을 활용해 복잡하거나 주관적인 작업에서도 라벨링의 일관성을 유지합니다.
순위와 리커트 척도 등을 활용해 동의도를 측정하고 불일치를 파악합니다.

3. 업스킬링과 협업 및 위험 관리

오류 추세 분석을 바탕으로 맞춤형 교육과 리소스를 제공해 데이터 작업자의 역량을 강화합니다.
이해 관계자 간 적극적인 협업을 통해 명확하고 일관된 가이드라인을 제공합니다.
에펜의 품질 위험 관리 툴은 잠재적 위험을 모니터링하고 완화합니다.

AI 데이터 품질 향상을 위한 기술

AI 데이터 품질을 높이기 위해 활용할 수 있는 다양한 기술이 있습니다. 아래의 기술을 통해 데이터의 영향력을 극대화하세요.

정확도 지표: F1 점수와 같은 지표를 활용해 불균형한 데이터셋을 효과적으로 관리하고, 중요한 오류를 우선적으로 해결합니다.
리커트 척도: 라벨링 작업자 간의 일치도를 정량적으로 측정하여 주관적인 작업에서도 일관성을 유지할 수 있도록 지원합니다.
평가자 간 합의(IRA): 순위 지표 등을 활용해 팀 간 평가 기준을 표준화하고, 기여자 간 데이터 처리 일관성을 평가합니다.
자유 텍스트 응답 관리: 품질 관리 프로세스를 통해 개방형 데이터의 일관성을 유지하고, 구문, 의미, 관련성 측면에서 다양성을 효율적으로 관리합니다.
LLM(대형 언어 모델) 활용: 모호하거나 주관적인 라벨링 작업에서 편향을 줄이고, 정성적 평가를 보다 확장 가능하고 체계적으로 진행합니다.
모델 메이트 및 품질 보고 프레임워크: 레이블 수준의 데이터를 세밀하게 추적하고, 오류 추세를 분석하며, 데이터 품질 개선을 위한 맞춤형 보고서를 제공합니다.

데이터 소싱 방법

획득한 데이터에 프로젝트 요구 사항에 따라 라벨링되었는지 확인하는 것만으로는 충분하지 않습니다. 데이터는 프로그램이나 장치에 유익하고 완전해야 합니다. 완전한 데이터는 모델을 성공적으로 훈련하는 데 필요한 모든 사용 사례가 포함되어 있어야 합니다.

수동 수집
기술과 인간 참여형 하이브리드 모델 사용
사전 레이블이 지정된 데이터셋(PLD) 사용
합성 데이터 사용

예산이나 시간제한이 없다면 필요한 모든 데이터를 수동으로 얻는 것이 가장 좋습니다. 만약 프로세스를 신속하게 처리해야 하는 기업은 PLD를 사용할 수 있습니다. 저희 에펜은 즉시 사용할 수 있는 250개 이상의 PLD를 지원합니다. 또한 사전 레이블이 지정된 데이터로 작업을 시작한 후 나머지 데이터를 인간이 준비하는 하이브리드 모델을 활용할 수도 있습니다.

의료나 금융 산업과 같이 민감한 데이터를 사용하는 경우 값이 실제 사람과 연결되지 않은 생성된 데이터를 사용하는 것이 좋습니다. 생성된 데이터는 개인 식별 정보(PII)가 없는 데이터를 만들 수 있습니다. 저희 에펜은 생성된 데이터 솔루션을 제공하기 위해 Mindtech와 파트너십을 맺고 있습니다.

라벨링 작업자의 중요성

고품질 데이터를 보장하는 필수적인 방법 중 하나는 정확하게 어노테이션을 지정하고 프로젝트 요구 사항을 준수할 수 있는 전용 라벨링 작업자를 사용하는 것입니다. 에펜은 전 세계적으로 백만 명이 넘는 라벨링 작업자를 보유하고 있습니다. 이들은 프로젝트에 따른 관리 서비스를 통해 엄격한 사전 심사 라벨링 테스트를 통과해야만 작업에 참여할 수 있으며 프로젝트 요구 사항에 맞게 라벨링 할 수 있는지를 테스트합니다.

전체 프로세스에서 어노테이션이 정확한지 측정하려면 데이터의 품질을 확인해야 합니다. 이는 일반적으로 감사 프로세스를 통해 수행됩니다. 감사자는 동일한 사전 심사 프로세스를 거쳐 프로젝트 요구 사항을 유지하고 라벨링이 잘못 지정된 데이터가 모델 훈련에 사용되는 것을 방지합니다.

AI 데이터 품질 관리 지표

관련성 있고 정확한 데이터를 생성하는 AI를 구축하려면, 데이터를 모델 목표에 맞게 정렬하는 것이 필수적입니다. 저희 에펜은 확장 가능한 방식으로 AI 데이터 품질을 측정하는 분석 기능을 통해 뛰어난 AI 데이터 품질을 제공합니다.

정밀도: 데이터 포인트가 일관되게 라벨링되는 정도를 말합니다. 높은 정밀도를 유지 위해서는 철저한 라벨링 작성 지침, 품질 관리 감사, 지속적인 피드백 루프 등이 필요합니다.
정확도: 컴퓨터 비전부터 자연어 처리(NLP)까지 모든 AI 애플리케이션에서 정확성은 필수적입니다. 이를 위해 엄격한 검증 단계, 오류의 근본 원인 분석, 주기적인 벤치마크 평가가 필요합니다.
완전성: 데이터셋의 갭이나 누락된 정보를 최소화하여 도메인의 모든 중요한 측면을 포괄해야 합니다. 데이터 갭을 체계적으로 식별하고, 다양한 범주와 소스를 통합해 멀티모달 AI를 지원합니다.

에펜의 AI 데이터 품질 관리 솔루션

데이터 중심 AI는 알고리즘 발전보다 데이터 품질과 관련성에 중점을 두는 방식으로 AI 개발을 재정의하고 있습니다. 고품질 데이터는 생성형 AI의 잠재력을 최대한 발휘하도록 돕고, 모델 성능을 높이며, 실생활 상황에 더 잘 적응하게 만듭니다.

저희 에펜은 데이터 품질과 혁신을 최우선으로 하여 이러한 변화를 주도합니다. 에펜의 ADAP(Appen Data Annotation Platform)과 전 백만 명이 넘는 데이터 작업자는 기업이 고품질 AI 데이터 수집, 맞춤형 품질 지표, 위험 관리, 상세 보고를 통해 데이터 파이프라인을 강화하도록 지원합니다. 에펜과 같은 많은 경험을 지닌 AI 데이터 파트너와 협력하면 전문 프로젝트 관리자, 언어학자, 데이터 작업자를 통해 대규모 고품질 데이터를 안정적으로 구축할 수 있습니다. 또한 데이터 중심 접근 방식을 통해 더 견고하고 신뢰할 수 있는 AI 시스템을 구축할 수 있습니다.

학습 데이터가 필요하신가요? 데이터 전문가에게 문의하세요.

문의하기