데이터 품질이란?
데이터 품질은 AI 기반 프로그램을 성공적으로 구현하는 핵심이 되는 요소로써 모델 훈련에 사용됩니다. 품질이 낮은 학습 데이터를 사용하면 모델이 올바르게 훈련되지 않고 재교육 및 테스트에 추가 시간과 예산이 필요합니다. 이를 방지하기 위한 가장 좋은 방법은 모델 학습 과정에서 데이터 품질 검사를 실시하는 것입니다. 이때 품질 지표는 목적이나 데이터 유형에 따라 달라질 수 있습니다.
데이터 품질 측정 방법
– 평가자 간 신뢰성(Inter-rater Reliability): 단일 및 이중 검토, 감사(audits)
– F1 점수(F1 Score): 정밀도(precision), 재현율(recall)
– 정확성(Accuracy): 골든 데이터 세트(golden datasets), 퀴즈
1.평가자 간 신뢰도(Inter-rater Reliability)
단일 검토는 두 명의 개별 작업자가 동일한 데이터에 한 사람은 라벨을 달고 다른 한 사람은 라벨링이 올바르게 작성되었는지 검토하고 서로의 일치 여부를 확인하는 프로세스입니다. 이 과정은 데이터에 올바르게 라벨링이 추가되었다고 판단될 때까지 계속됩니다. 이때 두 사람의 의견이 일치하지 않으면 이중 검토가 필요합니다. 여기서 추가되는 세 번째 작업자는 데이터 조각에 대해 작업합니다. 해당 작업이 처음 두 개 중 하나와 일치하면 데이터가 정답으로 간주됩니다. 만약 일치하는 항목이 없으면 데이터가 삭제되고 프로세스가 다시 진행됩니다. 이 프로세스는 100% 일치 또는 일치하지 않는 케이스가 아니라 원하는 경우 부분 일치가 허용될 수 있습니다. 이때 정확도 임계값이 중요한데 해당 임계값이 충족되지 않으면 모델이 제대로 작동하도록 훈련할 만큼 데이터 품질이 충분하지 않습니다.
감사자는 단일 및 이중 검토와 함께 혹은 별도로 작업할 수 있습니다. 감사자는 완성된 데이터를 평가하여 라벨링이 올바르게 작성되었는지 확인하는 임무를 맡고 데이터가 높은 품질을 유지하도록 하는 숙련된 작업자입니다. 또한 데이터 작업을 수행한 사람들에게 피드백을 제공하여 무언이 잘못 수행되었는지 알려줍니다. 잘못된 데이터가 모델에 유입되는 것을 방지하고 더 많은 데이터를 감사하려면 프로젝트에 두 명 이상의 감사자를 두는 것을 추천합니다.
2. F1 점수(F1 Score)
분류 데이터셋에서 자주 사용되는 F1은 제공된 학습 데이터를 기반으로 한 모델의 예측 정확도 점수입니다. 이 점수를 계산하는 데 필수적인 두 가지 측정항목은 재현율과 정밀도입니다. 재현율은 검색된 관련 항목의 비율을 나타내며, 정밀도는 검색된 항목 중에서 실제 관련 항목의 비율을 나타냅니다. 데이터 라벨링에서 정밀도와 재현율 점수 사이의 균형을 찾는 데 F1이 도움이 됩니다. 그러나 정밀도나 재현율 중 하나에만 중점을 두고 있는 경우, F1이 유익하지 않을 수 있습니다.
3. 정확성
퀴즈 기반 정확도는 프로젝트 시작 전과 진행 중에 실시되는 테스트를 통해 측정됩니다. 사전 심사는 크라우드가 프로젝트 요구 사항에 따라 데이터에 구체적으로 라벨링 하는 방법을 이해했는지 확인하기 위한 프로세스입니다. 이때 올바르게 대답해야 하는 질문이 정해져 있어야만 참여할 수 있습니다. 또한 프로젝트 진행 중에는 추가 퀴즈가 제공됩니다.
또 다른 퀴즈 수행 방법은 골든 데이터세트를 사용하는 것입니다. 골든 데이터세트는 라벨링 된 데이터셋에 통합된 사전 레이블이 지정된 데이터 조각입니다. 한 사람이 퀴즈를 수행하여 어노테이션을 달면 정확도 점수가 부여됩니다. 각 작업자가 특정 점수를 획득하면 프로젝트 작업을 계속할 수 있습니다. 이러한 테스트를 통해 프로젝트 소유자는 요구 사항을 충족하지 않는 작업자를 식별하고 훈련 중인 모델에서 해당 작업자와 작업한 데이터를 제거할 수 있습니다.
올바른 데이터 소싱 방법
획득한 데이터에 프로젝트 요구 사항에 따라 어노테이션이 추가되었는지 확인하는 것만으로는 충분하지 않습니다. 데이터는 프로그램이나 장치에 유익하고 완전해야 합니다. 완전한 데이터는 모델을 성공적으로 훈련하는 데 필요한 모든 사용 사례가 포함되어 있어야 합니다.
데이터를 소싱하는 네 가지 주요 방법은 다음과 같습니다.
– 수동 수집
– 기술과 인간 참여형 하이브리드 모델 사용
– 사전 레이블이 지정된 데이터셋(PLD) 사용
– 합성 데이터 사용
예산이나 시간제한이 없다면 필요한 모든 데이터를 수동으로 얻는 것이 가장 좋습니다. 만약 프로세스를 신속하게 처리해야 하는 기업은 PLD를 사용할 수 있습니다. 저희 에펜은 즉시 사용할 수 있는 250개 이상의 PLD를 지원합니다. 또한 사전 레이블이 지정된 데이터로 작업을 시작한 후 나머지 데이터를 인간이 준비하는 하이브리드 모델을 활용할 수도 있습니다.
의료나 금융 산업과 같이 민감한 데이터를 사용하는 경우 값이 실제 사람과 연결되지 않은 생성된 데이터를 사용하는 것이 좋습니다. 생성된 데이터는 개인 식별 정보(PII)가 없는 데이터를 만들 수 있습니다. 저희 에펜은 생성된 데이터 솔루션을 제공하기 위해 Mindtech와 파트너십을 맺고 있습니다.
라벨링 작업자의 중요성
고품질 데이터를 보장하는 필수적인 방법 중 하나는 정확하게 어노테이션을 지정하고 프로젝트 요구 사항을 준수할 수 있는 전용 라벨링 작업자를 사용하는 것입니다. 에펜은 전 세계적으로 백만 명이 넘는 라벨링 작업자를 보유하고 있습니다. 이들은 프로젝트에 따른 관리 서비스를 통해 엄격한 사전 심사 라벨링 테스트를 통과해야만 작업에 참여할 수 있으며 프로젝트 요구 사항에 맞게 라벨링 할 수 있는지를 테스트합니다.
전체 프로세스에서 어노테이션이 정확한지 측정하려면 데이터의 품질을 확인해야 합니다. 이는 일반적으로 감사 프로세스를 통해 수행됩니다. 감사자는 동일한 사전 심사 프로세스를 거쳐 프로젝트 요구 사항을 유지하고 라벨링이 잘못 지정된 데이터가 모델 훈련에 사용되는 것을 방지합니다.
데이터 품질 지표
데이터 품질 지표는 주관적이거나 객관적일 수 있습니다.
– 객관적 사용 사례: 분류(classification) 및 세분화(segmentation)
– 주관적 사용 사례: 관련성 순위 및 감정 분석(sentiment analysis)
객관적인 사용 사례에는 일반적으로 간단한 답변이 포함됩니다. 예를 들어 이미지에 감자튀김이 포함되어 있는지 묻는 경우가 있습니다.
주관적인 사용 사례에서는 답변이 다양할 수 있습니다. 예를 들어, 사용자가 본 결과가 검색한 주제와 관련이 있는지 물을 수 있습니다. 이때 두 사람이 동일한 상황을 다르게 인식할 수 있기 때문에 각각의 답변은 조금씩 다를 수 있습니다. 이러한 객관적인 지표는 항목이나 프로그램과 상호 작용하는 사용자가 이를 어떻게 인식할지에 대한 합의를 수집합니다. F1 및 퀴즈 기반 데이터 품질 지표는 보다 객관적인 데이터 세트를 처리하는 데 적합하며, 평가자 간 신뢰도는 주관적인 데이터 세트에 알맞습니다.
에펜의 데이터 품질 관리 솔루션
에펜은 전 세계적으로 백만 명이 넘는 다양한 작업자들과 함께 모든 유형의 데이터를 사용하여 AI 프로젝트를 지원합니다. 모든 종류의 품질 지표에 대한 경력이 풍부한 프로젝트 관리자를 보유하고 있을 뿐만 아니라 ADAP(Appen Data Annotation Platform)를 통해 선택한 측정항목에 대한 데이터를 수집하고 어노테이션 작업을 수행할 수 있습니다.
다음 AI 프로젝트에 어떤 데이터 품질 기준을 사용해야 하는지 고민 중인가요? 지금 바로 에펜의 AI 데이터 전문가에게 상담받아보세요!