AI 탐지기로 고품질 크라우드소싱 데이터 생성하는 법
생성형 AI 기술이 발전할수록 인간과 인공지능이 생성한 콘텐츠를 구분하기가 어려워집니다. 반면 데이터 출처 표기에 대한 필요성이 증가함에 따라 인간이 직접 생성한 데이터셋의 중요성은 점차 증가되고 있습니다. 인간이 만든 고품질 데이터를 필요로 하는 크라우드소싱 데이터 플랫폼이나 AI 모델 구축 기업은 인간과 인공지능이 생성한 데이터의 차이를 구분하기 어려워짐에 따라 고품질 데이터 수급에 문제를 겪고 있습니다.
고품질 학습데이터의 중요성
고품질 학습 데이터를 구축하기 위해서는 인간이 생성한 콘텐츠와 AI가 생성한 콘텐츠를 구별하는 것이 매우 중요합니다. 또한 AI 모델을 훈련하는데 필요한 다양한 길이와 주제의 콘텐츠를 작성할 수 있는 전문가가 필요합니다.
이에 따라 대형 언어 모델(LLM)이 출시된 후에는 크라우드소싱 데이터를 AI 탐지기를 통해 인간과 기계가 생성한 콘텐츠를 구별하는 작업이 중요해졌습니다. 인공지능 탐지기는 다양한 응용 프로그램에서 신뢰할 수 있는 소스로 인식됩니다. 하지만 실제로 탐지기를 테스트해 본 결과, 분류 성능 평가에서 True Positive Rate(TPR)는 다소 낮고 False Positive Rate(FPR)는 기준에 비해 높게 나왔습니다. 이러한 오류는 AI 프로젝트를 위한 크라우드소싱 데이터에 문제를 야기하게 됩니다.
AI 탐지기와 크라우드소싱 데이터
AI 탐지기는 크라우드소싱된 데이터 수집 및 가공 작업에서 AI가 생성한 텍스트를 잘 구별하지 못합니다. 또한 현재의 AI 탐지기 모델은 맥락적 단서에 크게 의존하기 때문에 데이터 어노테이션에서 높은 FPR을 나타냅니다. 뿐만 아니라 LLM이 점점 인간의 글쓰기와 구별하기 힘들 만큼 정교한 텍스트를 생성하게 되면서 이와 같은 합성 콘텐츠를 식별하기가 더 어려워졌습니다. 그럼 실제로 AI 탐지기의 크라우드소싱 데이터 식별 정확도는 어떻게 나타날까요?
AI 탐지기 비교
AI 탐지기 비교를 위해 에펜이 직접 진행한 연구에는 세 가지 다른 API가 평가됐습니다. 이번 연구에서는 FPR을 9% 이하로 낮추면서도 TPR을 최대화하기 위해 임계값을 조정했습니다. 연구 결과, 일부 모델은 높은 TPR을 달성했지만, FPR은 매우 높았으며, 가장 성능이 좋은 모델인 GPTZero의 FPR은 73%에 도달했습니다. 이러한 트레이드오프는 TPR 성능에 큰 영향을 미치며, FPR을 9% 이하로 유지하는 것이 얼마나 어려운지를 알 수 있습니다.
그렇다면 크라우드소싱 데이터 작업에서 어떻게 하면 AI가 생성한 텍스트의 위험을 효과적으로 완화하고 인간이 생성한 데이터를 식별할 수 있을까요?
AI 탐지의 새로운 방법론
인간과 AI가 생성한 텍스트를 구별하기 위해, 저희 에펜은 실제 사용자 행동을 분석하고 인간의 콘텐츠 생성 워크플로우와 LLM 기반 콘텐츠 생성 워크플로우의 차이점에 초점을 맞췄습니다.
인간의 콘텐츠 생성 워크플로우
- 프롬프트를 읽고 아이디어를 구상한 후 응답을 작성합니다.
- 프롬프트를 읽고 어노테이션 플랫폼 내에서 작성하고 수정한 후 최종 결과물을 제출합니다.
- 빠른 타이핑 후 천천히 “타이핑 스프린트”에 참여합니다.
- 작성하는 동안 산만해지고 여러 번 작업 화면을 벗어납니다.
LLM 기반 콘텐츠 생성 워크플로우
- 프롬프트를 LLM에 입력하고 생성된 응답을 어노테이션 플랫폼에 붙여 넣습니다.
- 프롬프트를 LLM에 입력하고 외부에서 생성된 응답을 수정한 후 수정된 응답을 어노테이션 플랫폼에 붙여 넣습니다.
- 외부 LLM에서 응답을 생성하고 작업에 그대로 타이핑합니다.
- 외부 LLM에서 응답을 생성하고 어노테이션 플랫폼에 붙여 넣은 후 추가 수정합니다.
워크플로우 분석 결과, 저희는 두 가지 워크플로우에 큰 차이가 있으며 이를 통해 텍스트 분석만으로는 드러나지 않는 프로세스 기반 접근법이 더 효과적일 수 있음을 알아냈습니다. 인간 데이터 작업자가 외부 도구를 사용하는 것을 직접 관찰할 수는 없지만, 디바이스 상호작용을 관찰함으로써 AI 툴 사용 여부를 알아낼 수 있습니다. 이러한 방법은 인간과 AI가 작성한 콘텐츠를 구별하는 데 도움을 줄 뿐만 아니라, 맥락적으로 식별하기 어려운 데이터 분산에도 활용됩니다.
새로운 AI 탐지기 테스트 결과
이번에는 새로운 방법론을 적용한 에펜의 AI 탐지기와 기존 모델들의 성능을 비교해 보았습니다. 이번 성능 평가는 5단계 교차 검증을 기반으로 모든 레벨에서 결과를 집계하고 정확도와 F1 점수, FPR, TPR 등의 지표를 평가했습니다.
인간 중심 접근 방식으로 데이터 수집을 다루는 저희 에펜은 풍부한 경험을 활용하여 데이터 작업자들 사이에서 발생하는 행동 패턴을 발견했을 뿐만 아니라 통계 분석을 통해 식별된 주요 행동을 포함한 머신러닝 모델을 개발했습니다. 그 결과, 에펜의 AI 탐지기 모델은 다양한 지표에서 테스트된 모든 경쟁 API를 능가했으며 다음과 같은 특징을 나타냈습니다.
- 정확도가 가장 높게 나타난 GPTZero보다 20포인트 높은 점수를 받음
- TPR는 가장 높고 FPR는11로 가장 낮게 평가됨
- FPR가 낮았던 GPTZero보다도05포인트 낮은 점수 달성
- FPR을 최고07까지 달성
- TPR을 73%까지 증가시켜 성능을 6배 높임
AI 탐지기 성능 향상 방법
이 평가의 기본 원칙은 낮은 FPR을 유지하는 것이었습니다. 그리고 기여자들 사이의 신뢰를 보장하는 동시에 악의적인 플레이어의 잠재적인 위험을 최소화를 목표로 했습니다. 따라서 FPR를 높이지 않으면서 TPR을 개선하는 것이 가장 중요했습니다. 이러한 균형 조정 작업은 AI가 생성한 텍스트를 효과적으로 감지하는 동시에 잘못된 경고의 위험을 최소화하는 데 도움이 됩니다.
주로 콘텐츠를 기반으로 한 AI 모델은 글쓰기 스타일이나 글의 길이, 구문 등과 관련된 높은 노이즈 수준을 처리합니다. 하지만 이러한 모델은 비원어민 영어 작업자의 콘텐츠를 AI가 생성한 것으로 잘못 식별하게 되는 실수를 만들 수 있습니다.
하지만 에펜은 데이터 작업자의 생체 행동 패턴 관찰을 기반으로 한 인간 중심 접근법을 통해 실수를 최소화합니다. 이러한 추가 학습의 특징은 맥락적 단서가 모호하지만 행동 신호가 명확할 때 AI가 생성한 텍스트를 인간이 작성한 텍스트와 구별해 낼 수 있습니다. 더 발전된 버전은 콘텐츠 기반 특징을 행동 기반 특징과 통합하여 행동 신호가 클래스 간 유사할 때 성능을 향상할 수 있으며, 맥락적 단서는 다양해집니다.
또한 이러한 모델은 AI 탐지 파이프라인의 일부가 되어 ML 모델의 출력과 작업자 신호를 결합하여 크라우드소싱 데이터 작업자가 콘텐츠 생성 과정에서 LLM을 사용하는지 아닌지에 대한 결정을 내릴 수 있게 합니다.
정리
AI 모델 훈련을 위한 크라우드소싱 데이터 품질 향상을 위해 노력하는 저희 에펜은 두 가지 주요 과제에 직면했습니다. 첫째, 남은 FPR 유지를 통해 데이터 작업자들의 신뢰를 유지하는 것. 둘째, 크라우드소싱 작업에서 AI가 생성한 텍스트로부터 보호하기 위해 신뢰하는 솔루션을 만드는 것입니다.
주로 맥락적 단서에 중점을 둔 기존 AI 탐지기는 높은 FPR을 나타내기 때문에 저희는 행동 접근법으로 전환했습니다. 텍스트 작성 중의 행동 패턴을 연구함으로써, 인간과 AI가 생성한 콘텐츠를 더 견고하게 구별해 낼 수 있게 됐습니다. 이 전략은 에펜이 다양한 데이터 작업에서 인간 상호작용을 관찰하고 분석할 수 있게 했습니다.
그 결과, 저희는 높은 품질의 인간이 생성한 데이터를 보장하는 모델을 개발했습니다. 정확도에서 경쟁 API를 현저히 능가하며, 가장 높은 TPR을 나타내면서도 FPR은 가장 낮게 유지됩니다. 이 성능은 AI 모델이 인간이 생성한 데이터로만 훈련되도록 보장하며 더 나아가 데이터 품질을 높게 유지할 수 있게 합니다.
고품질 크라우드소싱 데이터가 필요하신가요? 지금 바로 에펜의 데이터 전문가에게 상담해 보세요!
LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.