AI 탐지기 비교 – GPTZero, Sapling AI, OpenAI GPT2
AI 탐지기 등장 배경
학계와 뉴스를 포함한 다양한 분야에서 AI가 생성한 텍스트를 탐지해 내는 것은 매우 어렵습니다. 단 한 줄의 명령어만으로도 대형 언어 모델(LLM)을 통해 설득력 있는 텍스트를 생성할 수 있게 되면서 이제 우리가 접하는 많은 정보들이 인간에 의해 만들어진 것인지 아닌지에 대해 의심해봐야 할 때가 됐습니다. 하지만 LLM이 생성한 텍스트는 인간에 의해 작성되었는지 혹은 그 내용이 정확한지, 편향된 아이디어와 진술을 포함하고 있지는 않은지를 판단하기가 점점 어려워지고 있습니다.
AI의 텍스트 생성 기술의 발전은 인간과 기계가 생성한 콘텐츠를 구별하기 어렵게 만들었습니다. 이는 정확한 데이터 어노테이션이나 라벨링 작업을 필요로 하는 기업들에게 큰 도전 과제가 됩니다. OpenAI가 2023년 초에 출시한 AI 탐지기, OpenAI GPT2는 AI 생성 텍스트의 단 26%만을 구별해 낼 수 있었고 그로 인해 6개월 만에 서비스가 중단되었습니다.
현재 시장에 나와 있는 AI 탐지기는 합성 데이터와 실제 인간이 생성한 데이터를 바탕으로 한 텍스트 기반 접근 방식을 통해 AI가 생성한 텍스트를 탐지합니다. 이러한 솔루션은 인간이 작성한 콘텐츠와 유사한 LLM 생성 텍스트를 탐지하는 데 한계가 있으며, 현재의 AI 탐지 방법은 그 정확도가 많이 떨어집니다. 만약 AI 생성 텍스트가 인간이 생성한 데이터로 잘못 라벨링 되면 이후에 생성되는 모든 데이터의 정확성과 신뢰성에 까지 영향을 끼치게 될 수 있습니다.
AI 탐지가 어려운 이유
- LLM의 지속적인 성능 개선
- 새로운 데이터로 AI 탐지기를 훈련시키는 경쟁의 심화
- 상업용 제품부터 오픈 소스 모델에 이르기까지 LLM에 대한 대중 접근성 증가
- 텍스트 생성 AI의 사용 증가로 인한 실제 데이터 세트의 부족
- 데이터 어노테이션에 사용되는 AI 생성 텍스트의 증가
- 모델 평가에 사용할 표준화된 지표의 부재
- 타사 모델의 방법론에 대한 투명성 부족
AI 탐지의 핵심, 올바른 지표 선택
정확한 AI 탐지는 올바른 지표 식별에서 시작됩니다. 다양한 지표를 이해하고, 목표를 정확하게 반영하는 지표를 선택하면 성공을 정확하게 평가할 수 있습니다.
모델 정확도는 성능을 평가하는 주요 지표 중 하나지만 불균형한 데이터 세트나 비용 민감도가 중요한 경우에는 모델 효율성을 나타내지 못합니다. 모델 정확도는 일반적으로 전체 예측 수에서 올바른 예측의 비율로 표현됩니다. 즉, 불균형 데이터 세트에서는 정확도와 오탐율 두 가지 모두 높게 나타날 수 있고 이러한 이유 때문에 AI 탐지기는 신뢰하기가 어렵습니다.
AI 데이터 작업 시 크라우드가 외부 LLM의 도움 없이 스스로 데이터를 작업하는 것이 중요합니다. 높은 정확도와 동시에 높은 오탐율을 가진 모델을 사용하는 것은 데이터 작업자들의 신뢰를 저해할 수 있습니다.
정확도 외에도, 곡선 아래 면적이나 오탐(False positive), 진탐(False negative) 등 다양한 지표를 사용할 수 있습니다. 이때 가장 의미 있는 지표를 선택하는 것은 AI 탐지기의 특정 사용 사례와 맥락에 따라 변할 수 있습니다. 그래서 지표 정의는 비즈니스 요구와 일치시키는 것이 중요하며 이는 제품 및 데이터 사이언스 팀 간의 협력이 필요합니다.
저희 에펜에서는 보수적인 접근 방식을 취할 뿐만 아니라 AI 탐지기가 효율적이라고 간주하는 지표를 우선시하여 인간이 작성한 텍스트를 AI 생성으로 잘못 식별하는 빈도를 평가합니다. AI 생성으로 잘못 라벨링 된 데이터는 다시 이 결정을 반박할 수 있는 수단이 거의 없기 때문에 저희는 인간이 작성한 텍스트가 AI 생성 텍스트로 잘못 식별된 비율인 오탐율을 면밀히 조사합니다.
AI 탐지기 벤치마크 테스트
AI 탐지기가 인간이 생성한 텍스트를 AI 생성으로 잘못 분류한 빈도에 대한 결과를 기반으로 다양한 시장 솔루션의 효과를 알아볼 수 있는 벤치마크 테스트 결과를 공유합니다. 테스트에 사용된 AI 탐지기는 OpenAI 제품을 대조군으로 사용했으며, 상업적 솔루션, 오픈 소스 솔루션, 그리고 자체 개발한 머신러닝 기반 모델 등 네 가지 인기 있는 제품을 평가했습니다. 각 모델은 에펜이 직접 생성한 고품질 인간 데이터로 테스트되었습니다. 또한 테스트 결과는 효율적인 AI 탐지기를 위한 예상 성능 기준인 정확도 95%와 비교하여 벤치마킹되었습니다.
테스트 결과, 현재 시장에 나와 있는 어떤 솔루션도 정확도 95%의 기준을 충족하지 못했으며, 모든 모델의 오탐율이 10% 이상이었습니다. 이는 AI 탐지기가 인간이 작성한 텍스트를 잘못 라벨링 하는 비율이 높음을 의미합니다.
API
우리는 성능을 평가하기 위해 잘 알려진 3가지 API를 선택했습니다.
- Sapling AI
- GPTZero 문장 및 문서 수준
- OpenAI GPT2 감지기(OpenAI의 초기 모델로 기준점 역할을 함)
크라우드 기준
AI 탐지기 테스트에는 미국과 필리핀에 거주하는 원어민 또는 원어민에 가까운 수준의 영어 능력을 가진 24명의 크라우드 그룹이 참여했습니다. 또한 이 그룹을 기반으로 제어 데이터 세트를 만들었습니다.
테스트
테스트는 아래 두 가지 다른 조건 하에 진행됐습니다.
- 인간: 외부 도움 없이 프롬프트에 응답하도록 지시
- AI: ChatGPT와 같은 생성형 AI를 사용하여 프롬프트에 응답하도록 지시
각 작업 전에 참여자가 테스트에 대한 지침을 이해하고 작업에 대해 편안하게 느낄 수 있도록 교육을 수행했으며 모든 프롬프트는 오픈 소스 Dolly 데이터 세트에서 선택되었습니다.
가이드라인
테스트 가이드라인은 필요한 데이터를 효율적으로 사용하기 위해 최대한 간단하게 유지되었습니다. 참여자들은 에펜의 데이터 어노테이션 플랫폼(ADAP)에서 최소 150 단어 이상의 텍스트를 작성하고, 문법과 철자에 주의하며, 유해한 독성 콘텐츠를 피하고, 프롬프트에 정확히 응답하도록 요청받았습니다. 또한 과도하게 개인적인 진술이나 정당화를 피하도록 권장되었습니다. 또한 AI를 기반으로 작업하는 경우, 참여자들은 자신이 선호하는 언어 모델을 선택했습니다.
결과
총 7단계 작업을 통해 636개의 프롬프트-응답 쌍 데이터 세트가 생성됐습니다. 이 중 334쌍은 생성형 AI 도구를 사용하여 작성되었고, 302쌍은 인간 참여자에 의해 작성되었습니다.
각 모델은 5-폴드 계층화 교차 검증을 사용하여 평가되었습니다. 결과는 정확도, f1 점수, 오탐율, 진탐율 등의 지표를 고려하여 모든 폴드에서 집계되었습니다.
API 성능 테스트 결과
테스트 결과, 일부 모델이 특정 지표에서 더 나은 성능을 보였지만, 평가된 AI 감지 도구 중 어느 것도 예상된 정확도 95% 기준을 충족하지 못했습니다. 오탐율은 16%에서 70%까지 넓은 범위를 보였으며, 이는 AI 탐지에 대한 추가 개선이 필요함을 시사합니다.
OpenAI의 AI 탐지기 비교
OpenAI는 과거 ChatGPT용 AI 탐지기를 출시했으며, 이는 오탐율 9%, 진탐율 26%를 가진 것으로 보고되었습니다. 하지만 이 모델은 현재 서비스가 중단됐기 때문에 데이터 세트를 사용하여 평가할 수는 없었습니다. 그럼에도 불구하고 OpenAI는 현재 AI 생성 콘텐츠에 있어 가장 뛰어난 기업이기 때문에 실제 데이터를 다루는 몇 안 되는 모델 중 하나로써 주목할 가치가 있습니다.
이번 테스트에서는 FPR를 9% 이하로 유지하기 위해, 각 모델에서 관찰된 최고의 TPR을 다양한 임계값을 최적화하여 다시 계산했습니다. 이를 통해 OpenAI의 모델과의 비교를 통해 유료 API의 개선 정도를 평가할 수 있었습니다. 또한 FPR을 9% 이하로 유지하기 위해 API를 테스트하고, 다양한 임계값을 사용하여 달성된 최고의 TPR을 찾으려 했습니다.
OpenAI 탐지기와의 비교 결과
초기 테스트 결과, 모든 모델이 OpenAI의 탐지기보다 성능이 떨어졌습니다. 이 탐지기는 진탐율 26%와 오탐율 9%를 보였습니다. 그리고 모델 중 GPTZero가 가장 높은 성능을 보였으며, 진탐율 15%와 오탐율 8%를 보였습니다. GPTZero는 종종 91%를 초과하는 매우 높은 진탐율을 나타내기도 했지만, 오탐율도 73%로 매우 높았습니다. 이렇게 높은 오탐율은 데이터 작업자들에게 위험을 초래하며, 이는 OpenAI가 해당 모델을 중지한 이유입니다.
Patel은 오탐율을 최소화하는 것은 시스템에 대한 신뢰를 유지하고 공정성을 보장하는 데 중요하며 진탐은 실제 부정행위를 잡는 데 중요하다고 했습니다. 또한 오탐 감소를 우선시함으로써 정확성과 무고한 사람들에게 해를 끼치지 않는 것 사이의 균형을 맞추는 것의 중요성을 강조했습니다.
흥미롭게도, GPTZero 모델은 데이터 세트에서 낮은 오탐율을 달성하지 못했기 때문에 테스트에서 제외되었습니다. Sapling 모델도 비슷한 문제를 겪었으며, 오탐율 요구 사항을 충족하기 위해 모든 사례를 AI로 예측해야 했습니다. 오직 GPTZero만이 비교적 좋은 성능을 보였으며 오탐율이 OpenAI 탐지기보다 3% 낮게 나타났습니다. 그러나 이 모델은 OpenAI 솔루션보다 더 적은 진탐을 식별했습니다. 이는 AI 탐지 기술에서 오탐을 최소화하고 진탐을 극대화하는 것 사이의 트레이드오프를 나타냅니다.
AI 탐지기의 미래
이번 연구는 현재 AI 탐지 기술이 AI 생성 콘텐츠 발전을 따라가지 못하고 있음을 보여줍니다. 좋은 결과를 보인 몇몇 API도 있었지만 그 결과가 여전히 기대치에는 미치지 못했으며 다소 낮은 정확도를 보였습니다. 이러한 시스템이 AI 생성 콘텐츠를 정확하고 효율적으로 식별하고 유해하거나 기만적인 정보를 보호할 수 있도록 하기 위해서는 추가적인 개선이 필요합니다.
인공지능 기술이 계속 발전함에 따라, AI 생성 콘텐츠 탐지 방법은 지속적인 재평가와 업데이트를 통해 개선되어야 합니다. 또한 새로운 기술을 수용하면서도 기존 데이터를 신중하게 평가하는 것이 중요합니다. AI 생성 콘텐츠를 효과적으로 탐지하고 규제하는 것은 오늘날 세계에서 AI를 보다 책임감 있고 윤리적으로 사용하는 중요한 단계입니다.
인간이 생성한 고품질 AI 데이터가 필요하신가요? 지금 바로 에펜의 데이터 전문가에게 상담 받아보세요!
LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.