AI 탐지기 어떤 걸 써야 할까? 성능 비교 분석

AI 탐지기의 등장
대형 언어 모델(LLM)의 발전으로, 단 한 줄의 명령어만으로도 설득력 있는 글을 쓸 수 있게 되었습니다. 그 결과, 우리가 접하는 콘텐츠가 인간이 쓴 것인지 AI가 생성한 것인지 구별하기가 점점 어려워지고 있습니다. 이는 학계, 뉴스, 기업 데이터 관리 등 다양한 분야에서 중요한 문제로 떠오르고 있습니다.
AI가 만든 글은 때때로 정확하지 않거나 편향된 내용을 담을 수 있지만, 이를 판별하는 것은 쉽지 않습니다. 특히 데이터 어노테이션이나 라벨링을 필요로 하는 기업들에게는 큰 도전 과제입니다. 실제로 OpenAI가 2023년 초 출시한 AI 탐지기는 인공지능이 생성한 텍스트의 26%만 식별할 수 있었고, 그 제약성 때문에 6개월 만에 서비스가 종료되었습니다.
AI 탐지기의 원리는?
AI 탐지기 원리는 AI 탐지기가 인간이 쓴 글과 AI가 쓴 글을 비교하며 통계적인 패턴을 찾아내는 것입니다. 예를 들어, AI는 특정 단어를 반복적으로 사용하거나 문장 길이가 일정한 경향이 있습니다. 반면 인간은 더 창의적이고 불규칙한 문장을 만듭니다. 또한 AI가 작성한 긴 글은 문맥 연결이 부자연스럽거나 논리적 일관성이 떨어지는 경우가 많습니다. AI 감지기는 이러한 차이를 바탕으로 인공지능 생성 콘텐츠를 판별합니다.
AI 탐지가 어려운 이유는?
- LLM이 지속적으로 발전하고 있기 때문에 AI 탐지기가 그 속도를 따르는 것은 쉽지 않습니다.
- AI 탐지기 훈련에 필요한 고품질 데이터 부족하여 성능이 좋은 탐지기를 만드는데 한계가 있습니다.
- 반면 LLM은 상업용 및 오픈 소스 접근성이 확대되면서 풍부한 데이터가 지속적으로 공급되고 있습니다.
- AI 탐지기에 쓰이는 데이터 라벨링 과정에는 AI가 생성한 데이터가 섞여 있을 수 있고 이는 데이터의 품질을 낮춥니다.
- AI 탐지기에 대한 표준화된 평가 지표가 부족합니다.
- 적대적 공격을 방지하기 위해 제3자 모델이 사용하는 방법론의 투명성이 부족합니다.
즉, 현재는 AI 탐지기가 LLM의 기술 발전 속도를 따라가지 못하는 상황입니다.
AI 탐지기 정확도는 어떻게 평가하나요?
탐지기의 성능을 평가할 때는 적절한 지표를 선택하는 것이 핵심입니다. 단순히 모델의 정확도만 보는 것은 위험합니다. 불균형한 데이터 세트에서는 정확도와 오탐율 두 가지 모두 높게 나타날 수 있기 때문입니다. 또한 AI 데이터 시에는 데이터 작업자가 AI의 도움 없이 스스로 데이터를 작업하는 것이 중요합니다. AI의 도움으로 생성된 데이터는 높은 정확도와 동시에 높은 오탐율을 동시에 가진 데이터를 생성할 확률이 높기 때문입니다.
AI 탐지기의 정확도를 평가하기 위해서는 단순히 정확도 외에도 오탐율(FPR), 진탐율(TPR), F1 점수 같은 다양한 지표를 활용해야 합니다. 이때 가장 의미 있는 지표를 선택하는 것은 AI 탐지기의 특정 사용 사례와 맥락에 따라 변할 수 있습니다. 그래서 지표 정의는 비즈니스 요구와 일치시키는 것이 중요하며 이는 제품 및 데이터 사이언스 팀 간의 협력이 필요합니다.
이에 따라 저희 에펜은 보수적인 접근 방식을 취해 오탐율을 면밀히 평가하며, 탐지기가 불필요하게 인간의 글을 AI 생성으로 잘못 라벨링하지 않도록 중점을 두고 있습니다.
AI 탐지 API 벤치마크 테스트
에펜은 자체적으로 벤치마크 테스트를 진행했습니다. 상업용 솔루션, 오픈 소스 솔루션, 그리고 자체 개발 모델까지 네 가지 탐지기를 평가했으며, 기준 정확도는 95%로 설정했습니다. 그러나 결과적으로 어느 모델도 이 기준을 충족하지 못했고, 모든 솔루션의 오탐율이 10% 이상이었습니다. 즉, 현재 시장의 탐지기는 인간이 쓴 글을 잘못 식별하는 경우가 많다는 뜻입니다.
테스트에 사용 된 AI 탐지기
성능을 평가하기 위해 잘 알려진 3가지 API를 선택했습니다.
- Sapling AI
- GPTZero 문장 및 문서 수준
- OpenAI GPT2 감지기(OpenAI의 초기 모델로 기준점 역할을 함)
테스트 참여자 그룹
AI 탐지기 테스트에는 미국과 필리핀에 거주하는 원어민 또는 원어민에 가까운 수준의 영어 능력을 가진 24명의 크라우드 그룹이 참여했습니다. 또한 이 그룹을 기반으로 제어 데이터 세트를 만들었습니다.
테스트 전제 조건
테스트는 아래 두 가지 다른 조건 하에 진행됐습니다.
- 테스트 참여자: 외부 도움 없이 프롬프트에 응답하도록 지시
- AI: ChatGPT와 같은 생성형 AI를 사용하여 프롬프트에 응답하도록 지시
각 작업 전에 참여자가 테스트에 대한 지침을 이해하고 작업에 대해 편안하게 느낄 수 있도록 교육을 수행했으며 모든 프롬프트는 오픈 소스 Dolly 데이터 세트에서 선택되었습니다.
테스트 가이드라인
테스트 가이드라인은 필요한 데이터를 효율적으로 사용하기 위해 최대한 간단하게 유지되었습니다. 참여자들은 에펜의 데이터 어노테이션 플랫폼(ADAP)에서 최소 150 단어 이상의 텍스트를 작성하고, 문법과 철자에 주의하며, 유해한 독성 콘텐츠를 피하고, 프롬프트에 정확히 응답하도록 요청받았습니다. 또한 과도하게 개인적인 진술이나 정당화를 피하도록 권장되었습니다. 또한 AI를 기반으로 작업하는 경우, 참여자들은 자신이 선호하는 언어 모델을 선택했습니다.
테스트 결과
- 총 7단계 작업을 통해 636개의 프롬프트-응답 쌍 데이터 세트가 생성됐습니다.
- 이 중 334쌍은 생성형 AI 도구를 사용하여 작성되었고, 302쌍은 인간 참여자에 의해 작성되었습니다.
- 각 모델은 5-폴드 계층화 교차 검증을 사용하여 평가되었습니다.
- 결과는 정확도, f1 점수, 오탐율, 진탐율 등의 지표를 고려하여 모든 폴드에서 집계되었습니다.

- 어떤 모델도 95% 정확도 기준에 도달하지 못했습니다.
- 오탐율은 16~70%로 매우 높았습니다.
- 일부 API(GPTZero 등)는 특정 조건에서 높은 진탐율을 보였으나 오탐율도 지나치게 높아 실무 적용이 어려움
OpenAI AI 탐지기와의 비교
OpenAI는 과거 ChatGPT용 AI 탐지기를 출시했는데, 이 모델은 오탐율 9%, 진탐율 26%의 성능을 보였습니다. 현재는 서비스가 중단되어 새로운 데이터 세트로 직접 검증할 수는 없지만, AI 생성 콘텐츠 분야에서 선도적인 기업이기 때문에 여전히 중요한 참고 사례로 평가됩니다.
이번 테스트에서는 각 탐지기의 성능을 OpenAI 모델과 비교하기 위해, 오탐율(FPR)을 9% 이하로 유지하면서 가능한 가장 높은 진탐율(TPR)을 내도록 임계값을 조정했습니다. 이를 통해 유료 API가 OpenAI 모델보다 얼마나 개선되었는지를 살펴봤습니다.
그러나 초기 결과는 기대에 못 미쳤습니다. 모든 모델이 OpenAI 탐지기보다 낮은 성능을 보였고, 특히 GPTZero는 비교적 나은 결과를 냈지만 한계가 뚜렷했습니다. GPTZero는 평균적으로 진탐율 15%, 오탐율 8%를 기록했으나, 특정 상황에서는 진탐율이 91%를 넘는 대신 오탐율이 73%까지 치솟기도 했습니다. 이렇게 높은 오탐율은 데이터 작업자들에게 심각한 위험을 줄 수 있으며, OpenAI가 자사 탐지기를 중단한 이유와도 연결됩니다.

하지만 여기서 흥미로운 점은 GPTZero가 낮은 오탐율을 유지하지 못하여 최종 테스트에서는 제외되었다는 사실입니다. Sapling 모델도 비슷한 문제를 겪었고, 오탐율 조건을 맞추기 위해 극단적으로 모든 사례를 AI로 분류해야 했습니다. 결과적으로 OpenAI 탐지기에 비해 상대적으로 나은 성능을 낸 것은 GPTZero뿐이었지만, 여전히 OpenAI 솔루션보다 적은 진탐을 잡아냈습니다. 이는 AI 탐지 기술이 오탐 최소화와 진탐 극대화 사이에서 반드시 트레이드오프를 고려해야 함을 보여줍니다.
AI 탐지기의 미래
이번 연구는 현재 AI 탐지 기술이 AI 생성 콘텐츠 발전을 따라가지 못하고 있음을 보여줍니다. 좋은 결과를 보인 몇몇 AI 감지기도 있었지만 그 결과가 여전히 기대치에는 미치지 못했습니다. 이러한 시스템이 AI가 생성한 콘텐츠를 정확하고 효율적으로 식별하고 하기 위해서는 끊임없는 재평가와 개선이 필요합니다. 특히 AI 생성 텍스트를 잘못 라벨링하는 문제는 신뢰성과 공정성에 직접적으로 영향을 주기 때문에 더욱 주의 깊게 다뤄야 합니다. 궁극적으로 AI 탐지 기술은 단순한 기술적 과제를 넘어, AI를 책임감 있고 윤리적으로 사용하는 핵심 도구가 될 것입니다.
LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.

