Appen, 허깅페이스의 Open ASR Leaderboard에 프라이빗 고품질 음성 데이터 제공하다

2026/05/13

새로운 데이터셋으로 실제 환경에 더 가까운 음성 인식 성능 평가 가능해지다

2026년 5월 6일, 미국 워싱턴주 커클랜드, AI 고품질 데이터 분야의 선도 기업인 Appen은 허깅페이스와 협력해 음성 인식 분야에서 널리 사용되는 벤치마크 중 하나인 Open ASR Leaderboard에 프라이빗 고품질 음성 데이터셋을 제공했습니다. Open ASR Leaderboard는 2023년 9월 출시 이후 70만 회 이상 방문되고 있으며, ASR 모델을 평가하는 핵심 기준으로 자리 잡았습니다. 이 리더보드는 단어 오류율(WER, Word Error Rate)을 기준으로 모델 순위를 매기며, 점수가 낮을수록 더 정확한 음성 인식 성능을 의미합니다.

음성 AI 분야는 모델 성능 측면에서 큰 발전을 이뤘지만, 이를 측정하는 벤치마크는 아직 그 속도를 따라가지 못하고 있습니다. 실제 사용 환경을 반영하는 데이터가 있어야 리더보드도 진정한 의미를 가질 수 있습니다. 이번 Hugging Face와의 협업은 바로 그 문제를 해결하기 위한 것입니다. - Sergio Bruccoleri, Appen 딜리버리 부문 부사장

공개 벤치마크의 한계와 ‘벤치맥싱(Benchmaxxing)’ 문제

리더보드의 영향력이 커질수록 ‘벤치맥싱(benchmaxxing)’ 문제도 함께 커지고 있습니다. 벤치맥싱은 오픈 테스트셋에서 높은 점수를 얻기 위해 모델을 과도하게 최적화하는 방식으로, 이러한 방법을 사용한 모델은 실제 환경에서 동일한 성능 향상으로 이어지지 않는 경우가 많습니다. Appen은 이러한 문제를 해결하기 위해 새로운 프라이빗 영어 음성 데이터셋을 허깅페이스에 제공했으며, 이 데이터는 리더보드 평가 체계에 포함되게 됐습니다. 그 결과 데이터셋을 외부에 공개하지 않는다는 특성 때문에 특정 평가셋에 맞춘 최적화가 훨씬 어려워지고, 결과의 신뢰성도 높아졌습니다.

Appen이 제공한 데이터셋의 특징

Appen이 제공한 데이터는 읽기형(scripted) 음성과 자연 대화형(conversational) 음성을 모두 포함하며, 다양한 영어 억양을 지원한다. 리더보드는 이를 통해 단순 평균 점수 이상의 세밀한 성능 차이를 보여줄 수 있게 됐습니다.

Appen의 도움으로 새롭게 추가된 주요 평가 지표는 다음과 같습니다.

  1. Average Scripted WER: 여러 통제된 녹음 환경에서 수집한 읽기형 음성의 평균 오류율
  2. Average Conversational WER: 실제 대화에서 발생하는 끼어들기, 말버릇(filler), 다양한 표현 방식 등을 포함한 자연 대화 음성의 평균 오류율
  3. Average U.S. vs. Non-U.S. Accent WER: 미국 영어와 비미국권 영어 억양 간 성능 차이를 비교하는 지표

모든 상황에 완벽하게 대응하는 만능 ASR 모델은 존재하지 않습니다. 예를 들어, 정확한 미국식 영어 음성에 대한 반응이 뛰어난 모델이라도, 자연스러운 대화 음성이나 비원어민 화자 환경에서는 성능이 크게 떨어질 수 있습니다. 이번 지표들은 바로 이런 성능 차이를 보다 명확하게 드러냅니다. 허깅페이스의 오디오 ML 엔지니어인 Eric Bezzam는 “신뢰할 수 있는 AI 평가는 결국 고품질 데이터에서 시작됩니다. Appen과 함께 Open ASR Leaderboard의 새로운 평가 트랙을 선보이게 되어 매우 기쁩니다.”라는 소감을 밝혔습니다.

프라이빗 데이터는 어떻게 리더보드를 변화시킬 수 있었을까?

이번 리더보드 개편은 업계 전반에서 진행되고 있는 더 엄격하고 현실적인 벤치마크 흐름의 일부입니다. Appen은 다국어 평가부터 멀티모달 레드팀(red-teaming) 연구까지 다양한 프로젝트를 진행하며 한 가지 공통된 문제를 발견했습니다. 실제 현장에서 모델이 사용되는 방식을 제대로 반영하는 벤치마크가 여전히 부족하다는 것입니다. 이에 따라 Appen과 허깅페이스의 이번 협업은 다음과 같은 방향성을 갖습니다.

  • 실제 환경에 가까운 음성 데이터 확대
  • 비영어권·비유럽권 언어 지원 기반 마련
  • 정확도와 효율성 간 트레이드오프를 투명하게 공개

이를 통해 기업, 연구자, 개발자는 자신이 사용하는 음성 기술을 더 정확하게 평가하고 비교할 수 있게 됩니다.

Open ASR Leaderboard 소개

허깅페이스가 운영하는 Open ASR Leaderboard는 자동 음성 인식 모델을 위한 공개 벤치마크 플랫폼입니다. 이 리더보드는 모델과 데이터셋 간 평가 방식을 표준화하며, 오픈소스 평가 스크립트와 UI 코드를 GitHub 및 Hugging Face Hub를 통해 공개하고 있습니다. 모델 개발자는 GitHub 공개 저장소에 Pull Request를 제출하는 방식으로 결과를 등록할 수 있습니다.

Appen 소개

Appen은 AI 라이프사이클 데이터 분야의 글로벌 선도 기업으로, 데이터 수집·어노테이션·모델 평가 분야에서 30년 이상의 경험을 보유하고 있습니다. Appen은 자체 플랫폼과 글로벌 크라우드 네트워크를 기반으로 기업들이 대규모 AI 제품을 빠르게 개발하고 배포할 수 있도록 지원합니다.

  • 100만 명 이상의 글로벌 기여자 네트워크 보유
  • 235개 이상의 언어 지원
  • AI 기반 데이터 어노테이션 플랫폼 운영

Appen은 현재도 활발하게 테크, 자동차, 금융, 리테일, 헬스케어, 정부 기관 등 다양한 산업 분야의 글로벌 기업들과 협력하고 있습니다.

LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.