번역 AI 모델 개발 성공 사례 - 마이크로소프트 번역기

2025/03/16
번역 AI 모델 개발 성공 사례 - 마이크로소프트 번역기

번역 AI 모델 개발 프로젝트

초창기 온라인 번역 기술은 부정확한 번역과 언어적 뉘앙스가 반영되지 않은 결과물로 인해 오해를 낳는 경우가 많았습니다. 하지만 마이크로소프트 번역기Azure Cognitive Service를 기반으로 빠르고 정확한 번역을 제공하며, 다국어 간의 원활한 소통을 가능하게 했습니다. 마이크로소프트 번역기는 영어뿐만 아니라 잘 사용되지 않는 언어들까지 플랫폼에 추가하며 언어 보존과 공평한 지식 접근을 동시에 추구하고 있습니다. 이를 통해 더 많은 사람들이 문화 간 소통에 참여할 수 있게 되었습니다.

마이크로소프트는 이처럼 광범위한 언어 지원을 위해 특히 사용 빈도가 낮은 언어에 대한 대규모 데이터 수집과 어노테이션 작업이라는 도전에 직면했습니다. 이 문제를 해결하기 위해 마이크로소프트는 글로벌 AI 데이터 솔루션 기업인 저희 에펜과의 협력을 통해 번역 기능을 확장했습니다.

Appen의 폭넓은 언어 전문성과 소수 언어 데이터를 성공적으로 확보하는 능력 덕분에 Microsoft Translator는 다양한 언어와 방언을 지원할 수 있었습니다. – Marco Casalaina, Microsoft Azure AI 제품 부사장

마이크로소프트 번역기 - 실시간 다국어 번역 툴

마이크로소프트 번역기는 텍스트, 음성, 이미지 번역을 실시간으로 지원하는 AI 기반 툴입니다. 이는 Azure Cognitive Service의 일부로서 개인 사용자, 기업, 개발자에게 다양한 언어 간의 소통을 돕습니다. 처음에는 주요 언어에 초점이 맞춰졌지만, 현재는 소수 언어들까지 지원을 확장해 언어적 다양성을 보존하고 있습니다. 이 기술은 언어 장벽을 허물고 전 세계 사람들이 디지털 지식에 더 쉽게 접근할 수 있도록 하는 데 기여하고 있습니다.

프로젝트 목표

마이크로소프트가 에펜과의 협업에서 이루고자 한 가장 큰 목표는 번역 AI 모델에서 지원하는 언어의 범위를 대폭 확대하는 것이었습니다. 특히, 소규모 커뮤니티에서 사용되는 소수 언어를 포함해 더 많은 언어를 지원하고자 했습니다.

  1. 희귀하거나 소멸 위기에 처한 소수 언어를 포함해 모든 언어 사용자가 공평하게 지식에 접근할 수 있도록 하기
  2. 잘 알려지지 않은 언어를 디지털화해 소멸을 방지하고, 언어적 다양성을 보존하기
  3. 고품질 어노테이션 데이터셋을 활용해 번역의 정확도를 높이기
  4. 언어 특유의 뉘앙스를 고려한 툴을 개발해 번역 AI 모델의 편향성을 최소화하기

이러한 목표를 달성함으로써 마이크로소프트 번역기는 더 많은 사람들이 자신들의 모국어에 관계없이 번역 AI 서비스를 이용할 수 있도록 돕고, 전 세계적으로 더 큰 영향력을 발휘할 수 있게 되었습니다.

도전 과제

정확한 번역 AI 모델을 구축하려면 방대한 양의 라벨링 된 데이터셋이 필요합니다. 널리 사용되는 언어의 경우 데이터를 쉽게 구할 수 있지만, 문서화가 부족한 소수 언어의 데이터는 확보하기가 매우 어렵습니다.

이 과정에서 마이크로소프트는 두 가지 주요 어려움에 직면했습니다.

  1. 데이터 수집: 소수 언어에 대한 모국어 화자의 방대한 데이터를 확보하는 것이 매우 어려웠습니다.
  2. 데이터 라벨링: 데이터를 정확히 필사하고 번역하기 위해 각 언어의 알파벳, 음운 체계, 문법뿐만 아니라 문화적 맥락과 구조에 대한 깊은 이해가 요구되었습니다.

또한, 마이크로소프트는 성별이 모호한 문장처럼 번역에서 발생할 수 있는 잠재적 편향을 해결할 솔루션이 필요했습니다. 이렇게 복잡하고 까다로운 요구 사항을 충족하기 위해 다양한 언어에 맞춤형 솔루션을 제공하는 저희 에펜과 협력을 시작하게 됐습니다.

솔루션

에펜은 25년 이상의 데이터 소싱, 준비, 평가 경험을 바탕으로 마이크로소프트 번역기의 다양한 요구 사항을 효과적으로 충족할 수 있는 전문성을 보유하고 있습니다.

모국어 화자를 통한 데이터 수집

에펜은 글로벌 크라우드소싱을 통해 모국어 화자로부터 직접 언어 데이터를 수집했습니다. 특히 소수 언어의 경우 해당 언어를 모국어로 사용하는 화자와의 협력을 통해 각 언어의 언어적·문화적 뉘앙스를 세밀하게 반영하는 고품질 언어 샘플을 확보했습니다.

맞춤형 데이터 어노테이션

에펜의 번역 전문가는 수집된 데이터를 정밀하게 필사 및 번역하며, 이를 기반으로 데이터 어노테이션 작업을 진행했습니다. 이 과정에서 모든 번역이 최고 수준의 정확성을 유지하도록 다단계 품질 보증 프로세스를 적용했습니다. 또한, 문화적 특성이 반영된 다양한 번역을 제공하는 맞춤 솔루션을 개발해 마이크로소프트가 번역 AI 모델의 잠재적 편향을 줄이는 데 기여했습니다.

발음 유사성과 음역 처리

알파벳이나 음운 체계가 다른 언어의 경우, 음운 유사성과 음역 기술을 활용해 데이터셋을 적절히 정리했습니다. 이를 통해 데이터가 올바르게 형식화되고, 머신 러닝 모델에서 활용할 준비를 갖추도록 했습니다. 이와 같은 에펜의 세심하고 전문적인 접근은 마이크로소프트 번역기가 다양한 언어를 지원할 수 있는 기반을 다지는 데 핵심적인 역할을 했습니다.

프로젝트 결과

마이크로소프트 번역기는 에펜과의 협력을 통해 현재 110개 언어를 지원하며, 이 중 108개 언어의 데이터 수집과 라벨링 작업에서 에펜이 중요한 역할을 했습니다.

번역기에 새롭게 추가된 언어는 다음과 같습니다.

지원 가능한 언어의 확장은 소수 언어를 보존하고 전 세계 사람들이 지식에 접근할 수 있도록 돕는 중요한 성과로 평가받고 있습니다.

마이크로소프트와 에펜의 파트너쉽

마이크로소프트 번역기의 성공은 번역 AI 모델 개발에서 고품질 데이터와 협력의 중요성을 잘 보여줍니다. 마이크로소프트는 에펜과의 파트너십을 통해 소수 언어 데이터의 수집라벨링 작업이라는 복잡한 문제를 해결하며 번역 모델의 다양성과 공정성을 확보했습니다. 그 결과, 110개 언어를 지원하는 마이크로소프트 번역기는 이제 소수 언어를 사용하는 사람들도 디지털 지식에 자유롭게 접근하고 글로벌 대화에 참여할 수 있는 환경을 제공하도록 했습니다. 이 협력은 AI 기술을 더 포용적이고 공평하게 만드는 데 기여하는 미래 AI 개발의 모범 사례로 자리 잡고 있습니다.

데이터 라벨링 지원이 필요하신가요? 데이터 전문가에게 문의하세요.