전처리된 음성 데이터로 쉽고 빠르게 음성 인식 AI 개발하기

2024/12/23
전처리된 음성 데이터로 쉽고 빠르게 음성 인식 AI 개발하기

음성 인식 시스템이나 대화형 AI(가상 비서)의 효율성은 데이터에 따라 달라집니다. 즉, 머신러닝 프로젝트의 성공 여부를 결정하는 가장 중요한 요소는 데이터라고 할 수 있죠. 이에 따라 많은 기업들은 고품질 데이터를 얻기 위해 다양한 방법을 찾고자 합니다.


올바른 데이터셋 선택은 AI 개발을 가속화합니다

기업에서 자체적으로 데이터셋을 구축하거나 사용자 정의 데이터셋을 구매하는 대신 전처리된 데이터셋(Off-the-shelf dataset)을 사용하면 음성 인식 AI를 구축하는데 소요되는 시간과 비용을 효과적으로 줄일 수 있습니다. 전처리된 데이터셋은 데이터를 수집하고 라벨링 하는 과정을 생략하고 대신 모든 리소스를 모델 개발과 훈련에 집중할 수 있습니다. 이는 높은 품질의 AI 모델을 개발하는데 도움이 됩니다. 또한 고품질 AI 모델은 높은 투자 수익과 인사이트를 가져오는 핵심이 됩니다. 이와 같이 전처리된 데이터셋은 저렴한 비용으로 고품질 데이터를 제공하기 때문에 음성 인식 AI 개발에 많이 활용됩니다. 그럼 전처리된 데이터셋이 기업에서 어떻게 활용되는지 실제 사용 사례를 통해 알아보겠습니다.

전처리된 데이터셋 사용 사례 - MediaInterface

20년 넘게 독일에서 의료 데이터를 수집해 온 MediaInterface는 프랑스로 사업을 확장하기 위해 새로운 데이터 수집이 필요했습니다. 하지만 문제는 일반 데이터 보호 규정(GDPR)으로 인해 지명 데이터의 대부분이 수정되었다는 것입니다. 이러한 문제를 해결하기 위해 MediaInterface는 저희 에펜에 도움을 요청했습니다. 저희는 21,000개의 프랑스 이름과 14,000개의 장소가 포함된 전처리된 데이터셋을 공급했고 이에 따라 MediaInterface는 필요한 데이터를 빠르게 수집할 수 있었습니다. 이 데이터는 새로운 시장인 프랑스에서 비즈니스를 효과적으로 확장하는 데 큰 도움이 됐고 결과적으로 MediaInterface는 전처리된 데이터셋을 통해 해외 진출에 필요한 투자 비용을 효과적으로 줄일 수 있었습니다.

전처리된 데이터셋

전처리된 데이터셋은 맞춤형 데이터셋을 직접 구축할 시간이나 리소스가 부족한 기업에 있어 유용한 옵션입니다. 전처리된 음성 데이터셋은 대화형 AI 구축에 사용되는 학습데이터로써 바로 사용이 가능하도록 구성된 라벨링이 달린 컴파일된 오디오 파일 세트입니다. 전처리된 데이터세트의 가장 큰 장점은 바로 AI 개발에 바로 사용할 준비가 되어 있다는 것입니다.

전처리된 데이터셋이 보편화되기 전에는 기업에서 자체적으로 데이터셋을 구축하기 위해 데이터를 직접 수집 및 가공하거나 데이터 전문 기업의 도움으로 데이터셋을 구축했습니다. 하지만 이 두 가지 방법 모두 기업 입장에서는 많은 리소스가 소모되는 과정이었습니다. 이제는 전처리된 음성 데이터셋이라는 옵션으로 많은 기업이 쉽고 빠르게 음성 인식 AI를 개발할 수 있게 됐습니다.

전처리된 데이터셋 찾는 방법

전처리된 데이터셋을 찾는 방법에는 크게 ‘구매’와 ‘오픈 소스라’는 두 가지 방법이 있습니다. 두 옵션 모두 각각의 장점이 있기 때문에 기업에 적합한 옵션을 선택하는 것이 좋습니다. 저희 에펜에서는 80개의 언어와 방언, 870만 단어, 11,000시간의 음성 데이터가 포함된 250개의 데이터셋을 보유하고 있습니다. 전 세계 다양한 언어가 포함된 음성 인식 데이터셋을 찾고 계시다면 지금 바로 문의하세요.

음성 데이터셋 리스트

전처리된 데이터세트는 AI와 머신러닝 프로젝트를 시작할 때 매우 유용한 리소스입니다. 전처리된 데이터셋을 사용하면 준비 단계 없이도 바로 모델 학습을 시작할 수 있습니다. 데이터셋을 기업에서 직접 구축하면 평균적으로 약 8~12주가 소요되는 반면, 원하는 업체에서 전처리된 데이터셋을 구매하는 데에는 최대 1주일밖에 걸리지 않습니다.

아래에서 소개될 에펜의 데이터베이스에는 음성 코퍼스를 구축하는 데 사용할 수 있는 음성 오디오 파일과 텍스트 전사가 포함되어 있습니다. 이러한 데이터베이스에는 다양한 음향 조건에 대해 여러 화자의 목소리가 포함되어 있기 때문에 데이터 품질이 높고 다양성이 고려되어 있습니다.

아랍어 음성 데이터셋

제공되는 아랍어 사용 국가: 이집트, 사우디아라비아, 아랍에미리트

아기 소리 데이터셋

이 음성 데이터셋에는 아기 울음소리를 포함하여 다양한 아기 관련 소리가 담게 있습니다. 이 데이터셋은 다양한 유형의 아기 소리를 인식하는 AI 모델을 훈련하는 데 적합합니다.

다양한 언어로 된 데이터셋

일반적으로 전처리된 음성 데이터셋의 주요 문제점은 유럽 언어나 영어로 된 데이터가 대부분이라는 점입니다. 하지만 저희 에펜의 데이터셋은 다음과 같이 다양한 국가의 언어를 포함하고 있습니다.

  • 인도네시아어
  • 벵골어(방글라데시)
  • 불가리아어
  • 중세 크메르어(캄보디아)
  • 크로아티아어
  • 다리어(아프가니스탄)
  • 동북방언(중국)
  • 그리스어
  • 헝가리어
  • 파슈토어
  • 폴란드어
  • 터키어
  • 위구르어
  • 우한 방언

에펜은 위에 나열된 언어 목록을 포함하여 100개 이상의 음성 데이터셋을 보유하고 있습니다. 전처리된 데이터셋의 전체 목록이 궁금하시면 이곳에서 확인해 보세요.

비원어민이 녹음한 중국어 데이터셋

비원어민이 녹음한 중국어 데이터셋은 다양한 유형의 화자와 악센트를 인식할 수 있는 AI를 구축하는 데 효과적입니다. 이 데이터셋에는 아래와 같이 여러 국가 출신의 사람들이 중국어로 말하는 200시간 음성 데이터가 포함되어 있습니다.

  • 대한민국
  • 아르헨티나
  • 호주
  • 캐나다
  • 이집트
  • 홍콩
  • 인도
  • 인도네시아
  • 일본
  • 카자흐스탄
  • 케냐
  • 쿠알라룸푸르
  • 키르기스스탄
  • 라오스
  • 말레이시아
  • 모리셔스
  • 몽골
  • 필리핀
  • 러시아
  • 싱가포르
  • 남아프리카 공화국
  • 타지키스탄
  • 태국
  • 터키
  • 미국
  • 베트남

다양한 사투리와 발음의 음성 데이터셋

에펜은 다양한 방언과 엑센트가 포함된 음성 데이터를 제공합니다. 예를 들어, 독일어 데이터셋에는 독일에 사는 독일인이 사용하는 독일어뿐만 아니라 외국인이 말하는 독일어, 방언 등 다양한 독일어 음성 데이터가 포함되어 있습니다. 음성 인식 AI를 개발할 때, 완벽한 언어를 구사하는 음성 데이터셋만을 사용하면 결과적으로 불완전한 AI가 만들어질 수 있습니다. 따라서 다양한 발음과 방언이 포함된 데이터셋을 사용해 AI를 훈련하는 것이 중요합니다. 에펜이 보유한 전 세계 여러 가지 방언과 발음이 적용된 언어 데이터셋은 아래와 같습니다.

  • 영어
  • 프랑스어
  • 스페인어
  • 독일어
  • 이탈리아어

LibriSpeech

LibriSpeech은 오디오북에서 편집된 음성 데이터셋을 제공합니다. 이 데이터셋에는 약 1,000시간 분량의 라벨링이 달린 음성 데이터가 포함되어 있습니다. 저희 에펜에서 제공하는 전처리된 데이터셋 이외의 데이터를 찾고 계시다면 LibriSpeech를 방문해 보세요.

오픈 소스 음성 데이터셋

전처리된 데이터셋을 사용하여 음성 인식 AI를 훈련하면 개발 비용을 효과적으로 줄일 수 있습니다. 이처럼 비용을 줄이는 방법 중 다른 하나는 오픈 소스 데이터셋을 활용하는 것입니다. 오픈 소스 데이터 세트는 보통 다양한 사람들이 제공한 오디오 파일과 녹취록이 포함됩니다. 이러한 데이터셋은 무료라는 큰 장점이 있지만 데이터를 찾고 그 품질을 확인하는데 추가 시간이 소요될 수 있다는 단점도 존재합니다. 이와 같이 장점과 단점을 모두 고려하여 프로젝트에 알맞은 데이터셋을 찾는 것이 중요합니다. 다음은 오픈 소스 음성 인식 데이터셋을 제공하는 사이트를 소개합니다.

Kaggle

Kaggle은 데이터 사이언티스트와 머신러닝 엔지니어가 AI 구축을 위한 데이터와 아이디어 및 다양한 팁을 공유하는 온라인 커뮤니티입니다. 이곳에는 다양한 사용 사례에 대한 50,000개 이상의 오픈 소스 데이터셋이 공유되어 있습니다.

Common Voice

Common Voice에서 제공하는 데이터셋에는 60개 이상의 언어로 된 7,000시간 이상의 음성 데이터가 포함되어 있습니다. Common Voice 은 음성 데이터 안에 나이, 성별, 억양에 대한 메타데이터 태그가 포함되어 있어 머신러닝 모델을 훈련하고 정확한 결과를 구축하는 데 효율적으로 사용될 수 있습니다.

Homink

Homink는 국립국어원에서 지원하는 사이트로 120시간 분량의 한국어 코퍼스를 담고 있습니다.

Siddiquelatif

siddiquelatif는 우르두어 토크쇼에서 수집된 400개의 우르두어 음성 데이터를 제공합니다. 이 데이터는 남성과 여성 화자의 목소리로 다양한 감정을 나타낸다는 장점이 있습니다. 오픈 소스 데이터셋은 전처리된 데이터셋에 비해 크기와 품질이 부족한 경우가 있지만, 최소한의 예산으로 AI 개발하고자 하는 기업에게 좋은 대안이 될 수 있습니다.

좋은 음성 데이터란?

AI의 핵심 요소는 학습데이터의 품질입니다. AI 모델 학습에 사용된 데이터의 품질이 좋지 않으면 최종 인공지능의 품질도 함께 낮아집니다. 이 때문에 어떤 데이터가 고품질 데이터인지 구분할 수 있는 방법을 알아두는 것이 AI 개발을 계획하는 기업에는 매우 중요합니다. 다음은 좋은 음성 데이터는 어떤 것인지 함께 알아보겠습니다.

잘 사용되지 않는 언어를 포함하고 있는 데이터

전처리된 데이터 세트 중 대부분은 영어나 스페인어와 같이 전 세계에서 많이 사용되는 언어만 지원하는 경우가 많습니다. 하지만 이런 언어로만 구성된 음성 데이터셋을 사용하면 언어 편향 현상이 생기고 이로 인해 대표적인 AI를 구축할 수 없습니다. 따라서 위에서 언급한 오픈 소스 데이터셋인 homek나 siddiquelatif와 같은 곳에서 한국어와 우르두어에 대한 데이터셋을 활용하여 모델에 다양성을 추가하는 것이 좋습니다. 또한 Montreal Computer Institute에서는 이누이트어, 이스트 크리어, 이누어 등으로 구성된 음성 데이터셋을 제공합니다. 이렇게 전 세계적으로 많이 사용되지 않는 언어를 포함한 데이터셋을 사용할 때 주의해야 할 점은 바로 라벨링과 색인 작업입니다. 데이터셋에 키워드를 사용하여 데이터 베이스를 검색하고 음성 분할 작업 및 언어 어노테이션 작업을 하는 것이 중요합니다. 이렇게 완성된 고품질 데이터셋을 사용하면 고품질의 음성 인식 AI를 개발할 수 있습니다.

편향되지 않은 데이터

편향된 데이터가 포함된 전처리된 데이터셋은 최종 AI 모델에 문제를 일으킬 수 있습니다. 음성 데이터의 가장 흔한 편향은 성별과 인종입니다. 일반적으로 시장에 나와있는 머신러닝 모델은 여성과 백인이 아닌 인종의 목소리를 잘 인식하지 못합니다. 그 이유는 대부분의 음성 인식 AI가 백인 남성의 음성 데이터를 기반으로 만들어졌기 때문입니다.

스탠퍼드 대학의 2020년 연구에서는 Amazon, IBM, Google, Microsoft 및 Apple을 포함한 글로벌 회사의 2,000개 음성 샘플에 대한 음성-텍스트 프로젝트를 조사했습니다. 그 결과 놀랍게도 음성-텍스트 서비스에서 백인 사용자에 대한 음성 인식 정확도 비율이 흑인 사용자에 비해 2배나 높았습니다. 이러한 편향 현상은 AI 개발 단계에서 사용한 데이터의 다양성이 부족하고 편향된 학습데이터가 사용됐음을 보여줍니다. 따라서 성공적인 머신러닝 모델을 구축하기 위해서는 전 세계 다양한 인구를 대표하는 학습데이터를 사용해야 합니다.

인종에 대한 편견뿐만 아니라 성별에 있어서도 편향성 문제는 발생합니다. 전산 언어학 협회 북미 지부에서 Tatman 박사가 발표한 연구에 따르면 구글의 음성 인식 소프트웨어는 여성 목소리보다 남성 목소리를 13% 더 정확하게 인식했습니다. 13%라는 숫자가 다소 작아 보일 수 있지만 놀랍게도 Bing, AT&T, WIT, IBM Watson 등 글로벌 기업의 음성 인식 소프트웨어 중 그나마 구글의 여성 음성 인식률이 가장 높다는 것을 생각해 보면 이것은 보편의 문제라는 것을 알 수 있습니다.

다른 AI 모델과 마찬가지로 음성 인식 모델도 대량의 데이터를 기반으로 학습됩니다. 따라서 편향된 낮은 품질의 데이터를 사용하면 편향된 모델이 나올 수밖에 없습니다. 이러한 편향성은 스스로 의도하지 않은 것일지라도 여전히 AI 사용자와 해당 기업에 해를 끼칠 수 있으므로 항상 주의해야 합니다.

데이터 편향을 줄이는 방법

머신러닝 모델을 개발할 때 편견이 없는 학습데이터를 사용하면 모델의 성공 확률이 높아질 뿐만 아니라 투자 수익도 보장됩니다. 모델의 편견을 줄이기 위해서는 꾸준한 노력과 철저한 계획이 필요합니다. 다음은 머신러닝 모델의 편향성을 줄일 수 있는 방법입니다.

  • 편향성이 낮은 데이터를 사용합니다.
  • AI 개발 시 하나 이상의 데이터셋을 활용합니다.
  • 데이터 제공업체를 꼼꼼하게 비교하여 선택합니다.
  • AI 편향성에 관한 최신 정보를 읽어봅니다.
  • AI를 출시하기 전에 다양한 테스트를 통해 편향된 부분을 찾아냅니다.
  • 편향성에 대한 인식을 높이기 위해 하버드 대학에서 제공하는 "Implicit and Fair AI"와 같은 관련 교육에 참여합니다.
  • 모든 데이터는 편향성을 갖고 있을 수 있다는 점을 항상 기억합니다.

에펜의 전처리된 데이터셋

편견 없는 음성 인식 모델 구축을 계획하고 계신가요? 저희 에펜은 다양한 사용 사례에 활용되는 80개 이상의 언어로 된 음성 데이터셋을 보유하고 있습니다. 지속된 테스트와 관리를 통해 편향성을 최소화시킨 에펜의 전처리된 데이터셋은 AI 개발 속도를 높이고 비용을 낮출 수 있도록 도와드립니다. 음성 인식 AI 개발을 위한 상담부터 데이터셋 구축까지 인공지능 프로젝트에 대한 전체 프로세스를 꼼꼼하게 관리해 드리겠습니다. 지금 바로 상담받아보세요!


데이터셋 지원이 필요하신가요? 데이터 전문가에게 문의하세요.