자동 음성 인식이란? 정의, 종류, 오류 줄이는 법

2023/09/18

글로벌 팬데믹의 도래와 AI 기술의 발전으로, 기업들은 가상 상호 작용을 향상하고 있습니다. 이러한 가상 상호 작용을 효율적으로 지원하기 위해 가상 비서, 챗봇 및 다른 음성 기술을 점차적으로 도입하고 있으며, 이러한 AI 시스템은 주로 자동 음성 인식(ASR) 기술을 활용하고 있습니다. 자동 음성 인식이란 음성을 텍스트로 변환하는 과정을 의미하며, 이를 통해 인간과 컴퓨터 간의 의사소통이 가능해집니다.

자동 음성 인식 기술의 활용은 급격히 확대되고 있습니다. 한 예로, 최근 Deepgram과 Opus Research가 북미 지역의 400명에게 자동 음성 인식에 관해 진행한 설문조사 결과, 응답자의 99%가 ASR 기술을 사용하고 있다고 응답했으며, 이는 자동 음성 인식의 중요성과 필수성을 강조합니다. ASR 기술의 발전은 가상 환경에서 고객에게 더 나은 서비스를 제공하려는 기업들에게 더욱 매력적인 옵션으로 부상하고 있습니다.

또한, ASR 기술의 작동 방식, 활용되는 분야, 그리고 AI 자동 음성 인식 모델 배포 문제를 극복하기 위한 방법에 대한 여러 가지 연구와 개발이 진행 중입니다. 이러한 연구는 고객과 기업 간의 가상 상호 작용을 더욱 원활하게 만들고, 더 나은 서비스 제공을 위한 중요한 발전입니다.

자동 음성 인식의 종류

자동 음성 인식은 지난 수십 년 동안 AI와 머신러닝 알고리즘 덕분에 큰 발전을 이루었습니다. 오늘날 더 기본적인 ASR 프로그램은 여전히 자동 응답 기능(Directed Dialogue)을 사용하는 반면, 최신 버전은 자연어 처리(NLP)의 AI 하위 도메인을 활용합니다.

자동 응답

은행에 전화했을 때 자동 응답기를 들으신 적이 있으시죠? 은행의 경우 일반적으로 사람에게 직접 연락하기 전에 자동 응답기를 통해 원하는 용무를 선택할 수 있습니다. 자동 응답기는 간단한 “예” 또는 “아니요”를 통해 여러분의 신원을 확인하거나 카드 번호의 숫자를 읽어달라고 요청할 수 있습니다. 이 경우 모두 자동 음성 인식의 한 종류인 자동 응답 기능을 사용하고 있습니다. 이러한 ASR 프로그램은 짧고 간단한 구두 응답만 가능하며 결과적으로 응답 어휘가 제한되어 있습니다. 간단하고 직접적인 고객 상호 작용에는 유용하지만 더 복잡한 대화에는 유용하지 않습니다.

자연어 처리 기반 음성 인식

자연어 처리(NLP)는 AI의 하위 도메인으로 인간의 말, 즉 자연어를 이해하도록 컴퓨터를 가르치는 방법입니다. NLP를 활용한 음성 인식 프로그램은 아래와 같은 방법으로 작동합니다.

  1. 사람이 ASR 프로그램에 명령을 내리거나 질문을 합니다.
  2. 기계는 사람의 말을 기계가 읽을 수 있는 오디오 파일로 표현한 스펙토그램으로 변환합니다.
  3. 기계는 개가 짖는 소리와 같은 배경 소음을 제거하여 오디오 파일을 정리합니다.
  4. 알고리즘은 정리된 파일을 소리의 기본 구성 요소인 음소로 분해합니다. 예를 들어 영어에서는 “ch”와 “t”가 음소입니다.
  5. 알고리즘은 시퀀스의 음소를 분석하고 통계적 확률을 사용하여 시퀀스에서 단어와 문장을 결정합니다.
  6. NLP 모델은 문장에 맥락을 적용하여 예를 들어 “write” 또는 “right”이라고 말하려고 했는지 판단합니다.
  7. ASR 프로그램이 사용자가 말하려는 내용을 이해하면 적절한 응답을 개발하고 텍스트 음성 변환을 사용하여 응답할 수 있습니다.

관련된 알고리즘 유형에 따라 위 프로세스가 달라지는 경우가 많지만, 이는 여전히 이러한 시스템이 작동하는 방식에 대한 개요를 제공합니다. NLP를 사용하는 자동 음식 인식은 가장 발전된 버전으로 대화에 제한이 없고 실제 대화를 시뮬레이션할 수 있는 능력을 갖고 있습니다. 이는 NLP 기반 자동 음성 인식 시스템이 60,000개 이상의 단어를 포함할 수 있는 능력을 갖고 있기 때문입니다. 이때, 자동 음성 인식은 단어 오류율과 속도를 기준으로 평가됩니다. ASR 시스템은 인간의 음성을 이해하는 데 있어 최대 99%에 가까운 정확도를 달성할 수 있습니다. 데이터 사이언티스트는 계속해서 ASR 프로그램이 인간의 말을 정확하게 이해할 수 있도록 여러 가지 실험을 진행하고 있습니다. AI가 접할 수 있는 모든 언어 예제에 대해 AI를 훈련하고 능동 학습과 같은 기술을 적용하여 완전 지도 학습의 사용을 보완할 수 있는 다른 방법을 모색하고 있습니다. 결과적으로 ASR 프로그램과 상호작용하는 사람이 많을수록 프로그램은 자율적으로 더 많이 학습할 수 있으며 이러한 방식은 프로그램 개발 및 개선에 많은 시간을 절약해 줍니다.

자동 음성 인식 프로그램

자동 음성 인식 기술의 가능성은 상당히 무한합니다. 지금까지 다양한 업계에서 이 기술을 활용하여 고객 경험을 향상하고 있으며, 그 활용 예시들은 꾸준히 늘어나고 있습니다. 가장 대표적인 사용 사례로는 구글 어시스턴트, 애플의 시리, 아마존의 알렉사, 그리고 마이크로 소프트의 코르타나와 같은 음성 지원 가상 비서들이 있습니다. 이러한 프로그램들은 정보 획득의 속도와 효율성 측면에서 매우 강력하며, 그로 인해 우리의 일상생활에 더욱 널리 퍼져 들고 있습니다. 따라서 가상 비서 시장은 계속해서 성장할 것으로 예측됩니다.

ASR 기술은 다양한 분야에서 활용되고 있습니다:

  1. 음성 전사: 회의, 전화 통화, 정부 조사 인터뷰, 환자의 의료 기록 기재
  2. 교육: 제2외국어 학습
  3. 차량: 차량 내 경험 향상, 음성 명령을 통한 차량 환경 조절, 운전자의 안전성 향상
  4. 보안: 특정 구역 접근을 위한 음성 인식 시스템
  5. 접근성: 스마트폰을 통한 음성 명령을 통한 접근성 향상

위의 응용 분야들은 ASR 기술의 광범위한 활용을 보여줍니다. 이 기술은 우리의 일상과 다양한 산업에 긍정적인 영향을 미치고 있으며, 그 가능성은 더욱 무한합니다.

자동 음성 인식 오류 줄이는 법

자동 음성 인식은 예외적인 조건이나 실제 환경에서 기술의 정확도가 일정하지 않을 수 있습니다. 이러한 기술적 문제를 해결하기 위한 방법을 알아보겠습니다.

오류 원인

자동 음성 인식 분야에서는 몇 가지 공통 요소로 인해 문제가 발생합니다.

  • 노이즈가 있는 데이터: 노이즈가 있는 데이터는 일반적으로 의미 없는 데이터를 의미하는 것으로 이해되지만 ASR에서는 문자 그대로의 의미도 있습니다. 현실에서의 음성 파일은 기침하는 사람의 소리나 화자가 아닌 배경에서 대화하는 사람들, 공사 소음, 심지어 잡음과 같은 관련 없는 소음이 존재합니다. 고품질 ASR 시스템은 음성의 유용한 영역을 분리하고 의미 없는 부분을 제거해야 합니다.
  • 다양성 보장: 다양성이 보장되는 ASR 시스템은 다양한 성별, 세계 각지의 배경을 가진 사람들의 음성을 모두 이해할 수 있어야 합니다. 이때 말하는 방법은 사람마다 언어, 방언, 악센트, 정점, 용량, 속도 등이 달라질 수 있습니다.
  • 음성 캡처 기술: 음성 데이터 캡처를 위한 고품질 하드웨어가 없는 경우에는 노이즈 데이터가 발생할 수 있으므로 주의해야 합니다.
  • 동음이의어: 소리는 같지만 의미가 다른 동음이의어를 문맥을 파악하여 구분할 수 있어야 합니다.
  • NLP 알고리즘: ASR 시스템은 각 화자가 말하는 내용의 맥락을 해석하기 위해 이를 지원하는 매우 정확한 NLP 알고리즘이 필요합니다.
  • 단어 경계 모호함: 우리가 글을 쓰거나 입력할 때 단어와 문장에는 공백과 구두점이라는 명확한 경계가 있습니다. 그러나 우리가 말할 때 우리의 단어와 문장이 종종 섞이게 됩니다. ASR 프로그램은 음성의 어느 부분이 별도의 단어인지 구분할 수 있어야 합니다.

해결 방법

다행히도 대부분의 문제는 맞춤형 데이터 수집 및 가공 프로젝트를 통해 부분적으로 해결할 수 있습니다. 이를 통해 고객의 다양성에 가장 적합한 음성 데이터를 수집(및 잠재적으로 생성)할 수 있습니다. 이 문제를 내부적으로 해결하도록 선택할 수도 있지만 자동 음성 인식 경험이 있는 데이터 제공업체의 전문 지식과 도구를 활용하는 것이 도움이 될 수 있습니다. 적합한 데이터 파트너는 귀사의 특정 사용 사례에 필요한 데이터를 지원하고 데이터 플랫폼을 통해 신속하게 ASR 애플리케이션을 포괄하도록 도울 수 있습니다. 많은 데이터 제공업체는 음성 인식을 위한 기성 데이터셋을 제공하지만 다양한 화자 그룹에서 파생된 요구 사항에 맞는 사용자 지정 데이터도 제공할 수 있어야 합니다. 또한 위에서 언급한 과제를 극복할 수 있는 도구도 필요합니다. 올바른 파트너를 선택하면 궁극적으로 자동 음성 인식 이니셔티브의 성공을 결정하는 데 큰 차이가 생길 것입니다.

자동 음성 인식 시스템 개선 방법

모델 교육 전에 자동 음성 인식 애플리케이션 사용 시나리오를 신중하게 고려해야 합니다. 지금까지 TIMIT, Librispeech와 같은 표준 말뭉치는 ASR 모델의 초기 교육 및 기존 ASR 모델의 벤치마크 테스트에 널리 활용되었습니다. 그러나 ASR 모델의 최종 성능에는 더 중요한 것이 있습니다. 바로 애플리케이션 사용 시나리오의 데이터입니다. 즉, ASR 모델을 교육하거나 데이터를 수집할 때, 녹음 장비, 음향 환경, 도메인 특화 용어 및 어휘, 그리고 애플리케이션이 적용될 사용자 연령, 성별, 건강 상태 분포 등을 고려해야 합니다. 이러한 사용 사례 시나리오와 일치하는 데이터를 사용하면 자동 음성 인식 애플리케이션의 성능을 향상시킬 수 있습니다.

또한 사용 중인 언어 모델에 주목해야 합니다. ASR 애플리케이션의 사용 시나리오를 결정하고 필요한 데이터를 획득한 후, 도메인 특화 언어 모델을 개발하는 것이 ASR 애플리케이션의 성능 향상에 도움이 될 수 있습니다. 최근의 발전으로 인해 특정 분야나 응용 프로그램에 적합한 새로운 어휘, 약어, 용어가 전 세계적으로 계속해서 등장하고 있습니다. 이러한 동향을 고려하여 언어 모델을 업데이트하거나 인기 있는 용어와 단어에 가중치를 부여하는 것이 자동 음성 인식 애플리케이션이 사용자를 놓치지 않고 최고의 성능을 발휘하는 데 도움이 됩니다.

마지막으로, ASR 모델을 반복적으로 업데이트해야 합니다. 최근 몇 년 동안 새로운 도구와 프런트엔드 기술이 빠르게 발전하고 있으며, 새로운 어휘와 용어가 사용자 트렌드와 이벤트와 함께 떠오릅니다. ASR 모델은 안정적으로 어노테이션 되고 새로운 데이터로 재교육되어야 합니다. 이렇게 함으로써 자동 음성 인식 애플리케이션의 사용자 경험을 일관되게 유지하거나 개선할 수 있습니다.

에펜의 자동 음성 인식 솔루션

에펜은 머신러닝 및 비즈니스 솔루션 강화를 위한 어노테이션 된 고품질 학습 데이터를 제공합니다. 또한 챗봇, 음성 도우미, 검색 관련성, 전사 등과 같은 다양한 사용 사례에 대해 인간의 텍스트와 음성에서 의미를 이해하고 추출할 수 있는 지능형 시스템을 구축하는 데 도움을 드립니다. 당사의 어노테이션 툴은 머신러닝 모델을 활용하여 라벨링을 자동화하고 작업자가 더 빠르고 정확하게 작업할 수 있도록 하는 스마트 라벨링 기능을 갖추고 있습니다. 저희 에펜은 25년 넘게 235개 이상의 언어와 방언으로 최고 품질의 언어 데이터와 서비스를 정부 기관과 글로벌 기업에 제공해 왔습니다.

에펜의 자동 음성 인식 솔루션에 대해 궁금한 점이 있으시다면 지금 바로 문의주세요!

NLP 프로젝트 지원이 필요하신가요? 자연어 처리 전문가에게 문의하세요.