음성 합성이란?
음성 기술의 발전과 함께 스피커와 음파가 주요 오디오 전송 매체로 자리 잡았습니다. 이와 함께 문자 음성 합성 기술 또한 더욱 진화하며 의사소통 방식과 기계 음성이 풍부해졌습니다. 이러한 진전은 음성 콘텐츠가 빠르게 전달되고, 이전보다 훨씬 더 자연스러워진 결과물 중 하나로 나타났으며 이러한 혁신에는 음성 합성 기술이 큰 역할을 하고 있습니다.
음성 합성(TTS)은 텍스트 음성 변환(text-to-speech) 기술로 알려져 있으며, 이를 구현하기 위해서는 여러 모듈을 결합하여 파이프라인을 형성하는 방식이 사용됩니다. 이러한 시스템은 프론트엔드와 백엔드로 구성되어 있으며, 더 자연스러운 음성 생성을 위해 현대적인 기술과 알고리즘을 결합하고 있습니다.
음성 합성의 역사는 오랜 세월에 걸쳐 이어져 왔으며, 최초의 장치는 약 200년 전에 볼프강 폰 켐펠렌(Wolfgang von Kempelen)에 의해 제작되었습니다. 이 장치는 인간의 음성 생성에 관여하는 다양한 기관(예를 들면 폐, 성도관, 콧구멍의 측근)을 모방한 요소들로 구성되었습니다. 이후에도 인간 발음기관의 시뮬레이션은 지속되어 왔으며, 19세기 후반에는 헬름홀츠가 고조파 파형의 적절한 진폭으로 모음과 초성을 합성하는 연구를 시작하면서 음성 합성 기술이 발전해 나갔습니다.
음성합성의 원리
TTS는 텍스트 분석과 음성 합성 두 가지 주요 단계로 이루어진 시퀀스-투-시퀀스 문제로 생각할 수 있습니다. 텍스트 분석은 일반적인 자연어 처리(NLP) 단계와 유사한데, 심층 신경망을 사용할 때는 더 이상 무거운 전처리가 필요하지 않을 수 있습니다. 이 과정에는 문장 또는 단어 분할, 품사(POS) 등의 작업이 포함될 수 있습니다. 첫 번째 단계의 결과물은 두 번째 단계의 입력으로 사용되는 문자소-음소(G2P)로 이어집니다. 그리고 음성 합성 단계에서는 첫 번째 단계의 출력을 활용하여 파형을 생성합니다.
자연어 처리는 구두점, 약어, 숫자 및 기호를 포함한 원시 텍스트를 음성 전사로 변환하는 과정입니다. 이러한 음성 전사 과정은 텍스트의 단서를 활용하여 음소(품사)와 억양(억양, 리듬, 속도) 정보를 함께 담고 있습니다. 음성 표현을 텍스트로 변환하기 위해 디지털 신호 처리(DSP) 기술을 활용하는데요, DSP는 컴퓨터나 다른 장치의 오디오 출력을 음성 텍스트로 변환하는 데 사용됩니다. 이 과정에서 시스템은 음성 어휘를 생성해야 하는데, 이는 언어의 모든 음소 조합을 커버하는 일련의 구문으로 이루어져 있습니다. 시스템은 오디오 샘플을 조합하여 이 음성 어휘에서 음성을 생성하며, 이후 알고리즘을 활용하여 완성된 구문을 부드럽게 조절하고 음성의 볼륨 및 속도 등을 조절합니다.
음성 합성의 종류
과거에는 기계가 단순히 정상적인 소리를 내는 데 중점을 두었지만, 현대 음성 합성 시스템은 인간과 컴퓨터 간 상호 작용 경험에 더욱 초점을 맞추고 있습니다. 이로써 소리는 더 생생하고 자연스러워지며, 사용자에게 더욱 풍부한 상호 작용 경험을 제공합니다. 현대 음성 합성 기술은 경험 중심의 개인화 기술 출력에 큰 관심을 기울이고 있으며, 이는 주로 보편적 TTS, 개인화 TTS 및 감성 TTS로 구분됩니다.
- 범용 TTS(Universal TTS): 주로 상업적인 용도로 사용됩니다. 이를 생산하기 위해서는 미리 녹음된 코퍼스를 사용하기 위한 인력 준비와 녹음 장소 섭외, 데이터 수집을 위한 녹음 작업, 그리고 데이터 정리와 상업 데이터베이스 세트를 구성하기 위한 데이터 어노테이션이 필요합니다.
- 개인화된 TTS(Personalized TTS): 데이터 제품의 특성에 따라 다양한 종류의 사운드를 제공하여 음성 라이브러리를 사용자 정의할 수 있습니다.
- 감정 TTS(Emotional TTS): XML 태깅을 통해 운율 매개변수를 조절하는 방식으로 작동합니다. 이 전처리 과정은 감정적인 단서가 포함된 음성 합성을 생성하는 TTS 시스템을 지원합니다. 감정 의도 인식은 감정 TTS의 중요한 기술 중 하나로, 자연어 처리와 밀접한 관련이 있는 분야입니다. 감정 TTS는 기계에 단순한 중계 역할을 넘어서 감정을 부여하는 것을 목표로 하며, 이로써 인간의 언어와 더 유사한 음성을 생성하고자 합니다. 그리고 더 생생한 발음을 위해서는 감정 합성 음성 기술 뒤에 있는 데이터베이스를 통해 더욱 풍부하고 다양한 정보를 제공할 수 있습니다.
음성 합성 방법
- 스플라이싱 방법: 미리 녹음된 코퍼스에서 적합한 스플라이싱 단위를 추출하여 사용합니다. 이 방법은 음질 기준과 데이터 규모에 대한 요구 사항이 높아 비용이 많이 들 수 있습니다.
- 파라메트릭 방법: 코퍼스의 파라메트릭 모델링을 통해 음성을 생성한다. 이 과정은 전처리, 모델링 및 보코더의 세 가지 모듈로 구성되며, 데이터베이스 요구 사항은 작지만 음질이 좋지 않을 수 있습니다.
음성 합성 활용 사례
업스트림 기술인 음성 합성 기술을 다운스트림 AI 시나리오에 어떻게 적용할 수 있을까요? 음성 합성 도우미와 지능형 고객 서비스, 오디오북, 콜센터, 차량 내 엔터테인먼트 장비 등은 모두 음성 합성 기술의 응용 시나리오입니다. 사용자 경험을 보다 현실적이고 풍부하게 만들기 위해 많은 업스트림 데이터 수집 회사는 성우와 협력하여 고객이 최종 사용자의 요구 사항에 맞는 음성을 선택할 수 있도록 합니다.
에펜의 음성 합성 데이터 수집 서비스
에펜은 음성 합성 분야에서의 20년 경력을 통해 고품질의 안정적인 음성 데이터와 정확한 어노테이션 서비스를 제공합니다. 성우 지원 플랫폼은 고객의 요구에 맞춰 다양한 분야의 여러 가지 스타일의 목소리 샘플을 수집합니다. 또한 에펜의 음성 데이터 수집 서비스에는 음성 합성, ASR 및 방언 수집이 포함됩니다. 수석 언어학자와 전문적인 음성 데이터 수집 경험을 갖춘 음성 합성 지원팀이 여러분의 성공적인 음성 합성 프로젝트를 지원하겠습니다. 상담이 필요하시다면 지금 바로 문의주세요!