음성 합성이란? 정의, 종류, 음성 데이터 수집

2023/10/16

음성 합성이란?

음성 합성(TTS)은 텍스트나 언어를 인공적 음성으로 생성하는 기술로써 사람과 기계간의 상호작용을 원활하게 하며 텍스트 음성 변환(text-to-speech)이라고도 알려져 있습니다. 음성 합성을 구현하기 위해서는 여러 모듈을 결합하여 파이프라인을 형성하는 방식이 사용됩니다. 이러한 시스템은 프론트엔드와 백엔드로 구성되어 있으며, 더 자연스러운 음성 생성을 위해 현대적인 기술과 알고리즘을 결합하고 있습니다.

생성형 AI의 중요한 요소인 음성 합성은 최근 몇 년간 놀라운 발전을 이뤄냈습니다. 현재 음성 합성 기술은 차량 내비게이션, 고객 지원 서비스, 스마트 차량 시스템, 뉴스 방송, 라이브 커머스, 디지털 휴먼 등 다양한 분야에서 널리 사용되고 있습니다. 이 기술은 특히 성우의 발음이나 녹음 환경, 그리고 데이터 라벨링의 정확성과 세밀함이 매우 중요한 역할을 합니다.

저희 에펜은 음성 합성 서비스를 통해 기계적인 느낌을 줄이고 자연스러움을 높이며, AI 음성 합성 제품이 단순히 “이해할 수 있는” 수준을 넘어 “실제 사람의 목소리처럼 들리는” 수준으로 발전하도록 지원합니다.

음성 합성의 원리

음성 합성은 텍스트 분석과 음성 합성이라는 두 가지 주요 단계로 구성된 시퀀스-투-시퀀스 문제로 이해할 수 있습니다.

1단계: 텍스트 분석 텍스트 분석 과정은 일반적인 자연어 처리(NLP) 단계와 유사하지만, 심층 신경망을 사용할 경우 기존처럼 복잡한 전처리가 반드시 필요하지 않을 수도 있습니다. 이 단계에서는 문장 또는 단어 분할, 품사(POS) 태깅과 같은 작업이 수행될 수 있습니다. 텍스트 분석의 결과물은 문자소-음소 변환(G2P: Grapheme-to-Phoneme)으로 이어지며, 이는 두 번째 단계인 음성 합성의 입력으로 활용됩니다.

2단계: 음성 합성 음성 합성 단계에서는 텍스트 분석을 통해 얻은 출력을 바탕으로 파형을 생성합니다. 이 과정에서 원시 텍스트는 구두점, 약어, 숫자, 기호와 같은 다양한 요소를 포함하며, 자연스러운 음성 출력을 위해 텍스트에 담긴 음소 정보와 억양(리듬, 속도) 정보가 함께 반영됩니다. 음성을 합성하기 위해서는 디지털 신호 처리(DSP) 기술이 사용됩니다. DSP는 컴퓨터 또는 기타 장치에서 오디오 출력을 생성하고 이를 자연스러운 음성으로 변환하는 데 활용됩니다. 이 과정에서 시스템은 언어의 모든 음소 조합을 커버하는 음성 어휘를 생성해야 합니다. 생성된 음성 어휘는 오디오 샘플을 기반으로 구성되며, 이를 조합해 하나의 완성된 구문을 만듭니다. 이후 알고리즘을 통해 음성의 자연스러운 흐름, 볼륨, 속도 등을 조정하여 부드럽고 자연스러운 음성을 구현합니다.

음성 합성의 종류

과거 음성 합성은 단순히 자연스러운 소리를 내는 데 집중했지만, 현대의 음성 합성 시스템은 인간과 컴퓨터 간 상호작용 경험을 더욱 강화하는 데 초점을 맞추고 있습니다. 이로 인해 생성되는 음성은 더 생생하고 자연스러워졌으며, 사용자에게 보다 풍부한 상호작용 경험을 제공하고 있습니다. 현대 음성 합성 기술은 경험 중심의 개인화된 출력에 큰 비중을 두고 있으며, 주요 기술은 다음과 같이 보편적 TTS(Universal TTS), 개인화 TTS(Personalized TTS), 감정 TTS(Emotional TTS)로 나눌 수 있습니다.

범용 TTS(Universal TTS): 주로 상업적인 용도로 사용됩니다. 이를 생산하기 위해서는 미리 녹음된 코퍼스를 사용하기 위한 인력 준비와 녹음 장소 섭외, 데이터 수집을 위한 녹음 작업, 그리고 데이터 정리와 상업 데이터베이스 세트를 구성하기 위한 데이터 어노테이션이 필요합니다.
개인화된 TTS(Personalized TTS): 데이터 제품의 특성에 따라 다양한 종류의 사운드를 제공하여 음성 라이브러리를 사용자 정의할 수 있습니다.
감정 TTS(Emotional TTS): XML 태깅을 통해 운율 매개변수를 조절하는 방식으로 작동합니다. 이 전처리 과정은 감정적인 단서가 포함된 음성 합성을 생성하는 TTS 시스템을 지원합니다. 감정 의도 인식은 감정 TTS의 중요한 기술 중 하나로, 자연어 처리와 밀접한 관련이 있는 분야입니다. 감정 TTS는 기계에 단순한 중계 역할을 넘어서 감정을 부여하는 것을 목표로 하며, 이로써 인간의 언어와 더 유사한 음성을 생성하고자 합니다. 그리고 더 생생한 발음을 위해서는 감정 합성 음성 기술 뒤에 있는 데이터베이스를 통해 더욱 풍부하고 다양한 정보를 제공할 수 있습니다.

현대 음성 합성 기술은 단순히 "말하는 기계"를 넘어서 자연스럽고 감정이 풍부한 음성을 제공하는 방향으로 발전하고 있습니다. 이를 통해 사용자들은 더욱 몰입감 있고 개인화된 경험을 누릴 수 있게 되었습니다.

음성 합성 방법

스플라이싱 방법: 미리 녹음된 코퍼스에서 적합한 스플라이싱 단위를 추출하여 사용합니다. 이 방법은 음질 기준과 데이터 규모에 대한 요구 사항이 높아 비용이 많이 들 수 있습니다.
파라메트릭 방법: 코퍼스의 파라메트릭 모델링을 통해 음성을 생성한다. 이 과정은 전처리, 모델링 및 보코더의 세 가지 모듈로 구성되며, 데이터베이스 요구 사항은 작지만 음질이 좋지 않을 수 있습니다.

음성 합성 활용 분야

음성 비서

음성 합성 기술을 활용해 텍스트 기반 정보를 음성으로 변환합니다. 이메일, 뉴스 기사 읽기, 내비게이션 안내 등 다양한 작업에서 사용자를 지원합니다.
시각 장애인에게 접근성을 높이고, 더 자연스럽고 상호작용적인 인터페이스를 제공합니다.

지능형 고객 서비스

고객 문의에 자동 응답을 제공합니다. 사전 녹음된 메시지 또는 텍스트 입력에 기반한 동적 응답을 생성합니다.
일상적인 문의를 처리해 효율성을 높이고, 고객 대기 시간을 줄이며 일관된 서비스 품질을 제공합니다.

오디오북

텍스트로 된 책을 오디오 형식으로 변환해 사용자가 책을 듣는 형태로 즐길 수 있도록 합니다.
독서가 어려운 사람이나 청각 학습을 선호하는 사람에게 접근성을 제공하고, 멀티태스킹을 가능하게 합니다.

콜센터

메뉴 탐색, 정보 제공, 적절한 부서로 연결하는 자동 음성 응답 시스템을 제공합니다.
일상적인 문의에 대한 인력을 줄이고, 콜 라우팅 효율을 높이며 일관된 음성 인터페이스를 제공합니다.

차량 내 엔터테인먼트 장비

내비게이션 음성 안내, 문자 메시지 읽기, 음악 재생 제어 등의 기능을 제공합니다.
운전자의 주의를 최소화해 안전을 높이고, 핸즈프리 정보 접근으로 운전 경험을 개선합니다.

에펜의 음성 합성 솔루션

장점

감정 표현: 감정을 표현하는 음성 합성은 TTS의 새로운 진화 단계로, 기계에 감정을 불어넣는 과정입니다. 기쁨, 슬픔, 화남 등 다양한 감정을 담아낸 데이터를 성우가 녹음하게 하여 더욱 풍부한 감정 변화를 표현합니다. 저희 에펜은 특정 감정과 강도를 반영한 텍스트와 상황을 설계해 성우들이 더 풍부한 감정 표현을 할 수 있도록 돕고, 이를 세밀하게 어노테이션 처리하여 다양한 강도의 감정을 모델이 학습할 수 있도록 합니다.
방언 및 소수 언어: 방언 인식과 합성은 AI 기술에서 특히 어려운 과제 중 하나입니다. 에펜은 다양한 지역의 방언을 사용하는 사람들, 나이, 성별에 따라 이해하기 쉬운 음성을 생성하기 위해 방언의 음소와 억양 체계를 정교하게 설계합니다. 또한, 소수 언어를 포함하여 해외 사용자들을 위한 다양한 외국어 음성 데이터베이스도 제공합니다.
다양한 목소리: 카리스마 있는 CEO 목소리, 소녀 목소리, 우아한 여성 목소리, 귀여운 어린이 목소리 등 다양한 스타일의 성격을 담아낸 음성을 제공합니다. 이를 통해 음성 합성 기술은 단순히 정보를 전달하는 수준에서 벗어나 사람들과의 보다 감정적이고 개인화된 상호작용으로 발전하고 있습니다.
자연스러운 대화형 음성: 대화형 TTS 기술은 자연스럽게 숨을 쉬거나 멈추는 등의 발화 습관을 반영하여 더욱 사실적으로 음성을 합성합니다. 녹음된 음성 데이터를 바탕으로 웃음, 호흡, 짧은 숨 등 부가적인 언어적 특징을 라벨링 처리하여 사람이 실제로 대화하는 듯한 느낌을 제공합니다.
노래 데이터: 에펜은 한국어 및 외국어 노래 분야에서도 풍부한 경험을 보유하고 있습니다. 노래 음성을 음절과 음소 단위로 세분화하여 각 음절과 음소가 곡에서 어떻게 표현되는지를 명확하게 보여줍니다. 이를 통해 가수의 독특한 표현 스타일을 효과적으로 반영할 수 있습니다.

프로세스

프로젝트 상담: AI 데이터 전문가가 고객의 요구사항을 분석하고 맞춤형 컨설팅 솔루션을 제공합니다.
모델 학습: AI 데이터를 사용해 음성 합성 모델을 학습시킵니다. 이 과정은 텍스트(입력)와 이에 해당하는 음성 오디오(출력)를 모델에 제공해 텍스트와 음성 간의 매핑을 학습하도록 합니다.
모델 선택: 요구사항에 가장 적합한 음성 합성 모델 아키텍처를 선택합니다.
데이터 전처리: 학습을 위한 AI 데이터를 준비하기 위해 전처리 과정을 수행합니다. 여기에는 텍스트 데이터 정제, 텍스트와 오디오 파일 정렬, 오디오 파일을 학습에 적합한 포맷으로 변환하는 작업이 포함됩니다.
학습: 전처리된 AI 데이터를 사용해 음성 합성 모델을 학습시킵니다. 텍스트와 음성 데이터를 모델에 입력하고, 예측된 음성과 실제 음성 간의 차이를 최소화하기 위해 모델의 매개변수를 조정합니다.
평가: 학습된 모델의 성능을 검증 데이터셋을 활용해 평가하고, 품질 기준을 충족하는지 확인합니다.
모델 배포: 모델이 학습 및 평가를 마치면 실제 운영 환경에 배포합니다.
통합: 음성 합성 서비스를 애플리케이션이나 시스템에 통합합니다.
테스트: 통합된 음성 합성 서비스가 기대대로 작동하는지 테스트하고 성능 요구사항을 충족하는지 확인합니다.
유지보수 및 업데이트: 운영 환경에서 음성 합성 모델의 성능을 모니터링하고, 품질 개선이나 문제 해결을 위해 필요시 업데이트를 진행합니다.

에펜은 다릅니다.

20년 이상의 경험과 고품질 데이터: 20년 이상 음성 합성 분야의 경험을 바탕으로 고품질 오디오 데이터와 정확한 데이터 라벨링 서비스를 제공합니다.
다양한 데이터 수집: 에펜의 음성 합성 데이터 서비스는 음성 합성, 자동 음성 인식(ASR), 방언 데이터 수집을 포함합니다. 다양한 분야에 걸친 성우 지원 플랫폼을 통해 필요에 맞는 스타일의 음성 데이터를 제공합니다.
빠른 데이터 수집: 대량의 고품질 데이터를 신속하게 제공합니다. 전처리된 데이터셋으로 프로젝트를 지체 없이 바로 시작할 수 있으며, 필요에 따라 새로운 데이터를 수집해 TTS 애플리케이션에 최적화된 결과를 제공합니다.
효율적인 데이터 라벨링: 머신러닝 모델을 활용해 빠른 데이터 라벨링을 지원합니다. 이를 통해 데이터 라벨링 작업의 속도와 처리량을 개선하며, 다단계 및 순차 작업을 효율적으로 처리하는 ‘Speed Labeling’ 기능을 제공합니다.
데이터 품질 관리 및 AI 모델 평가: 사용자 테스트를 통해 AI 성능을 벤치마킹하고, 필요시 추가 데이터를 수집해 성능을 개선합니다. 또한 오랜 고객들과의 협업을 통해 검증된 방법론과 전문 지식을 바탕으로 고품질 결과를 제공하며, 데이터 가공 전 후 단계에서 품질을 지속적으로 모니터링하고 개선합니다.
대규모 데이터 처리 역량: 25년 이상의 경험을 바탕으로 대규모 데이터 배치를 다양한 사용 사례에 맞게 확장할 수 있으며, 전 세계 혁신적인 AI 기업과의 협업을 통해 다양한 데이터 모달리티를 지원합니다.
전문성: 에펜의 음성 합성 지원팀은 고급 언어학자와 전문 음성 데이터 수집 경험을 바탕으로 고객의 TTS 프로젝트 성공을 지원합니다.
데이터 프라이버시 및 보안: 유럽, 미국, 아시아에 걸쳐 안전한 현장 데이터 라벨링 및 수집 서비스를 제공합니다. 또한 글로벌 재택근무 환경에서도 보안을 유지하기 위해 안전한 작업 공간과 싱글 사인온(SSO) 기능을 지원하며, 데이터 프라이버시 및 보안 규정을 준수하고 주요 인증을 보유하고 있습니다.
고가용성 데이터 제공: 셀프서비스부터 외부 위탁까지 다양한 AI 모델 전달 옵션을 제공합니다. 직관적인 사용자 인터페이스와 주석 작업 템플릿, 24/7 지원을 제공하며, 강력한 API 통합 기능을 통해 기존 MLOps 인프라와 원활하게 연결할 수 있습니다.

언어학자와 전문적인 음성 데이터 수집 경험을 갖춘 에펜의 음성 합성 지원팀이 여러분의 음성 합성 프로젝트를 성공적으로 지원하겠습니다. 상담이 필요하시다면 지금 바로 문의하세요!

NLP 프로젝트 지원이 필요하신가요? 자연어 처리 전문가에게 문의하세요.

문의하기