대화형 AI란? 정의, 소셜 로봇, 구축 방법, 솔루션

대화형 AI 에이전트를 위한 데이터 수집 방법과 소셜 로봇

대화형 AI란?

챗봇, 가상 비서, 로봇 등 대화형 AI는 이미 우리 일상에서 흔히 볼 수 있습니다. 기업들은 비용을 절감하고 고객 참여를 증대시키기 위해 이 분야에 많은 투자를 하고 있는데요, 이에 따라 예측되는 성장도 상당합니다. 대화형 AI 에이전트 산업은 적어도 2025년까지 매년 20% 성장할 것으로 예상됩니다. 또한 가트너(Gartner)는 AI를 활용하는 기업이 고객 참여 플랫폼에서 운영 효율성을 25% 향상할 것으로 예측합니다. 특히 팬데믹으로 인해 고객과의 원활한 소통과 정보 전달의 중요성이 더욱 커졌습니다. 대화형 AI는 각 고객에게 맞춤화된 인간적 경험을 제공하여 기업이 디지털 커뮤니케이션의 인간적 요소를 극복하도록 하는 인공지능의 한 유형을 뜻합니다. 이러한 변화는 브랜드의 참여 방식을 재정의하고, 새로운 표준이 될 것입니다.

 

대화형 AI 구축의 어려움

대화형 AI 구축은 인공지능이 인간의 말을 모방하도록 해야 하기 때문에 결코 쉬운 작업이 아닙니다. 이때 AI는 다양한 언어와 억양, 발음, 문법 전환, 추임새 등 다양한 요소를 처리해야 하죠. 이를 위해 고품질 데이터가 필요하지만 종종 노이즈가 많고 잘못된 해석을 유발할 수 있는 데이터를 사용하게 될 수 있으며 이는 오류가 많은 AI를 탄생시키게 됩니다. 따라서 데이터의 역할과 노이즈 데이터를 관리하는 방법을 이해하는 것은 인공지능 오류와 실패를 줄이는 데 중요합니다.

 

대화형 AI 구축 프로세스

Siri나 Google Home과 같은 음성 기능을 갖춘 에이전트를 구축하는 프로세스는 아래와 같습니다.

  1. 데이터 입력: 사용자 음성을 오디오 파일로 수집하고, 이를 텍스트로 변환합니다.
  2. 자연어 이해(Natural Language Understanding , NLU): 변환된 텍스트를 분석하여 사용자의 의도와 필요한 정보를 추출합니다.
  3. 대화 관리: 추출된 정보를 기반으로 적절한 대화 흐름을 유지하고 사용자의 요청에 응답합니다.
  4. 자연어 생성(Natural Language Generation , NLG): 대화 관리를 통해 생성된 정보를 자연스러운 언어로 변환하여 응답합니다.
  5. 데이터 출력: 생성된 응답을 다시 오디오로 변환하여 사용자에게 전달합니다.

이때, 자연어 이해(NLU)는 사용자의 의도를 이해하는 핵심 단계로, 다음과 같은 과정을 포함합니다.

  1. 의도 정의: 사용자의 발화가 나타내는 목적이 무엇인지 파악합니다. 예를 들어, “오늘의 날씨를 알려줘”는 날씨 정보 요청의 의도를 가집니다.
  2. 발화 수집: 같은 의도를 가진 다양한 발화를 수집하여 모델이 학습할 수 있도록 합니다.
  3. 엔터티 추출: 발화에서 중요한 정보를 추출하여 사용합니다. 예를 들어, “내일 아침 7시에 서울로 가는 비행기를 예약해 줘”에서는 날짜, 시간, 장소 등의 엔터티가 중요합니다.

대화형 AI는 이러한 과정을 거쳐 사용자의 요청을 이해하고 적절하게 대응합니다. 그러나 실제로는 데이터의 다양성과 복잡성으로 인해 이러한 프로세스를 구축하고 유지하는 것이 어려울 수 있습니다. 이러한 어려움을 극복하기 위해 지속적인 연구와 기술 발전이 필요합니다.

 

소셜 로봇이란?

소셜 로봇이란?

대화형 AI 에이전트의 목표는 기계가 아닌 친구와 같은 존재로서 인간과 상호 작용할 수 있도록 하는 것입니다. 대표적으로 소셜 로봇이 이에 해당되는데요, 이 로봇은 말과 몸짓을 사용해 인간과 의사소통하고, 유용한 서비스를 제공하며, 자연어를 통해 자연스러운 대화 흐름을 유지하도록 학습됩니다. 이처럼 사람들과 상호작용할 수 있는 소셜 로봇을 설계하는 방법은 크게 시각적 프로그래밍과 원격 조작 두 가지가 있습니다.

 

시각적 프로그래밍

개성을 갖춘 소셜 로봇을 만드는 방법 중 하나는 순서도 기반의 시각적 프로그래밍을 이용하는 것입니다. 순서도 블록은 말하기와 악수, 지점으로 이동 등의 백엔드 기능을 나타냅니다. 이러한 블록들은 상호작용의 흐름을 분류합니다. 콘텐츠 작성자는 순서도를 사용하여 음성, 제스처 및 감정을 쉽게 결합하여 매력적인 상호 작용을 구축할 수 있습니다. 에리카(ERATO 지능형 대화형 Android)는 이 방법을 사용하여 구축되었습니다. 콘텐츠 작성자는 이를 단순한 질문 답변 장치가 아닌 캐릭터로 발전시키기 위해 몇 달에 걸쳐 반복적으로 콘텐츠를 추가했습니다. 이제 에리카는 2,000개 이상의 행동과 50개 이상의 주제 시퀀스를 완료할 수 있습니다.

 

원격 조작

소셜 로봇을 설계하는 또 다른 접근 방식은 원격 조작입니다. Nara Experiment에서는 일본 Nara 관광 센터에 로봇을 고용하여 방문객을 위한 여행 가이드를 시작했습니다. 인간 투어 가이드는 로봇을 위한 도다이지 사원에 대한 배경 정보와 같은 오프라인 콘텐츠를 만들고 엔지니어는 해당 정보로 로봇을 프로그래밍합니다. 그 후 이 방법을 원격 조작과 대조했습니다. 결과적으로 인간이 로봇을 원격으로 제어했을 때 단순히 오프라인 데이터에 의존할 때보다 결과가 더 정확했습니다.

하지만 문제는 방법의 확장성이 낮고, 콘텐츠 입력이 느리며 오류가 발생하기 쉬우며, 다중 모드 동작을 제어하기 어렵다는 것입니다. 이는 흥미로운 사례 연구이지만 이러한 실험은 대화 설계에 대한 보다 확장 가능한 대안에 대한 질문을 유발합니다. 실제 인간과 인간의 상호 작용에서 데이터를 수집하는 것이 더 효율적이지 않을까요?

 

사례 연구

만약 인간 행동을 크라우드소싱하여 더 수동적이고 비용 효율적인 고품질 데이터를 수집할 수 있다면 어떨까요? 이는 인간 상호작용을 관찰하고 일반적인 행동 요소를 추상화하여 로봇 상호작용을 생성하는 데 도움이 됩니다. 이 아이디어를 증명하기 위한 방법론을 살펴보겠습니다.

  1. 데이터 수집: 발화(speech), 로코모션(locomotion) 및 근접학 형성(proxemics formation) 등 세 가지 중요한 범주에 대한 고객 및 상점 주인의 다양한 행동 데이터를 수집합니다.
  2. Speech: 자동 음성 인식을 사용하여 카메라의 메가픽셀 수나 해상도에 대해 질문하는 일반적인 발언을 수집하고, 계층적 클러스터링을 사용하여 이러한 발언의 의도를 매핑합니다.
  3. Locomotion: 센서는 서비스 카운터와 같이 사람들이 모이는 일반적인 위치에서 카메라 디스플레이까지의 고유한 궤적을 추적하는 데이터를 수집합니다. 또한 클러스터링을 사용하여 각 위치와 궤적의 빈도를 결정합니다.
  4. Proxemics Formation: 센서는 고객 및 상점 주인의 일반적인 형태를 포착합니다. 예를 들어, 대면 또는 상점 주인이 제품을 제시하는 경우를 사용합니다. 또한 고객이 말하거나 움직일 때 해당 상호 작용은 고객과 가게 주인 행동을 쌍으로 분리합니다.
  5. 모델 훈련: 고객 행동(speech, locomotion 및 (proxemics formation)과 상점 주인의 예상 반응에 대한 레이블이 지정된 데이터를 사용하여 모델을 교육합니다. 예를 들어, 고객 행동에는 가격을 묻는 것이 포함되고 상점 주인은 가격을 제시하는 것이 포함될 수 있습니다.

실제 모델 훈련 후 카메라 작업 현장에서 로봇을 테스트하고 216개의 다양한 상호 작용을 정확하게 처리할 수 있었습니다. 이 사례 연구의 로봇이 인간의 말과 행동을 모방하려는 시도와 관련된 복잡성을 보여줍니다.

 

에펜의 대화형 AI 솔루션

대화형 AI 에이전트를 구축하는 것은 결코 쉽지 않습니다. 데이터는 노이즈가 많고 수집하기 어렵기 때문에 인간의 언어를 모방하는 것이 힘들기 때문이죠. 고품질 데이터를 수집하기 위해서는 데이터 소싱 워크플로우를 설계하는 것이 필수적입니다. 현장 접근 방식을 통해 데이터를 수집하는 것은 자연스러운 대화를 포착하는 데 가장 적합하지만, 오류율을 더 낮추려면 더 많은 진전이 필요합니다. 노이즈가 있는 데이터 문제는 계속해서 끊임없이 발생합니다. ML 지원 검증을 사용하여 처음부터 노이즈가 있는 발화를 제거하고 추상화 및 데이터 기반 기술을 활용하면 노이즈를 줄일 수 있습니다. 대화형 AI 에이전트의 비즈니스 가치 실현은 데이터에 막대한 투자를 하고 자연어 문제를 해결하기 위한 보다 정확한 ML 접근 방식을 개발하는 것을 의미합니다. 저희 에펜에서는 기업이 대화형 AI 에이전트를 성공적으로 생성할 수 있는 솔루션을 제공합니다. 지금 바로 에펜의 AI 데이터 전문가에게 상담받아보세요!

에펜의 대화형 AI 솔루션

Language