데이터 라벨링이란 무엇인가? 데이터 유형 알아보기

데이터 라벨링은  AI 애플리케이션을 위한 데이터 분류와 데이터 레이블링을 의미합니다. 사람처럼 행동하는 인공지능이나  머신러닝 모델을 구축하기 위해서는 많은 양의 학습 데이터가 필요합니다. 특히, 머신러닝 모델이 스스로 결정을 내리고 조치를 취하게 하기 위해서는 특정 정보를 이해하도록 학습되어야 하죠. 이때, 학습 데이터는 사용 용도에 맞게 적절하게 분류되고 라벨링되는 것이 중요합니다. 이에 따라 기업은 사람 작업자가 직접 작업한 고품질의 데이터 라벨링을 통해 인공지능 구현을 구축하고 개선할 수 있습니다. 그 결과 제품 추천이나 연관 검색 결과, 컴퓨터 비전, 음성 인식, 챗봇과 같은 고객 경험 개선 솔루션이 만들어집니다.

데이터 라벨링에는 텍스트, 음성, 이미지, 영상 등의 기본 유형이 있습니다.

 

데이터 라벨링 유형

텍스트 데이터 라벨링이란?

텍스트 데이터 라벨링은 가장 일반적으로 사용되는 데이터 유형으로 감정, 의도 및 쿼리와 같은 광범위한 라벨링이 포함됩니다. 2020년 인공지능 및 머신러닝 현황 보고서에 따르면 기업의 70%가 텍스트 데이터 라벨링에 의존합니다.

영어 문장의 단어들이 라벨링 툴에서 어노테이션되어 있음

 

감성 분석이란?

감성 분석은 태도, 감정 및 의견을 평가하는 것을 의미하며 올바른 학습 데이터를 확보하는 것이 중요합니다. 학습 데이터를 얻기 위해 사람 작업자는 모욕적이거나 민감한 키워드, 또는 신조어(비속어)에 태그를 직접 라벨링 함으로써 SNS나 전자상거래와 같은 웹 플랫폼의  감성을 평가하고 콘텐츠를 조정하는 역할을 맡습니다.

의도 데이터 라벨링이란?

사람-머신 인터페이스의 대화가 증가하면서, 자연어와 사용자 의도를 모두 이해할 수 있는 머신의 능력이 강조되고 있습니다. 의도 데이터 라벨링은 의도를 요청이나 명령, 예약, 추천, 확인 등의 주요 범주로 구분합니다.

시맨틱 라벨링이란?

시맨틱 라벨링은 제품 목록을 개선하고 고객이 원하는 제품을 찾을 수 있도록 합니다. 이를 통해 고객은 더 쉽게 구매자로 전환됩니다. 시맨틱 라벨링 서비스는 제품 이름이나 검색 쿼리 내의 다양한 구성 요소에 태그를 지정함으로써 알고리즘을 학습시킵니다. 이는 개별 부분을 인식하고 전반적인 검색 관련성을 향상하는데 도움이 됩니다.

개체명 인식이란?

개체명 인식(NER)은 많은 양의 수동 라벨링된 학습 데이터를 필요로 합니다. 에펜의 개체명 인식 기능은 광범위한 케이스에 활용됩니다. 전자상거래에서 다양한 주요 설명자를 식별하고 태그를 지정하거나 SNS에서 사람, 장소, 회사, 기관, 제목과 같은 개체에 태그를 지정할 수 있도록 하여 더 나은 타겟팅 광고 콘텐츠를 지원할 수 있죠.

개체명 인식(NER) 케이스: 검색 품질 향상, Microsoft Bing

Microsoft의 Bing 검색 엔진의 개체명 인식 케이스를 소개해드리겠습니다. Microsoft는 저희에게 대규모 데이터셋을 활용한 검색 결과 품질 개선을 요청했었습니다. 중요한 점은 검색 결과가 서비스를 제공하는 글로벌 시장과 문화적인 관련성이 있어야 했죠. 이에 따라 저희는 프로젝트 및 프로그램 관리 제공과 고품질 데이터셋을 통해 Microsoft에 새로운 시장에서 빠르게 성장할 수 있는 솔루션을 제공했습니다.  (개체명 인식 케이스 더 알아보기)

음성 데이터 라벨링이란?

음성 데이터 라벨링은 음성 데이터의 전사 및 타임스탬프를 의미합니다. 이때, 음성 데이터는 언어, 방언 및 화자에 대한 인구 통계학적 식별과 특정 발음 및 억양의 전사를 포함합니다. 음성 데이터 라벨링은 각각의 케이스마다 달라지며 구체적인 접근 방식이 필요한 사례들도 있습니다. 예를 들어, 보안이나 비상 핫라인 기술 애플리케이션의 경우, 공격적인 음성 표시자나 유리 깨지는 소리와 같은 비음성 소리에 태그를 지정해야 하죠.

음성 데이터가 데이터 라벨링 툴에서 어노테이션 되어 있음

 

음성 데이터 라벨링 케이스: 에펜 플랫폼을 활용한 음성 전사 및 분류, Dialpad

Dialpad의 음성 데이터 라벨링 케이스를 소개해드리겠습니다. Dialpad는 전화 음성 데이터를 수집하는 비즈니스 커뮤니케이션 기업입니다. 자체 음성 인식 모델을 활용하여 모든 대화를 기록할 뿐만 아니라 자연어 처리 알고리즘을 사용하여 모든 대화를 이해합니다. Dialpad는 모든 통화를 성공시키기 위해 일대일 대화를 분석하고 이에 따른 각 담당자와 회사 전체의 성과를 파악합니다. Dialpad는 에펜과 만나기 전 6개월 동안 타사와 함께 일했지만, 데이터의 정확도 부족으로 어려움을 겪었습니다. 하지만 appen과 협업을 시작한 이후, 에펜의 자체 데이터 라벨링 플랫폼을 통해 단 몇 주 안에 필요한 전사와 NLP 학습 데이터를 생성 완료할 수 있었습니다. (음성 데이터 라벨링 케이스 더 알아보기)

이미지 라벨링이란?

이미지 라벨링은 이미지 해석을 위한 머신러닝 솔루션과 다양한 응용 분야(컴퓨터 비전, 로봇 비전, 안면 인식)에 있어서 필수적입니다. 이러한 솔루션을 학습시키기 위해서는 식별자, 캡션 또는 키워드 형식으로 메타데이터를 이미지에 할당해야 합니다.

자율주행 차량에 사용되는 컴퓨터 비전 시스템에서부터, 농산물을 선별하고 분류하는 머신, 건강 상태를 자동으로 식별하는 의료 애플리케이션에 이르기까지 대량의 라벨링 이미지를 필요한 많은 케이스들이 있습니다. 이때 이미지 라벨링은 이러한 시스템을 효과적으로 학습하여 정밀도와 정확도를 높입니다.

눈과 코, 입이 어노테이션되어 있는 여성의 얼굴

이미지 라벨링 케이스: 대규모 에셋 프로필을 활용한 고객 만족도 향상, Adobe Stock

Adobe의 대표적인 제품 중 하나인 Adobe Stock은 고품질 스톡 이미지 컬렉션입니다. 이 라이브러리는 2억 개가 넘는 엄청난 양의 에셋(영상 약 1,500만 개, 벡터 약 3,500만 개,  편집 에셋 약 1,200만 개, 이미지 약 1억 4,000만 개, 일러스트레이션, 템플릿, 3D 에셋 포함)을 갖고 있으며 각각의 에셋은 모두 검색 가능해야만 합니다. 에펜은 Adobe의 이미지 라벨링 프로젝트를 위해 보다 정확한 학습 데이터를 제공했습니다. 이 학습 데이터는 Adobe의 수억 개가 넘는 이미지 라이브러리와 매일 업로드되는 수십만의 새로운 이미지의 미묘한 특성을 구분할 수 있는 모델을 만드는 데 큰 도움이 됐습니다. 그뿐만 아니라 결과적으로 Adobe는 다양한 고객에게 가장 가치 있는 이미지를 제공할 수 있는 구조를 만들게 됐죠. 에펜과의 협력으로 이제 Adobe 고객은 유사한 이미지를 찾기 위해 페이지를 스크롤 하지 않고도 가장 유용한 이미지를 빠르게 찾아 강력한 마케팅 자료를 만들 수 있게 되었습니다. (이미지 라벨링 케이스 더 알아보기)

영상 데이터 라벨링이란?

사람이 직접 라벨링한 데이터는 성공적인 머신러닝의 필수 요소입니다. 작업자는 컴퓨터와 달리 주관성을 갖고 의도를 이해하고 모호함에 대처할 수 있습니다. 예를 들어, 검색 엔진 결과의 관련성 여부를 결정할 때는 합의를 위해 다수의 의견이 필요합니다. 컴퓨터 비전 또는 패턴 인식 솔루션을 학습할 때 이미지에서 교통 표지판이나 나무가 포함된 픽셀의 윤곽을 그리는 것과 같이 특정 데이터를 식별하고 주석을 추가하려면 역시나 작업자가 필요합니다. 이 구조화된 데이터를 활용하여 머신은 테스트 및 생산에서 관계를 인식하는 방법을 학습하게 됩니다.

데이터 라벨링 툴에 바다에 있는 가오리가 어노테이션되어 있음

영상 데이터 라벨링 케이스: 지도를 더 빠르게 미세 조정하는 데이터 생성, HERE Technologies

80년대 중반부터 현재까지 3차원 지도를 만들어 온 HERE는 수백 개의 기업에 데이터와 인사이트를 제공합니다. HERE는 표지판 감지 모델을 구동하는 실측 데이터를 만들기 위해 수만 킬로미터의 주행 도로에 라벨을 추가하고자 했지만, 영상을 이미지로 분석하는 것은 불가능했습니다. 이를 해결하기 위해 HERE은 에펜을 찾았습니다. 저희는 머신러닝 지원 영상 객체 추적 솔루션을 통해 해결책을 제시했습니다. 그 결과, 사람의 지능과 머신러닝을 결합한 에펜의 객체 추적 솔루션은 HERE의 영상 데이터 라벨링 속도를 크게 향상했습니다. (영상 데이터 라벨링 케이스 더 알아보기)

데이터 라벨링, 에펜과 함께 하세요

25년의 데이터 라벨링 경력을 지닌 에펜은 머신러닝과 인력 지원 접근 방식을 결합하여 고객이 필요로 하는 고품질 학습 데이터를 제공합니다. 에펜의 데이터 라벨링 솔루션(텍스트 데이터 라벨링, 이미지 라벨링, 음성 데이터 라벨링, 영상 데이터 라벨링)을 통해 인공지능 및 머신러닝 모델을 대규모로 배포해보세요. 에펜의 자체 플랫폼과 관리 서비스 팀은 데이터 라벨링을 위해 필요한 모든 것을 제공해드립니다. 여러분의 인공지능과 머신러닝 프로젝트의 배포와 유지, 관리를 더 정확하게 도와드리겠습니다.

문의하기

Language