LLM(Large Language Model) 데이터 – 수집 방법, 장단점, 윤리

웹스크래핑과 기계 번역이 LLM 데이터에 미치는 영향

LLM 데이터 수집의 문제

웹 스크래핑 되고 기계 번역된 데이터들이 기하급수적으로 늘어남에 따라 LLM(대형 언어 모델)에 사용되는 데이터셋도 함께 그 수가 엄청나게 증가하는 문제가 발생하게 됐습니다. 이러한 데이터 소스는 언어 학습에 부정적 영향을 미칠 수 있죠. 이에 따라 데이터 품질과 윤리성에 있어 트레이닝 엔지니어나 AI 데이터 분석가, 비즈니스 리더들의 중요성이 더욱 강조됩니다.

 

LLM 데이터 품질의 중요성

언어는 모든 영역에서의 협업과 혁신 및 발전을 위해 꼭 필요한 보편적인 의사소통 도구입니다. 하지만 AI에서 언어의 중요성은 단순한 의사소통을 넘어 번역, 자연어 처리(NLP), 대화형 AI와 같은 기술로 확장됩니다. LLM은 고객 서비스 챗봇부터 다국적 디지털 콘텐츠 큐레이션에 이르기까지 전 세계 다양한 고객에게 서비스를 제공하는 애플리케이션의 핵심이 되었습니다.

예를 들어, 교육 분야에서는 전 세계 사용자에게 접근성과 개인화 기능을 제공하는 디지털 언어 학습 플랫폼의 인기가 점점 높아지고 있습니다. 이러한 플랫폼은 이를 교육하는 데이터의 품질이 좋을수록 기능도 함께 향상합니다. 이러한 AI의 특성으로 인해 인공지능을 학습하기 위해 우리는 윤리적으로 건전하고 좋은 품질의 데이터를 사용해야만 합니다.

 

LLM의 이해

LLM은 머신러닝을 통해 구동되며 인간의 언어를 반영하는 텍스트를 이해하고 생성하기 위해 방대한 데이터셋으로 훈련됩니다. 훈련 과정에는 맥락과 의미가 부여된 각 단어, 구, 문장 등 세세하게 어노테이션이 달린 데이터가 필요합니다. 이에 따라 고품질 학습 데이터는 LLM이 다양한 방언 및 사회 언어에 적응하는 능력을 갖춘 고급 다국어 모델이 되도록 하는 기반이 됩니다.

에펜의 수석 언어학자인 Josh Emanuel은 “정확한 언어 모델은 사용자를 진정으로 이해하고 참여시키는 AI의 기반입니다. 이러한 모델을 훈련하는 데 사용되는 데이터에는 문화적 뉘앙스와 상황별 지능이 담겨 있습니다. 이 데이터를 소싱하고 관리하는 데 있어 무결성이 없으면 부정확성을 강화하고 여러 오해를 발생시키는 AI를 만들 위험이 있습니다.”라고 말합니다.

 

웹 스크래핑/ 기계 번역된 LLM 데이터의 장단점

웹 스크래핑 되고 기계 번역한 데이터는 매우 풍부하고 다양하며 비용 효율성도 뛰어납니다. 이를 기반으로 여러 언어로 제공되는 웹 콘텐츠를 만들 수 있고 이를 통해 다국어 LLM 생성을 가속화할 수 있기 때문에 AI 트레이너에게도 아주 좋은 LLM 데이터입니다.

이처럼 LLM 데이터에 대한 훈련받지 않은 사람의 눈에는 데이터셋이 많고 광범위하기 때문에 AI 훈련을 위한 완벽한 자료처럼 보일 수 있습니다. 특히 어노테이션이 달린 원본 데이터셋 생성에 많은 노동과 시간이 소모된다는 사실은 웹 스크래핑한 데이터를 더 비용 효율적인 것처럼 보이게 합니다. 그러나 이러한 LLM 데이터는 부정확성이나 윤리적 문제 등의 위험이 내재되어 있기 때문에 결과적으로 심각한 문제를 초래하는 경우가 많습니다.

 

웹스크래핑 데이터

웹스크래핑은 기계적으로 생성되어 관용적 표현이나 언어적 특이성에 대한 이해 없이 단순히 단어를 바꾸는 프로세스입니다. 따라서 웹스크래핑 프로세스는 만병통치약이 아니라 맥락 상실이나 부정확성, 문화 및 언어적 뉘앙스 침식 가능성이 있는 지뢰밭입니다.

웹스크래핑 데이터의 기계 번역 품질은 소스 언어의 복잡성, 콘텐츠 유형, 번역 모델의 정교함에 따라 크게 달라집니다. 데이터 큐레이션 및 교육에 대한 일률적인 접근 방식은 추가 편향 레이어를 유도하고 모델의 정확성과 문화적 민감도를 손상시킵니다.

 

LLM 데이터 수집의 윤리

AI 언어 훈련에 웹스크래핑 데이터를 사용하는 것은 윤리적 우려를 불러일으킬 수 있습니다. 대량의 데이터를 한 번에 수집하는 것이 편리하고 비용 효율적으로 보일 수 있지만, 데이터 제공자의 동의나 귀속 없이 정보를 사용하는 것은 합법성과 도덕성에 문제가 됩니다.

대부분의 경우 데이터를 스크랩하는 소스에는 명확한 사용 약관이 없거나 데이터 수집을 명시적으로 금지하는 경우들이 있습니다. 과연 이러한 소스를 활용하는 게 비윤리적인 걸까요? 출처에 대한 불투명성은 웹스크래핑 데이터의 윤리적 문제를 야기합니다. 즉, 데이터의 출처를 알지 못하면 그것이 다양한 목소리와 관점을 대변하는지 판단하기가 어렵고 이는 고정관념을 지속시키고 포괄적인 언어 학습을 불가능하게 합니다.

 

저품질 LLM 데이터의 영향

핵심 문제는 머신러닝 자체가 아니라 투명성이나 윤리적 고려 없이 획득한 데이터에 대한 의존성입니다. 콘텐츠를 웹스크래핑하고 기계 번역을 통해 대규모 데이터셋을 생성하면 시간과 비용이 절약되지만 정확성과 품질은 떨어지기 마련입니다. 웹스크래핑한 데이터는 일관성이 없고 잘못된 번역이나 컨텍스트 누락과 같은 오류로 가득 차 있습니다. 또한 기계 번역된 텍스트는 사람이 작업한 번역보다 품질이 훨씬 낮으며, 이로 인해 LLM 훈련에서 발견되는 오류가 더욱 복잡해집니다. 이러한 데이터를 기반으로 만들어진 LLM은 사용자를 실망시킬 뿐만 아니라 잘못된 언어 사용과 오해를 영속시킬 수 있습니다.

에펜의 수석 언어학자인 Josh는 소스가 부족한 데이터를 머신러닝 알고리즘에 공급하면 그 결과는 심각해질 수 있다고 경고합니다. “언어는 본질적으로 복잡하며 문화적 맥락과 얽혀 있습니다. 데이터의 낮은 정확성은 편견이나 허위 표현을 증폭시켜 AI 시스템을 비효율적으로 만들고 다문화 상호 작용에 잠재적으로 해를 끼칠 수 있습니다.”라고 덧붙였습니다.

LLM 데이터는 단순한 번역 정확도뿐만 아니라 최종 사용자에게도 큰 영향을 미칩니다. 저품질의 LLM 데이터셋은 언어 학습 프로그램의 효율성과 뉘앙스에 큰 장애가 되며 학습자는 자신도 모르게 오류와 잘못된 번역을 받아들여 언어에 대한 능숙도와 유창함을 잃게 될 수 있습니다.

 

고품질 LLM을 만드는 법

다행히도 고품질 LLM을 만드는 방법은 여전히 존재합니다. 웹스크래핑한 기계 번역 데이터의 문제점을 해결하기 위해서는 전문적으로 번역된 콘텐츠를 사용하거나 검증 프로세스에 작업자를 투입하여 사용자 생성 데이터를 전략적으로 통합하는 것이 좋습니다. 이때 핵심은 단순히 언어에 자체에만 집중하는 것이 아니라 문화적, 언어적으로 다양한 LLM 데이터셋을 사용하는 것입니다.

 

에펜의 LLM 데이터

윤리적인 데이터 소스를 중요시하는 에펜은 웹스크래핑되고 제대로 번역되지 않은 LLM 데이터셋으로 인해 발생하는 문제에 대해 보다 강력한 솔루션을 제시합니다.

  • 데이터 정확성과 문화적 관련성을 우선시하는 큐레이션 프로세스 제공
  • 전 세계의 다양한 언어 사용자와 전문 언어학자와의 협업을 통해 LLM 데이터가 실제 사용되는 다양한 언어와 언어적 뉘앙스를 반영
  • 휴먼 인 더 루프(Human-In-The-Loop) 기반의 지속적인 검증과 개선을 통해 AI 언어 모델의 정교함과 적용 가능성 향상
  • 고품질 데이터 라벨링 툴과 언어 전문 지식을 기반으로 높은 데이터 청결도와 정확도 보장

LLM 데이터 생성을 위해 처음부터 사람이 직접 번역하여 데이터셋의 기초가 원본 콘텐츠만큼 확실하도록 보장합니다. 만약 기계 번역을 출발점으로 삼는 경우, 엄격한 품질 기준을 충족하기 위해 사람이 직접 출력을 꼼꼼하게 수정하고 다듬는 사후 편집 서비스를 제공합니다. 이 접근 방식은 번역의 정확성을 높이고 기계 번역이 종종 놓칠 수 있는 문화적 관련성이나 문맥상의 뉘앙스를 크게 향상합니다.

에펜의 고품질 LLM 데이터를 기반으로 정확도 높은 대형 언어 모델을 구축하세요!

에펜의 의료 AI 솔루션

Language