SFT(Supervised fine-tuning)을 통한 다국어 LLM 성능 향상

2025/03/09

다국어 LLM 프로젝트 소개

이번에 소개할 사례는 글로벌 테크 기업의 다국어 LLM(대규모 언어 모델) 성능 향상을 위해 30개 이상의 언어와 70개 이상의 방언을 대상으로 구조화된 인간 피드백 데이터를 제공한 프로젝트입니다. 데이터 작업자들은 다중 턴 대화에 참여하여 응답의 관련성, 일관성, 정확성, 유창성을 기준으로 5가지 모델 변형을 평가하고 순위를 매겼습니다. 그 결과, 25만 개 이상의 대화 데이터를 수집할 수 있었으며, 이를 기반으로 모델 출력을 정제하고 SFT(Supervised Fine-Tuning)를 수행했습니다. 여기서 말하는 SFT(Supervised Fine-Tuning, 감독된 파인튜닝)는 LLM(대규모 언어 모델)의 성능을 개선하기 위해 사람이 제공한 고품질 데이터를 활용하여 모델을 추가로 학습시키는 과정을 의미합니다.

결과적으로, 이 프로젝트는 초기 5개 언어와 10개 방언에서 시작해 70개 이상의 방언으로 확장되었으며, 이를 통해 LLM 모델의 문화적 적합성과 언어적 정확성을 크게 향상시켰습니다.

프로젝트 목표

이 프로젝트의 핵심 목표는 아랍어, 중국어, 독일어, 러시아어, 스페인어 등 다양한 언어 및 방언에서 LLM이 보다 정확하고 문맥적으로 적절하며 유창한 응답을 생성하도록 하는 것이었습니다. 이를 위해 LLM 모델 출력에 대한 인간 선호도 데이터를 체계적으로 수집하고, 이를 활용하여 모델이 문화적·언어적으로 더욱 정교하게 조정될 수 있도록 했습니다.

도전 과제

프로젝트에서 해결해야 할 주요 과제는 다음과 같았습니다.

  • 다양한 언어와 방언을 아우르는 고품질 데이터 확보: 대화 주제와 복잡성이 다양한 AI 학습 데이터를 구축해야 했습니다.
  • 문화적·지역적 특성을 반영한 평가: 모델 응답 평가가 각 지역의 언어적 특성을 반영하도록 현지화 과정이 필요했습니다.
  • SFT를 위한 데이터 적합성 확보: 개선이 필요한 모델 응답에 대해, 데이터 작업자들이 SFT에 적합한 수정 데이터를 제공해야 했습니다.

특히, 프로젝트의 규모가 커지면서 다음과 같은 추가적인 과제가 발생했습니다.

  • 다양한 데이터 작업자 모집: 크메르어, 마라티어 등 사용 인구가 적은 언어의 적격한 데이터 작업자를 확보하는 것이 핵심 과제였습니다.
  • 언어 및 방언별 적절성 확보: 프롬프트와 모델 응답이 각 지역에서 문화적으로 적절하고 언어적으로 정확한지 검증해야 했습니다.
  • 대규모 데이터 품질 유지: 일관된 AI 데이터 품질 표준을 유지하면서 복잡성이 다른 대화를 체계적으로 평가해야 했습니다.

솔루션

이러한 과제를 해결하기 위해 구조화된 다단계 접근 방식을 적용했습니다.

  • 전문 데이터 작업자 모집: LLM 프로젝트 경험이 있는 다양한 지역의 원어민을 확보하여, 단일 언어 및 다국어 상호작용에 적합한 프롬프트를 생성하도록 했습니다.
  • 체계적인 선호도 순위 프로세스 도입: 데이터 작업자들은 5가지 모델 변형을 바탕으로 다중 턴 대화에 참여하고, 응답의 일관성, 사실적 정확성, 유창성, 지시 따르기 기준에 따라 순위를 매겼습니다. 이를 통해 방언별 모델 성능에 대한 핵심 인사이트를 도출했습니다.
  • SFT 데이터 정제: 선호도 순위 데이터를 기반으로 고품질 학습 데이터를 생성하여, 모델이 실제 언어 및 문화적 뉘앙스를 더욱 정확히 반영할 수 있도록 했습니다.
  • AI 데이터 플랫폼(ADAP) 활용: 프로젝트는 에펜의 AI 데이터 플랫폼(ADAP)에서 관리되었으며, 이를 통해 효율적인 워크플로우 실행과 품질 보증을 강화했습니다. 또한, 데이터 검증기와 테스트 문제를 통합하여 일관성과 정확성을 높였습니다.

프로젝트 결과

SFT 접근 방식을 통해 다국어 LLM의 성능이 크게 개선되었으며, 주요 성과는 다음과 같습니다.

  • 25만 개 이상의 대화 데이터 수집 완료
  • 초기 5개 언어, 10개 방언에서 30개 언어, 70개 방언으로 확장
  • 응답 품질 및 언어적 다양성 향상을 통한 LLM 모델 정확도 및 사용자 만족도 개선

에펜은 인간 선호도 순위와 SFT을 활용하여 글로벌 사용자들에게 보다 빠르고 정확한 응답을 제공할 수 있도록 다국어 LLM을 개선했습니다. 이를 통해 다양한 언어 환경에서도 더욱 자연스럽고 상황에 적합한 AI 모델을 구축할 수 있었습니다.

LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.