Cohere의 LLM 파인튜닝 확장 전략은?

2025/08/17

LLM 파인튜닝 프로젝트

오늘날 치열한 AI 시장에서 대규모 언어 모델(LLM)의 성능을 인간의 가치와 기대까지 향상하는 것은 중요한 차별화 요소입니다. 하지만 이를 대규모로 구현하면서도 고품질 입력과 낮은 지연 시간을 유지하는 것은 쉽지 않습니다.

Cohere 소개

Cohere는 보안을 최우선 가치로 두는 선도적인 AI 기업입니다. 실제 비즈니스 문제 해결에 초점을 맞춘 최첨단 모델과 엔드 투 엔드 솔루션을 제공하며, 특히 Command 시리즈는 안전하고 기업 환경에 최적화된 LLM으로 잘 알려져 있습니다.

규제 산업을 포함한 다양한 업계의 기업들은 고객 지원부터 내부 운영까지 Cohere 모델을 적극 활용하고 있습니다. Cohere 모델을 지속적으로 개선하기 위해서는 신뢰할 수 있는 인간 피드백 기반의 지속적 강화 학습파인튜닝이 필수적입니다.

이 목표를 달성하기 위해 Cohere는 PANDA Plus(Preference Annotation Data Acquisition + Supervised Fine-Tuning, SFT) 프로그램을 개발했습니다. 이를 통해 구조화된 인간 선호 데이터를 수집하고, 모델이 지침과 사용자 기대를 더 잘 충족하도록 응답을 개선해 성능을 강화했습니다.

프로젝트 목표

PANDA Plus는 실시간 모델 평가와 응답 편집을 Cohere의 학습 루프에 통합했습니다. 데이터 라벨링 작업자에게는 두 가지 모델 출력을 제시하고, 다음과 같은 작업을 요구했습니다.

  • 더 유용하고 적절한 응답 선택
  • 필요시 응답 수정 및 개선
  • 정성적 피드백과 타당성 분석 제공
  • 감독 기반 파인튜닝(SFT)을 위한 응답 재작성

이 과정에서 Appen은 다음과 같은 역할을 수행했습니다.

  • LLM 파인튜닝 경험이 있는 데이터 라벨링 작업자를 통한 고품질 피드백 보장
  • 실시간 전달 시스템을 활용해 모델 피드백 지연 시간 단축
  • 다양한 작업 변형(예: 대화 지속, 개방형 지시 이행) 지원
  • 연구 및 운영 단계에서 모두 활용 가능한 학습 주기 제공

도전 과제

전문 데이터 라벨링 작업자 확보

Cohere는 LLM 경험이 풍부하고 효율적으로 온보딩 가능한 전문가를 필요로 했습니다. Appen은 RLHF 경험자를 우선으로 하여 200명 규모의 검증된 영어권 데이터 라벨링 작업자를 제공했습니다.

품질 중심 접근

PANDA Plus는 기존 파이프라인과 달리 대량의 데이터 처리량보다 정확성과 충실도를 중시했습니다. 이를 위해 데이터 작업자 보상 구조와 작업 속도를 조정해, 신중하고 맥락을 반영한 응답 편집을 유도했습니다.

실시간 피드백 루프

Command API와의 실시간 연결을 통해 데이터 라벨링 작업자가 즉각적으로 모델 출력을 평가할 수 있도록 했습니다. Appen은 이에 맞춰 AI Chat Feedback Tool을 개선해 동적 라우팅, 빠른 비교, 실시간 데이터 라벨링을 지원했습니다.

모델 진화 지원

Appen은 변화하는 모델 체크포인트에서도 데이터 라벨링 일관성을 유지하며, 실험용 모델과 프로덕션 모델 모두에 적용 가능한 데이터를 제공했습니다.

솔루션

1단계: 전문 데이터 작업자 파이프라인 구축

  • 데이터 작업자의 모델 응답에 대한 유용성, 안전성, 어조, 지침 준수, 도메인 적합성을 평가했습니다.
  • A/B 선호도 평가, 다중 턴 대화 평가, 자유 형식 피드백을 제공했습니다.
  • 복잡한 프롬프트 작성 및 완성도 높은 SFT 입력 데이터를 생성했습니다.

2단계: 실시간 데이터 제공 도구 개발

  • Appen의 AI 데이터 플랫폼(ADAP)을 PANDA Plus 전용으로 커스터마이징했습니다.
  • Command 추론 엔드포인트와 직접 연결했습니다.
  • 응답 순위 매기기, 편집, 정당화 기능을 제공했습니다.
  • 일일 실시간 데이터 스트림과 주간 요약을 제공했습니다.
  • 12주간 2,400시간 이상의 전문가 피드백을 수집해, Command 학습 루프에 즉시 반영했습니다.

프로젝트 성과

  • 고품질 LLM 파인튜닝 데이터 확보: Appen의 인간 선호 데이터가 Command 모델 개선에 직접 기여했습니다.
  • 실험 지원: 연구 단계와 프로덕션 모델 모두에 장기적 가치를 제공했습니다.
  • 데이터 작업자 안정성 확보: 12주간 일관된 전문가 풀을 유지함으로써 안정적 성능을 보장했습니다.
  • 시스템 수준의 진전: 실시간 피드백, 응답 편집 기반 감독, 크라우드 어노테이션을 통합한 정렬 파이프라인을 확립했습니다.

프로젝트 성공 요인

Cohere와 Appen의 PANDA Plus 협업은 기업 규모에서의 선호도 기반 학습을 효과적으로 구현한 LLM 파인튜닝 사례입니다. 이 프로젝트의 핵심 성공 요인은 다음과 같습니다.

  • LLM 파인튜닝 경험이 있는 전문 데이터 라벨링 작업자
  • 실시간 피드백이 가능한 맞춤형 툴
  • 구조화된 편집 및 정당화(justification)
  • 연구 및 프로덕션 LLM 파인튜닝의 통합

이를 통해 PANDA Plus는 LLM 모델 성능과 안전성을 동시에 강화하면서도, 기업 환경에서 요구되는 확장성과 신뢰성을 보장할 수 있었습니다.

요약정리

Cohere는 이러한 LLM에 대한 수요에 대응하기 위해 PANDA Plus라는 프로그램을 도입했습니다. 이는 선호도 데이터 생성과 보상 신호 개발을 위한 시스템입니다. Cohere는 Appen과 협력해 전문 데이터 라벨링 작업자를 빠르게 확보하고, 실시간 피드백을 반영하며, 실험 및 운영 단계에서 활용할 수 있는 인간 중심 학습 데이터를 제공했습니다. 또한 Appen은 PANDA Plus에 최적화된 확장 가능한 데이터 생성 및 실시간 데이터 라벨링 기능을 지원하여 Cohere의 대표 모델인 Command를 고도화하는 데 기여했습니다.

LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.