딥시크의 성공, 정말 SFT(Supervised Fine-Tuning) 없이 가능했을까?

최근 딥시크는 AI 분야에서 큰 주목을 받으며 뛰어난 복합 논리적 추론 능력을 선보이고 있습니다. 일부에서는 딥시크가 전통적인 SFT(Supervised Fine-Tuning)를 완전히 배제하고, 순수한 강화 학습만으로 성과를 이뤄냈다고 주장합니다. 그렇다면 딥시크의 성공이 정말로 SFT 없이 이뤄낸 결과일까요? 실제 사례를 통해 딥시크의 기술이 어떻게 적용되고 있는지, 그리고 그 가치가 무엇인지 깊이 있게 살펴보겠습니다.
SFT(Supervised Fine-Tuning)란?
Supervised Fine-Tuning(SFT)는 지도 학습을 기반으로 한 파인튜닝의 기법 중 하나로, 사전 학습된 대규모 언어 모델(LLM)이 특정 작업에서 더 나은 성능을 발휘하도록 라벨링된 데이터를 통해 모델을 추가 학습시키는 과정을 말합니다.
딥시크와 SFT
많은 사람들이 딥시크의 혁신이 SFT(Supervised Fine-Tuning)를 불필요하게 만들었다고 생각하지만, 이는 보다 깊은 논의가 필요한 부분입니다. 실제로 딥시크는 SFT를 완전히 배제한 것이 아니라, 다양한 모델 요구 사항에 맞춰 이를 조정하고 최적화해 왔습니다. 딥시크 모델 학습에서 SFT는 다음과 같은 중요한 역할을 합니다.
특정 작업에 대한 모델 성능 향상
예를 들어, DeepSeek-V3는 여러 분야의 데이터셋에 SFT를 적용하여 교육, 언어 이해, 질문 답변 등 다양한 작업에서 모델 성능을 크게 개선했습니다.
생성된 콘텐츠의 스타일과 품질 최적화
DeepSeek-V3의 학습 과정에서 SFT 단계는 모델이 수많은 고품질 언어 표현에 노출되도록 하여, 모델이 더 세련된 언어 표현을 학습할 수 있도록 도왔습니다.
콜드 스타트 데이터셋의 기초 마련
DeepSeek-R1에서는 SFT 단계에서 생성된 데이터가 콜드 스타트 데이터셋으로 활용되었습니다. 이를 통해 인간 데이터 작업자가 데이터를 최적화하고, 후속 강화 학습의 기반을 마련하여 모델이 특정 작업에서 인간의 선호도를 더 잘 반영할 수 있도록 했습니다.
SFT 적용 사례 소개
프로젝트 목표
대수, 미적분, 게임 이론, 귀납적·연역적 추론, 과학적 증거 평가 등 30개 이상의 복잡한 분야에서 사고 사슬 추론(chain-of-thought reasoning) 방식으로 구조화된 "프롬프트-응답 쌍"을 생성하여, 대규모 언어 모델(LLM)의 추론 능력 향상
도전 과제
30개 이상의 전문 분야에서 충분한 자격을 갖춘 데이터 작업자를 모집하는 것이 가장 큰 도전 과제였습니다. 일반적인 데이터 라벨링 프로젝트와 달리, 이 프로젝트의 데이터 작업자는 수학, 비즈니스, 법률, 논리적 추론 등의 분야에서 전문성을 갖추고 있어야 했습니다. 또한, 복잡한 논리적 추론 능력을 효과적으로 학습할 수 있도록 프롬프트와 응답을 정확하게 설계하는 것도 프로젝트 성공의 핵심이었습니다. 데이터 작업자들은 지속적으로 높은 품질의 데이터를 생성하여 SFT의 요구 사항을 충족해야 했습니다.
솔루션

저희 에펜은 모델의 논리적 추론 성능을 향상하기 위해 근본적 원인 분석, 결과 평가 등 특정 논리적 추론 범주와 일치하는 다양한 프롬프트를 개발했습니다. 또한, 에펜의 리치 텍스트 편집기를 활용해 데이터 작업자들이 표, 코드 블록, 방정식을 위한 LaTeX, 다양한 텍스트 입력 형식 등을 사용하여 고품질 데이터를 생성할 수 있도록 지원했습니다. 이를 통해 모델이 더욱 정교한 추론 능력을 습득할 수 있었습니다.
또한 프롬프트는 모델이 문제를 논리적으로 분해하고 단계별 솔루션을 도출할 수 있도록 고안되었으며, 추론 과정이 생략되지 않도록 설계되었습니다. 또한, 응답은 진실성, 명확성, 맥락을 갖춘 표준을 준수해야 하며, 필요한 경우 사실의 정확성을 보장하기 위해 연구 결과를 인용했습니다.
프로젝트 성과

에펜은 LLM 모델에 다양한 고품질 추론 프롬프트와 응답을 제공하여 클라이언트의 LLM이 복잡한 논리를 효과적으로 처리하고, 연역적 추론을 수행할 수 있도록 지원했습니다. 그 결과, LLM 모델의 논리적 추론 능력이 크게 향상되었으며, 이 프로젝트의 성공을 통해 클라이언트의 사업도 더욱 확장될 수 있었습니다.
LLM 프로젝트 지원이 필요하신가요? 대규모 언어 모델 전문가에게 문의하세요.