휴먼 인 더 루프(Human in the Loop)란 무엇인가?

휴먼 인 더 루프의 정의
휴먼 인 더 루프(Human in the loop, HITL)는 인간 지능과 인공지능을 모두 활용해 머신러닝 모델을 생성하는 인공지능의 한 분야입니다. 일반적인 휴먼 인 더 루프 접근 방식에서 작업자는 특정 알고리즘을 학습, 조정 및 검증하는 선순환 루프에 참여합니다.
휴먼 인 더 루프 머신러닝이란?
휴먼 인 더 루프 머신러닝은 학습과 조정, 검수가 포함된 선순환 루프를 통해 인공지능 모델이 정확한 작업을 수행할 수 있도록 하는 것을 의미합니다. 이때 중요한 점은, 각 작업이 지속적인 선순환 루프를 구성하도록 하는 것이죠. 휴먼 인 더 루프는 인공지능 모델이 다음에 학습해야 할 항목을 선택하고 액티브 러닝을 위해 해당 데이터를 인간 작업자에게 보낼 때 더 효과적입니다.
에펜은 휴먼 인 더 루프 방식을 수년간 사용해오며 HITL가 모든 종류의 인공지능 모델(텍스트 라벨링, 컴퓨터 비전 알고리즘, 검색 및 정보 검색 모델 등) 개선에 도움이 된다는 것을 직접 증명했습니다. 저희는 고객분들의 상황에 맞는 맞춤형 인공지능 모델을 구축해드리기 위해, 많은 양의 학습 데이터와 숙련된 작업자들과 함께 직접 인공지능 모델을 검증합니다. 그리고 이렇게 만들어진 인공지능 모델이 실제로 작동하는지까지 정확하게 테스트합니다.
휴먼 인 더 루프 작업 순서
먼저 작업자가 데이터 라벨링 작업을 진행합니다. 라벨링 된 데이터는 인공지능 모델의 학습 데이터로 활용되죠. 그리고 머신러닝 알고리즘은 이 학습 데이터를 통해 라벨링 방법을 학습합니다. 다음 단계는 작업자를 통한 인공지능 모델 조정 단계입니다. 조정은 여러 가지 다른 방식으로 진행할 수 있지만 일반적으로 작업자는 과적합을 판단하기 위해 데이터에 점수를 매기고, 인공지능 모델에게 특정 사례와 새로운 범주를 교육합니다. 마지막으로 작업자는 머신러닝 알고리즘이 판단에 대해 확신하지 못하거나 잘못된 결정을 지나치게 확신하는 할 경우, 그 결과에 점수를 매겨 인공지능 모델을 검증합니다.
휴먼 인 더 루프 작동 원리
휴먼 인 더 루프는 인간 지능과 인공 지능을 결합을 의미합니다. 머신은 방대한 데이터셋에서 빠른 결정을 내리는 데 뛰어나고 작업자는 적은 정보로도 의사 결정을 내리는 데 적합합니다. 예를 들어 사람 작업자는 “가로등 기둥이다.” 또는 “고양이지만, 꼬리만 보인다.” 등과 같이 해석하기 어려운 이미지를 보고도 개별 개체를 선택하는 데 능숙합니다. 이러한 작업자의 라벨링 정보는 머신이 가로등 기둥이나 고양이가 어떻게 생겼는지를 이해하기 위해 꼭 필요한 부분이죠. 실제로 머신은 가로등이나 고양이의 생김새를 파악하기 위해 물체를 다양한 각도에서 찍은 사진이나 여러 색상으로 된 가로등과 고양이를 먼저 학습해야 합니다. 이러한 라벨링 이미지의 강력한 데이터셋은 머신러닝이 해당 항목을 파악할 수 있도록 가르칩니다. 이러한 데이터 조정을 통해, 머신러닝 알고리즘은 고양이나 가로등이 정확히 어떻게 생겼는지 단 하나의 이미지를 보고도 이해할 수 있게 됩니다.
휴먼 인 더 루프의 사용 용도
휴먼 인 더 루프는 머신러닝 학습에 사용됩니다. 위에서 언급한 바와 같이 인공지능 모델 훈련을 위해 라벨링 데이터를 제공하는 데 작업자가 활용됩니다. 이는 데이터 과학자가 휴먼 인 더 루프 접근 방식을 사용하는 가장 일반적인 경우입니다.
휴먼 인 더 루프는 머신러닝 검증에 사용됩니다. 인간은 인공지능 모델의 정확도를 높이는 데 도움을 줍니다. 인공지능이 특정 이미지에 대한 확신이 없을 때, 작업자는 AI 모델의 결정에 점수를 매기고 모델의 결정에 “Yes” 또는 “No”라고 답하여 인공지능 모델의 정확도를 높이도록 조정할 수 있습니다.
휴먼 인 더 루프와 액티브 러닝의 차이점
액티브 러닝은 일반적으로 작업자가 낮은 신뢰 단위를 처리하고 이러한 단위를 인공지능 모델에 다시 공급하는 것을 의미합니다. 휴먼 인 더 루프는 액티브 러닝 접근법에 작업자의 라벨링을 통한 데이터셋 생성이 포함되어 더 광범위한 개념입니다. 또한 휴먼 인 더 루프는 간혹 사람들이 이런 판단을 인공지능 모델에 피드백하지 않고 단순히 결과를 검증(또는 무효화)하는 것을 의미할 수 있습니다.
휴먼 인 더 루프로 AI 데이터 품질을 향상하는 방법
왜 데이터 품질이 중요한가?
2022년 11월, OpenAI가 ChatGPT를 공개하면서 인공지능(AI) 기술은 또 한 번의 전환점을 맞이했습니다. 특히, "인간 참여"를 기반으로 한 AI 데이터 준비 과정이 주목받기 시작했죠. 사실, 그전까지 AI 데이터 라벨링, 인간 판단, 데이터 운영(Data Ops) 같은 개념은 일반 대중에게는 다소 생소했습니다. 이러한 작업은 주로 대형 기술 기업과 데이터 사이언스 조직 내부에서 이루어졌고, 외부에서는 베일에 싸인 영역이었죠. 하지만 대규모 언어 모델(LLM)이 발전하고, AI 모델이 학습하는 데이터의 품질이 중요해지면서 AI 데이터 준비 과정에 대한 관심도 급격히 증가했습니다. 특히, AI 모델을 학습시키기 위해 데이터를 수집하고, 주석을 달고, 검토하는 사람들, 즉 "클릭 워커"의 근무 환경이 사회적 이슈로 떠오르면서 AI 데이터 준비가 단순한 기술적 과정이 아니라 윤리적·사회적 요소까지 고려해야 하는 중요한 분야로 자리 잡게 되었습니다.
AI 성능을 좌우하는 데이터 품질
AI 모델을 위한 데이터 준비는 단순히 데이터를 모아 정리하는 작업이 아닙니다. 각 단계마다 데이터의 품질을 보장하는 것이 가장 중요한 목표입니다. 데이터 준비 과정에서 우리는 항상 최종 소비자를 염두에 두고 작업해야 합니다. 데이터를 그저 수집하고, 라벨링하고, 평가하는 것이 아니라, AI 모델이 학습하기 좋은 형태로 가공하는 것이 핵심이죠. 이를 위해 데이터는 정확하고, 설명 가능하며, 구조화되어야 합니다. 또한, 같은 데이터 포인트라도 사람마다 다르게 해석할 수 있습니다. 하지만 이런 차이는 단순한 의견 차이에서 비롯돼야지, 데이터 준비 과정에서 발생한 오류로 인해 생겨서는 안 됩니다.
데이터 품질을 보장하려면 체계적인 가이드라인과 품질 관리 전략이 필요합니다. 하지만 모든 데이터에 동일한 접근법을 적용할 수는 없습니다. 데이터의 성격과 최종 사용 목적에 맞춰 맞춤형 전략을 설계해야 합니다. 많은 사람들이 “엄격한 통제 = 더 높은 품질"이라고 생각하지만, 이는 오해입니다. 단순히 QA 라운드를 추가한다고 해서 데이터 품질이 올라가는 것이 아닙니다. 오히려 데이터 라벨러가 처음부터 더 좋은 품질의 데이터를 제공할 수 있도록 환경을 조성하는 것이 더욱 효과적입니다. 이러한 접근 방식은 QA 부담을 줄이고, 재작업을 최소화하며, 데이터 라벨러의 이탈률을 낮추는 등 긍정적인 효과를 가져옵니다.
데이터 품질을 높이는 방법
데이터 라벨러와 적극적으로 소통하기
데이터 작업자를 단순한 작업자가 아닌 파트너로 대하는 것이 중요합니다. 그들이 더 좋은 품질의 데이터를 제공할 수 있도록 돕는 것이 곧 AI 데이터 품질 향상으로 이어지기 때문이죠.
- 명확한 지침 제공: 단계별 가이드를 만들고, 긍정적/부정적 사례를 포함해 데이터 작업자들이 쉽게 이해할 수 있도록 합니다.
- 실시간 피드백 시스템 도입: 챗봇이나 커뮤니케이션 채널을 활용해 즉각적인 답변을 제공합니다.
- 자동화된 검증 시스템 활용: 스마트 검증 기능을 통해 오타, 문법 오류, 불필요한 중복 답변 등을 사전에 방지합니다
이러한 접근법은 품질 보증(QA) 부담을 줄이고, 작업자의 업무 만족도를 높이며, 재작업을 최소화하는 데 도움이 됩니다.
휴먼 인 더 루프 프로세스 적용
휴먼 인 더 루프 방식은 단순히 인간이 AI를 보조하는 것이 아니라, 지속적인 품질 개선을 위한 필수 요소로 작용합니다. 기본적인 프로세스는 다음과 같습니다:
- 데이터 작업자 선정: 적절한 역량을 가진 사람들을 모집합니다.
- 작업 설계: 명확한 목표와 기준을 정합니다.
- 출력물 제공: 데이터 작업을 수행합니다.
- 품질 향상 메커니즘 적용: QA를 단순히 검토 단계에서만 적용하는 것이 아니라, 데이터 수집부터 적용하는 것이 핵심입니다.
이 과정에서 중요한 점은 출력물을 기준으로 뒤에서부터 생각하는 것입니다. 즉, 최종 QA 단계에서 품질이 낮은 데이터가 발견되면, 그 문제가 어디에서 발생했는지 추적하고 조치를 취해야 합니다.
데이터 작업자의 능력을 향상시키는 환경 조성
데이터 라벨링 과정에서 AI 모델과 인간의 협업이 매우 중요한 역할을 합니다. AI가 데이터 작업자들의 작업을 돕도록 설계하면, 보다 효율적이고 높은 품질의 데이터 수집이 가능해집니다.
- AI가 사전 어노테이션을 달아 데이터 작업자의 작업을 단순화
- 제출 전에 자동으로 오류를 검토해 수정 가능하도록 지원
이러한 시스템을 구축하면, QA 부담이 줄어들고, 기여자들이 더욱 정확한 데이터를 제공할 수 있는 환경이 조성됩니다.
데이터 작업자 행동 모니터링
데이터 작업자들이 올바른 판단을 내리고 있는지를 확인하는 것도 필수적입니다. 다음과 같은 방법이 활용됩니다.
- 데이터 샘플 검토: 무작위로 샘플을 추출해 검토합니다.
- 데이터 작업자 간 합의도 분석: 여러 작업자가 동일한 데이터에 대해 얼마나 일관된 판단을 내리는지 평가합니다.
- 기준 데이터와 비교: AI가 예측한 결과나 기존 데이터를 기준으로 작업자의 판단을 검증합니다.
이러한 모니터링을 통해 데이터 품질을 지속적으로 개선할 수 있습니다.
휴먼 인 더 루프 적용 사례
AI 전문가 큐레이션을 통한 도메인 평가 자동화
기존에는 데이터 작업자의 도메인 지식을 평가하기 위해 객관식 시험을 진행했지만, 시험 문제를 만드는 것 자체가 시간이 많이 걸리는 작업이었습니다. 이를 해결하기 위해 AI를 활용해 빠르게 관련성이 높은 문제를 생성하는 방식을 도입했습니다. 이 결과로, Chain of Thought(생각의 사슬) 프롬프팅 기법을 사용한 자동 생성으로 150개 문제를 생성하는 데 최대 30시간 절약할 수 있게 됐습니다. 또한 AI가 생성한 문제의 93.1%가 인간이 생성한 문제와 동등한 품질을 보였습니다.
멀티모달 AI를 활용한 데이터 검증
데이터 수집 과정에서 AI가 데이터 작업자의 결과물을 사전에 검토하고, 부적절한 데이터는 사전에 필터링할 수 있도록 했습니다. 이를 통해 과도한 데이터 수집을 방지하고, 품질을 높이는 동시에 비용 절감할 수 있게 됐습니다.
LLM을 활용한 자동 QA 프로세스 구축
기존 QA 프로세스는 많은 시간과 비용이 들었지만, LLM을 활용한 평가 기준 기반 접근법을 통해 효율성을 대폭 개선했습니다. 그 예로, 평가 기준을 LLM과 함께 활용하여 자동 평가가 가능해졌습니다. 또한 QA 전문가가 검토할 가치가 없는 데이터는 자동 필터링되어 검토자의 업무량을 줄이고, 높은 품질의 데이터를 확보할 수 있게 됐습니다.
엔트로피 정보 기반 AI 데이터 라벨링
AI가 데이터를 라벨링할 때에는 신뢰도를 제공하지 않는다는 단점이 있습니다. 이를 해결하기 위해, 엔트로피 정보를 계산해 AI 라벨링의 신뢰도를 평가하는 방식을 도입했습니다. 그 결과 AI 데이터 라벨링 비용이 최대 62% 절감했습니다. 또한 정확도를 87% 유지하면서도 라벨링 작업 시간을 3배까지 단축했습니다.
에펜의 데이터 품질 관리 솔루션
에펜에서는 다양한 기술 솔루션을 결합해 데이터 품질을 향상시키는 접근법을 채택하고 있습니다. 심리학, 게임 이론, 수학, 데이터 과학 등의 댜앙한 지식을 활용해 데이터 준비 과정을 최적화하고 있습니다. 에펜의 성공적인 데이터 품질 확보를 위한 4가지 요소는 다음과 같습니다.
- 적절한 데이터 작업자 선정: 역량 있는 작업자를 확보합니다.
- 올바른 작업 설계: 명확한 목표와 기준을 설정합니다.
- 스마트 라우팅 기능 활용: 데이터의 복잡도에 따라 적절한 작업자에게 작업을 할당합니다.
- 효율적인 QA 시스템 구축: 필요 이상으로 품질 검토를 늘리는 대신, 초기 단계에서 품질을 보장하는 전략을 사용합니다.
결론적으로, AI 모델이 제대로 작동하려면 신뢰할 수 있는 데이터가 필요합니다. 그리고 그 데이터를 만드는 핵심 요소는 결국 사람입니다. 휴먼 인 더 루프 접근법을 적용하면 데이터 품질을 효과적으로 향상시킬 수 있으며, AI 모델의 성능도 더욱 정교해질 것입니다. 단순히 데이터를 라벨링하는 것이 아니라, 데이터 준비의 전 과정을 최적화하는 것이 진정한 데이터 품질 향상의 비결입니다.
머신러닝 프로젝트 지원이 필요하신가요? ML 전문가가 답변해 드립니다.