휴먼 인 더 루프(Human in the Loop)란 무엇인가?

2023/03/30

현대의 AI는 점점 더 복잡한 작업을 자율적으로 수행하고, 대규모로 콘텐츠를 생성합니다. 이렇게 모델이 복잡해질수록, 다양한 실제 환경을 기반으로 한 학습 데이터의 중요성도 함께 커집니다. McKinsey 연구에 따르면, AI를 성공적으로 활용하는 기업일수록 모델 평가에 언제 사람의 검토와 검증이 필요한지 명확한 기준을 갖고 있으며, 모델의 출력을 무조건 신뢰하지 않는 경향이 있습니다(Singla et al., 2026).

이러한 통제 장치는 매우 중요합니다. 아무리 발전된 AI라도 여전히 실수를 하기 때문입니다. AI는 종종 중요한 정보를 놓치거나, 규제 위반이나 평판 리스크를 초래할 수도 있습니다. 실제로 AI를 사용하는 기업의 절반 이상이 이러한 문제를 경험하고 있으며, 이를 해결하기 위해 휴먼 인 더 루프(HITL) 접근 방식을 도입하고 있습니다.

휴먼 인 더 루프 머신러닝은 인간의 판단력과 기계의 효율성을 결합해 모델의 행동을 보정·개선·관리함으로써 데이터 품질을 높입니다. 이 글에서는 HITL의 개념과 작동 방식, 그리고 실제 적용 사례를 살펴봅니다.

휴먼 인 더 루프의 정의

휴먼 인 더 루프(Human in the loop, HITL)은 사람이 자동화된 시스템과 상호작용하며 AI 전 과정에서 의사결정의 정확성과 신뢰성을 개선하는 반복적 피드백 과정입니다. 이러한 인간의 피드백은 모델이 판단 기준이나 특징 가중치 등을 조정하도록 도와 해석 능력을 향상시킵니다. 인간의 명확하고 일관된 피드백은 학습 속도를 높이고 모델의 정확도를 개선합니다.

기존 자동화는 인간 개입을 최소화하는 것을 목표로 했지만, HITL은 중요한 순간에 인간의 판단을 개입시키는 방식을 도입합니다. 예를 들어, 모호한 데이터 처리, 신뢰도가 낮거나 위험도가 높은 예측 검토, 다양한 인간 관점을 반영해야하는 상황에서 활용됩니다.

에펜은 휴먼 인 더 루프 방식을 수년간 사용해오며 HITL가 모든 종류의 인공지능 모델(텍스트 라벨링, 컴퓨터 비전 알고리즘, 검색 및 정보 검색 모델 등) 개선에 도움이 된다는 것을 직접 증명했습니다. 저희는 고객사의 상황에 맞는 맞춤형 인공지능 모델을 구축하기 위해, 많은 양의 학습 데이터와 숙련된 작업자와 함께 직접 인공지능 모델을 검증합니다. 그리고 이렇게 만들어진 인공지능 모델이 실제로 작동하는지까지 정확하게 테스트합니다.

휴먼 인 더 루프 작업 원리

휴먼 인 더 루프는 인간 지능과 인공 지능을 결합을 의미합니다. 머신은 방대한 데이터셋에서 빠른 결정을 내리는 데 뛰어나고 작업자는 적은 정보로도 의사 결정을 내리는 데 적합합니다. 예를 들어 사람 작업자는 “가로등 기둥이다.” 또는 “고양이지만, 꼬리만 보인다.” 등과 같이 해석하기 어려운 이미지를 보고도 개별 개체를 선택하는 데 능숙합니다. 이러한 작업자의 라벨링 정보는 머신이 가로등 기둥이나 고양이가 어떻게 생겼는지를 이해하기 위해 꼭 필요한 부분이죠. 실제로 머신은 가로등이나 고양이의 생김새를 파악하기 위해 물체를 다양한 각도에서 찍은 사진이나 여러 색상으로 된 가로등과 고양이를 먼저 학습해야 합니다. 이러한 라벨링 이미지의 강력한 데이터셋은 머신러닝이 해당 항목을 파악할 수 있도록 가르칩니다. 이러한 데이터 조정을 통해, 머신러닝 알고리즘은 고양이나 가로등이 정확히 어떻게 생겼는지 단 하나의 이미지를 보고도 이해할 수 있게 됩니다.

  1. AI 모델이 데이터에 대해 초기 예측을 수행하고 신뢰도 점수를 출력합니다.
  2. 신뢰도가 높은 결과는 자동 처리고 불확실하거나 복잡한 사례은 인간에게 전달됩니다.
  3. 인간이 결과를 검토하고 수정합니다.
  4. 수정된 데이터를 모델이 다시 학습합니다.

이 과정을 반복하면서 모델은 점점 더 정확해지고, 인간의 개입 필요성은 줄어듭니다. 결국 시스템은 점점 더 똑똑하고 효율적으로 진화합니다.

휴먼 인 더 루프의 사용 용도

휴먼 인 더 루프는 머신러닝 학습에 사용됩니다. 위에서 언급한 바와 같이 인공지능 모델 훈련을 위해 라벨링 데이터를 제공하는 데 작업자가 활용됩니다. 이는 데이터 과학자가 휴먼 인 더 루프 접근 방식을 사용하는 가장 일반적인 경우입니다.

휴먼 인 더 루프는 머신러닝 검증에 사용됩니다. 인간은 인공지능 모델의 정확도를 높이는 데 도움을 줍니다. 인공지능이 특정 이미지에 대한 확신이 없을 때, 작업자는 AI 모델의 결정에 점수를 매기고 모델의 결정에 “Yes” 또는 “No”라고 답하여 인공지능 모델의 정확도를 높이도록 조정할 수 있습니다.

HITL vs. HOTL vs. 액티브 러닝

이 용어들은 비슷하게 쓰이지만, 시스템 설계와 인간의 역할 측면에서 차이가 있습니다.

  • HITL (Human-in-the-Loop): 모델 학습, 검증, 운영 전반에서 사람이 적극적으로 참여
  • HOTL (Human-over-the-Loop): 시스템에 직접 개입하지 않고 사람이 상위에서 감시·관리
  • 액티브 러닝(Active Learning): 모델이 불확실한 데이터만 선택해 사람에게 라벨링 요청
단락 텍스트.png

휴먼 인 더 루프 활용 사례

AI 에이전트 및 자율 시스템

AI 에이전트 사용이 늘어나면서 인간의 감독은 필수 요소가 되었습니다. 예를 들어, 보험 청구 시스템에서 간단한 건은 자동 승인하지만, 고액이거나 사기 의심이 있는 경우는 사람이 검토하도록 설정할 수 있습니다. 이 방식은 업무 효율을 유지하면서도 중요한 결정에는 전문가의 판단을 반영하게 해줍니다. 또한 사람의 개입 기록은 향후 모델 개선을 위한 학습 데이터로 활용됩니다.

생성형 AI 안전성과 콘텐츠 관리

대규모 언어 모델은 대규모 콘텐츠를 생성할 수 있지만, 할루시네이션, 편향, 정책 위반 문제를 안고 있습니다. 이를 방지하기 위해 마케팅 문구의 브랜드 적합성 검토, 금융 보고서의 정확성 검증, 챗봇 응답의 콘텐츠 검열 등에서 인간 검토가 필수적으로 활용됩니다.

컴퓨터 비전

의료 영상 분석처럼 위험도가 높은 분야에서는 HITL이 필수입니다. 예를 들어, AI가 이상 징후를 탐지하면 전문의가 이를 검토하고 수정하며, 이 데이터는 다시 모델 학습에 반영됩니다. 자율주행에서도 마찬가지로, 사고 직전 상황이나 공사 구간 같은 희귀하지만 중요한 사례를 사람이 직접 검토하고 라벨링하여 모델의 안전성을 높입니다.

휴먼 인 더 루프 케이스 스터디

도메인 평가 자동화

기존에는 데이터 작업자의 도메인 지식을 평가하기 위해 객관식 시험을 진행했지만, 시험 문제를 만드는 것 자체가 시간이 많이 걸리는 작업이었습니다. 이를 해결하기 위해 AI를 활용해 빠르게 관련성이 높은 문제를 생성하는 방식을 도입했습니다. 이 결과로, Chain of Thought(생각의 사슬) 프롬프팅 기법을 사용한 자동 생성으로 150개 문제를 생성하는 데 최대 30시간 절약할 수 있게 됐습니다. 또한 AI가 생성한 문제의 93.1%가 인간이 생성한 문제와 동등한 품질을 보였습니다.

멀티모달 AI를 활용한 데이터 검증

데이터 수집 과정에서 AI가 데이터 작업자의 제출물을 사전에 검토하고, 부적절한 데이터는 사전에 필터링할 수 있도록 했습니다. 이를 통해 과도한 데이터 수집을 방지하고, 품질을 높이는 동시에 비용 절감할 수 있됩니다.

LLM을 활용한 자동 QA 프로세스 구축

기존 QA 프로세스는 많은 시간과 비용이 들었지만, LLM을 활용한 평가 기준 기반 접근법을 통해 효율성을 대폭 개선했습니다. 그 예로, 루브릭 평가를 LLM과 함께 활용하여 자동 평가가 가능해졌습니다. 또한 QA 전문가가 검토할 가치가 없는 데이터는 자동 필터링되어 검토자의 업무량을 줄이고, 높은 품질의 데이터를 확보할 수 있습니다.

엔트로피 정보 기반 AI 데이터 라벨링

AI가 데이터를 라벨링할 때에는 신뢰도를 제공하지 않는다는 단점이 있습니다. 이를 해결하기 위해, 엔트로피 정보를 계산해 AI 라벨링의 신뢰도를 평가하는 방식을 도입했습니다. 그 결과 AI 데이터 라벨링 비용이 최대 62% 절감했습니다. 또한 정확도를 87% 유지하면서도 라벨링 작업 시간을 3배까지 단축했습니다.

휴먼 인 더 루프로 AI 데이터 품질을 향상하는 방법

사람을 ‘부품’이 아닌 ‘전문가’로 대하기

데이터의 품질은 결국 작업을 수행하는 사람들의 경험과 역량에 직접적으로 영향을 받습니다. 따라서 작업자가 실수를 했을 때 단순히 결과를 폐기하는 것이 아니라, 왜 틀렸는지에 대한 피드백을 제공해 학습할 수 있도록 해야 합니다. 또한 작업이 주관적인 판단을 요구하는 경우에는 ‘모호함’으로 표시할 수 있는 옵션을 제공하거나 하나의 데이터에 대해 여러 명의 평가를 수집하는 방식을 통해 더 신뢰도 높은 데이터를 확보할 수 있습니다.

지침은 반복적으로 개선하기

처음 만든 가이드라인은 완벽할 수 없습니다. 따라서 소규모 파일럿 작업을 먼저 수행한 뒤, 인간과 모델이 서로 다르게 판단한 부분을 분석하고 그 결과를 바탕으로 지침을 지속적으로 업데이트해야 합니다. 특히 특정 라벨링에 대해 작업자들 간 의견이 지속적으로 엇갈린다면, 그 라벨링의 정의 자체가 불명확할 가능성이 높습니다. 이 경우 정의를 더 명확하게 다듬어야 합니다.

인지적 부담 관리하기

사람은 생각보다 빠르게 피로해지고 판단력이 떨어집니다. 예를 들어 한 장의 이미지에서 50개의 객체를 한 번에 라벨링하도록 요구하는 대신, 작업을 더 작은 단위로 나누는 것이 좋습니다. 또한 작업을 주기적으로 바꿔주면 집중도를 유지하는 데 도움이 됩니다. 피로한 상태에서 수행된 작업은 아예 없는 데이터보다 품질이 낮을 수도 있다는 점을 반드시 고려해야 합니다.

편향을 줄이기 위해 다양성을 확보하기

만약 데이터 작업자가 동일한 문화권이나 연령대 등 특정 집단에만 집중되어 있다면, 그들의 관점과 편향이 그대로 모델에 반영될 가능성이 큽니다. 따라서 모델이 실제로 적용될 환경을 반영할 수 있도록, 다양한 배경을 가진 사람들로 구성된 인간 참여 구조(Human Loop)를 구축하는 것이 중요합니다. 이 점은 특히 자연어 처리(NLP)나 얼굴 인식처럼 문화적·사회적 맥락이 중요한 분야에서 더욱 핵심적인 요소입니다.

에펜의 휴먼 인 더 루프 솔루션

HITL 파이프라인을 자체적으로 구축하려면 다음과 같은 요소들을 모두 관리해야 합니다.

  • 소프트웨어 인프라
  • 작업자 보상
  • 품질 관리(QA)
  • 다양한 시간대와 언어를 고려한 인력 운영

이러한 복잡성을 해결하기 위해 저희 Appen은 전략적 파트너로서 역할을 합니다. 지난 30년 동안 주요 AI 모델 개발 기업들을 지원해 온 경험을 바탕으로 구축한 기업용 AI 데이터 플랫폼(ADAP)과 200개국 이상, 500개 이상의 언어를 사용하는 100만 명 이상의 글로벌 인력 풀을 결합하여 제공합니다. 이를 통해 다국어 음성 데이터 어노테이션과 금융, 코딩 등 특정 분야 전문 지식이 필요한 작업을 빠르고 정확하게 지원합니다.

머신러닝 프로젝트 지원이 필요하신가요? ML 전문가가 답변해 드립니다.