액티브 러닝(Active Learning)이란? 약지도 학습과 비교
액티브 러닝 vs 약지도 학습
머신러닝(ML)은 하나의 분야로서 기하급수적으로 성장했지만 많은 비즈니스에서 데이터는 익숙한 장애물로 남아 있습니다. 머신러닝 알고리즘을 훈련하려면 엄청난 양의 수동으로 라벨링 된 데이터가 필요합니다. 수작업으로 라벨을 지정하는 데 필요한 시간과 노력은 말할 것도 없고, 필요한 데이터의 크기가 규모에 맞지 않거나 비용이 많이 드는 경우가 많습니다. 게다가 쉽게 사용할 수 있는 데이터는 종종 원하는 품질 표준에 미치지 못합니다. 액티브 러닝(Active learning)와 약지도 학습(weak supervision)은 데이터 문제를 극복하기 위해 활용할 수 있는 두 가지 훌륭한 머신러닝 기술입니다.
데이터를 라벨링에 필요한 작업자는 도메인 지식을 사용하여 정확한 어노테이션을 작성할 수 있는 직무 전문가(SME)입니다. 그러나 SME는 가용성이 제한적이고 고용에 큰 비용이 듭니다.
이러한 모든 문제를 염두에 두고 인공지능(AI) 솔루션을 출시하는 팀은 지도 학습(머신러닝 모델 훈련을 위해 수동으로 라벨링 한 완전한 데이터셋이 필요함)에서 액티브 러닝과 약지도 학습으로 전환합니다. 약지도 학습 기술은 일반적으로 더 빠르고 덜 노동 집약적이면서도 모델을 성공적으로 훈련할 수 있습니다. 작동 방식과 각 유형이 제공하는 이점을 이해하면 약지도 학습 또는 액티브 러닝(혹은 둘의 조합)이 모델에 적합한 학습 솔루션인지 결정하는 데 도움이 됩니다.
머신러닝 기술 적용 방법
머신러닝에는 다양한 유형의 학습이 있으며 모두 지도 학습 또는 비지도 학습의 두 가지 범주 중 하나에 속한다는 점을 인식하는 것이 중요합니다. 지도 학습을 통해 기계는 인간이 라벨링 한 데이터 포인트를 수신하고 이를 사용하여 예측합니다. 반면 비지도 데이터는 라벨링 되지 않은 데이터를 사용하며 알고리즘은 사람의 지도 없이 데이터에서 구조와 패턴을 추출해야 합니다.
지도 학습의 범주 아래에는 다양한 학습 유형이 있습니다. 이 스펙트럼에서 우리는 액티브 러닝, 준지도 학습 및 약지도 학습을 찾습니다.
액티브 러닝 적용 방법
액티브 러닝은 반지도 학습의 한 형태입니다. 지도 학습과 달리, 이 머신러닝 알고리즘에는 라벨링 되지 않은 더 큰 데이터셋 가운데 사람이 라벨링 한 데이터의 초기 하위 집합만 제공됩니다. 알고리즘은 해당 데이터를 처리하고 특정 신뢰 수준으로 예측을 제공하죠. 이 신뢰 수준보다 낮으면 더 많은 데이터가 필요하다는 신호입니다. 이러한 신뢰도가 낮은 예측은 요청된 데이터를 라벨링하고 알고리즘에 다시 제공하기 위해 사람에게 전송됩니다. 알고리즘이 학습되고 원하는 예측 정확도로 작동할 때까지 사이클이 반복됩니다. 이 반복적인 휴먼 인 더 루프(human-in-the-loop) 방법은 모든 샘플이 학습 가치가 있는 것은 아니므로, 알고리즘이 학습하는 데이터를 선택한다는 아이디어를 기반으로 합니다.
액티브 러닝의 주요 차별화 요소는 사용되는 샘플링 방법이며, 이는 모델의 성능에 큰 영향을 미칩니다. 데이터 사이언티스트는 다양한 샘플링 방법을 테스트하여 가장 정확한 결과를 생성하는 방법을 선택할 수 있습니다. 전반적으로 액티브 러닝은 모든 데이터셋에 어노테이션이 필요한 것은 아니며 기계가 요청한 데이터 포인트만 필요하기 때문에 지도 학습에 비해 사람이 작업한 데이터 어노테이션에 덜 의존합니다.
약지도 학습 적용 방법
약지도 학습은 품질이 낮거나 약한 다양한 데이터 소스의 지식을 혼합하는 학습 기술입니다. 이러한 데이터 소스에는 다음이 포함될 수 있습니다.
- 비전문가가 제공하는 저렴하고 낮은 품질의 라벨링 데이터
- 경험적 접근(규칙)을 사용하는 SME가 제공하는 높은 수준의 지도 학습
- 경험적 접근은 “데이터 포인트 = x이면 라벨을 y로 지정한다”와 같은 것이라고 할 수 있습니다. 경험적 접근 또는 경험적 접근 세트를 사용하면 수천, 심지어 수백만 개의 데이터 포인트를 즉시 라벨링할 수 있습니다.
- 편향되거나 노이즈가 있을 수 있는 사전 훈련된 오래된 모델
이러한 소스의 데이터는 종종 정확하지 않거나(데이터에 레이블이 있지만 레이블이 원하는 만큼 정확하지 않음) 부정확합니다(레이블 일부에 오류가 있음). 간단한 기술을 사용하거나 패턴 인식과 같은 라벨링 기능을 사용하여 수집된 데이터셋에서 학습하도록 모델을 프로그래밍할 수 있습니다. 그런 다음 모델이 원하는 성능을 얻을 때까지 기능과 하이퍼파라미터를 조정하여 더 이상적인 가중치에 도달합니다. 필요한 경우 더 작은 지도 데이터셋을 통합하여 모델 훈련을 완료합니다.
약지도 학습은 사람이 수동으로 데이터를 라벨링 하는 시간을 줄이기 위해 학습 데이터를 프로그래밍하는 방법입니다. 분류 작업 및 라벨링 되지 않은 데이터셋이 있거나 사용 사례에서 약한 라벨 소스를 사용할 수 있는 경우에 가장 적합합니다.
액티브 러닝과 약지도 학습의 차이점
액티브 러닝과 약지도 학습 모두 고성능 모델을 생성할 수 있지만 몇 가지 주요 방식에서 현저하게 다릅니다.
라벨의 소스
각 유형의 학습에 필요한 라벨은 매우 다르게 제공됩니다.
액티브 러닝
- 작업자(보통 SME)는 데이터셋에 라벨을 지정합니다.
- 라벨은 정확하다고 가정합니다.
- 라벨은 하나의 소스에서 가져옵니다.
약지도 학습
- 소스는 유연하며 여러 곳에서 제공됩니다.
- 라벨이 반드시 정확하거나 완전하지는 않습니다.
- 여러 데이터 소스를 사용해야 합니다.
필요한 리소스
학습 유형에 따라 투자하는 시간, 돈, 인력의 비율이 달라집니다.
액티브 러닝
- SME를 라벨링 목적으로 사용하는 것은 가용성이 제한되어 있으므로 비용이 많이 듭니다.
- 액티브 러닝을 위해서는 사람이 데이터셋에서 일부 데이터를 라벨링 하는데 시간을 소비해야 합니다.
약지도 학습
- 라벨링 기능은 수 백 만개의 데이터 포인트에 몇 초 만에 적용할 수 있어 라벨링으로 엄청난 시간을 절약할 수 있습니다.
- 약지도 학습에 투자하는 시간은 데이터 소스에 따라 다르지만, 일반적으로 액티브 러닝 프로젝트에 필요한 시간보다 적습니다.
프로세스 반복
머신 러닝은 항상 반복적인 프로세스이지만 반복의 양은 약지도 학습인지 액티브 러닝인지에 따라 다릅니다.
액티브 러닝
- 여러 사이클의 휴먼 인 더 루프(Human in the Loop) 반복 프로세스를 사용합니다.
- 모델은 라벨링 데이터로 훈련됩니다.
약지도 학습
- 모델 훈련을 시작하기 전에 데이터셋이 완전히 벨링됩니다.
- 훈련 과정에 휴먼 인 더 루프(Human in the Loop)가 포함되지 않습니다.
액티브 러닝과 약지도 학습의 장점
위와 같은 차이점에도 불구하고 액티브 러닝과 약지도 학습은 여전히 지도 학습에서 출발합니다. 그 점에서 막대한 라벨링 작업 시간을 절약하고 SME의 작업을 제한함으로써 비용을 절약할 수 있죠. 약지도 학습을 사용하면 필요한 데이터의 양이 지도 학습에서 필요한 것보다 훨씬 적습니다. 마찬가지로, 액티브 러닝으로 효과적인 샘플링 기술을 사용하는 경우 기존 접근 방식에서 필요한 것보다 더 적은 수의 라벨링 데이터 포인트로 고품질 모델 성능을 달성할 수 있습니다.
가장 중요한 것은 머신 러닝에 대한 만능의 접근 방식은 없다는 것입니다. 학습 유형 중 하나를 선택하는 것은 사용할 수 있는 시간, 비용 및 인력 할당, 데이터 수집 계획, 데이터 소스 및 특정 사용 사례에 따라 달라집니다. 특정 사용 사례에 따라 액티브 러닝과 약지도 학습 중 반드시 하나를 선택할 필요는 없으며 시나리오에 따라 항상 상호 배타적인 것이 아닙니다. 이러한 요소를 사용하여 AI 솔루션에 가장 적합한 학습 기술을 선택할 수 있습니다.
에펜의 모델 훈련 지원 방법이 궁금하시다면 저희 솔루션 페이지에서 저희가 제공하는 다양한 기능과 서비스를 알아보세요.
머신러닝 프로젝트 지원이 필요하신가요? ML 전문가가 답변해 드립니다.