스몰데이터란? 정의, 빅데이터와 비교, 종류

2023/08/25

스몰데이터의 정의

스몰데이터는 접근 및 실행할 수 있는 형식으로 사람이 쉽게 이해할 수 있는 데이터를 말하며 우리 주변에서 온라인 쇼핑이나 항공사 추천, 일기 예보 등을 지원합니다. 데이터 사이언티스트는 스몰데이터를 통해 현재 상황을 분석합니다. ML에서 스몰데이터의 증가는 일반적으로 데이터의 가용성이 향상되고 새로운 데이터 마이닝 기술에 대한 실험으로 인해 발생했을 가능성이 큽니다. AI 산업이 발전함에 따라 데이터 사이언티스트는 필요한 낮은 수준의 컴퓨팅 성능과 사용 편의성을 위해 빅데이터에서 스몰데이터로 전환하고 있습니다.

Dont-Start-from-Scratch-When-Building-Machine-Learning-Models-768x403.png

스몰데이터 vs. 빅데이터

빅데이터는 스몰데이터와 어떻게 다른가요? 빅데이터는 구조화된 데이터와 구조화되지 않은 데이터로 구성됩니다. 큰 크기 때문에 스몰데이터보다 이해하고 분석하기가 어렵고 해석하려면 많은 컴퓨터 처리 능력이 필요합니다. 기업은 스몰데이터를 통해 빅데이터 분석에 필요한 복잡한 알고리즘 없이도 실행할 수 있는 인사이트를 얻을 수 있습니다. 결과적으로 기업은 데이터 마이닝 프로세스에 많은 투자를 할 필요가 없어졌죠. 빅데이터는 더 큰 데이터셋의 구성 요소를 나타내는 더 작고 실행 가능한 덩어리로 데이터를 변경하는 컴퓨터 알고리즘을 적용하여 스몰데이터로 변환될 수 있습니다. 빅데이터에서 스몰데이터로의 전환의 예는 브랜드 출시 중 소셜 미디어를 모니터링하는 것입니다. 매 순간 수많은 소셜 미디어 게시물이 생성됩니다. 데이터 사이언티스트는 플랫폼과 기간, 키워드 및 기타 관련 기능별로 원하는 데이터를 필터링해야 합니다. 이 프로세스는 빅데이터를 작고 관리하기 쉬운 스몰데이터로 변환하는 것입니다.


스몰데이터의 장점

빅데이터는 스몰데이터에 비해 관리가 어렵습니다. 빅데이터를 대규모로 사용하는 것은 큰 노력이 필요하며, 분석을 위해 엄청난 컴퓨터 성능이 필요합니다. 스몰데이터는 많은 시간과 노력을 투자하지 않고도 작은 데이터 덩어리를 효율적으로 분석할 수 있습니다. 따라서 스몰데이터는 빅데이터보다 실행 가능성이 더 큽니다. 스몰데이터는 생활 속 어디에나 있으며 이미 많은 산업에서 널리 이용되고 있습니다. 예를 들어, 소셜 미디어는 마케팅과 같은 목적으로 활용될 수 있는 실행 가능한 수많은 데이터 바이트를 제공합니다. 스몰데이터는 최종 사용자에 초점을 맞추며 이를 통해 연구자는 최종 사용자와 그들의 요구 사항을 먼저 타겟팅할 수 있습니다. 스몰데이터는 최종 사용자 행동의 이유를 제공합니다. 많은 사용 사례에서 스몰데이터는 분석에 대해 빠르고 효율적인 접근 방식이며 업계 전반의 고객에 대한 강력한 인사이트를 제공하는 데 도움이 됩니다.


ML과 스몰데이터

가장 전통적인 머신러닝 방법인 지도 학습에서는 모델이 대량의 라벨링 된 학습 데이터를 통해 훈련됩니다. 하지만 그 외에도 모델 학습 방법은 여러 가지가 있습니다. 다른 방법은 비용 효율성과 시간 절약 면에서 인기를 얻고 있죠. 이러한 방법은 스몰데이터에 의존하는 경우가 많지만, 이때 데이터 품질이 가장 중요합니다. 만약 모델에 소량의 데이터만 필요하거나 모델에 데이터가 충분하지 않다면 다음 ML 기술을 사용할 수 있습니다.

퓨샷 학습(Few-shot Learning)

퓨샷 학습은 소량의 학습 데이터가 포함된 ML 모델을 제공합니다. 모델이 객체를 식별하기 위해 많은 예제가 필요하지 않은 컴퓨터 비전에서 이러한 접근 방식을 흔히 볼 수 있습니다. 예를 들어 스마트폰의 잠금을 해제하는 얼굴 인식 알고리즘이 있는 경우 이를 활성화하는 데 수천 장의 사진이 필요하진 않죠. 이 기술은 비용과 노력이 적기 때문에 완전 지도 학습에서 데이터가 충분하지 않은 때 사용할 수 있습니다.

지식 그래프(Knowledge Graphs)

지식 그래프는 원본의 빅데이터를 필터링하여 형성되는 보조 데이터셋입니다. 이는 의미를 정의하고 특정 도메인을 설명하는 일련의 데이터 포인트 또는 라벨링으로 구성됩니다. 예를 들어, 지식 그래프에는 유명 여배우 이름의 데이터 포인트가 포함될 수 있으며, 이전에 함께 작업한 여배우를 연결하는 선(에지)이 포함될 수 있습니다. 지식 그래프는 설명하기 쉽고 재사용이 가능한 방식으로 지식을 정리하는 데 매우 유용한 도구입니다.

전이 학습(Transfer Learning)

전이 학습은 ML 모델이 관련 작업을 수행해야 하는 다른 모델의 시작점으로 사용되는 경우입니다. 이는 본질적으로 한 모델에서 다른 모델로의 지식 전달입니다. 원래 모델을 출발점으로 사용하여 추가 데이터를 사용하여 새 작업을 처리하도록 모델을 추가로 훈련할 수 있습니다. 새 작업에 필요하지 않으면 원본 모델의 구성 요소를 정리할 수도 있습니다. 전이 학습은 많은 컴퓨팅 성능과 데이터가 필요한 자연어 처리컴퓨터 비전과 같은 분야에서 특히 유용합니다. 이 방법은 상대적으로 적은 노력으로 결과를 얻을 수 있는 지름길을 제공할 수 있습니다.

자기 지도 학습(Self-supervised Learning)

자기 지도 학습의 기본 개념은 모델이 사용할 수 있는 데이터에서 감독 신호를 수집하는 것입니다. 모델은 데이터를 사용하여 관찰되지 않았거나 숨겨진 데이터에 대한 예측을 수행합니다. 예를 들어, 자연어 처리는 모델에 빠진 단어가 있는 문장을 제공하고 모델이 빠진 단어를 예측하도록 할 수 있습니다. 숨겨지지 않은 단어로부터 충분한 문맥 단서를 통해 모델은 나머지 단어를 식별하는 방법을 학습합니다.

합성 데이터(Synthetic Data)

특정 데이터셋에 기존 데이터로 채우기 어려운 공백이 있는 경우 합성 데이터를 활용할 수 있습니다. 많이 사용되는 예시는 바로 얼굴 인식 모델입니다. 이러한 모델에는 인간의 피부색 전체를 포괄하는 얼굴의 이미지 데이터가 필요합니다. 문제는 어두운 피부를 가진 사람들의 이미지가 밝은 피부를 가진 사람들의 이미지보다 더 드물다는 것입니다. 피부색이 어두운 사람을 식별하는 데 어려움을 겪는 모델을 만드는 대신, 피부색이 어두운 사람의 데이터를 인위적으로 생성하여 같은 표현을 달성할 수 있습니다. 그러나 실제 사례에서는 이러한 모델을 더 철저하게 테스트해야 하며 컴퓨터 생성 데이터셋이 충분하지 않으면 학습 데이터를 추가해야 합니다. 여기에 언급된 접근 방식은 완전하진 않지만 ML이 진행되는 다양한 방향에 대한 큰 그림을 제공합니다. 일반적으로 데이터 사이언티스트는 지도 학습에서 벗어나 스몰데이터 접근 방식을 실험하고 있습니다.


스몰데이터셋 생성 시 주의사항

스몰데이터는 단순히 적은 양의 데이터를 의미하지 않습니다. 이는 비즈니스 인사이트를 제공하거나 의사결정을 자동화하는 모델을 생성하는 데 필요한 만큼의 데이터를 의미하죠. 이것을 명심하면서 스몰데이터셋을 생성할 때 알아야 할 것들을 소개해드리겠습니다.

데이터 관련성

데이터셋에 어떤 데이터가 들어갈지 의식적으로 선택하세요. 실제로 모델을 사용할 때, 볼 수 있는 종류의 데이터만 포함되어 있는지 확인해야 합니다. 예를 들어, 제조 컨베이어 라인에서 부품의 결함 탐지를 수행할 때, 데이터셋에 포함되는 데이터는 결함 없는 제품들의 사진으로, 해당 부품의 라인에 장착된 카메라에서 촬영한 이미지입니다.

데이터 다양성과 반복

모델이 실제로 보게 될 다양한 데이터 사례를 모두 다루고 이러한 사례 내에서 다양성의 균형을 유지하는 것이 중요합니다. 이미 포함된 데이터로 데이터셋을 과도하게 채우지 마세요. 결함 감지 예에서는 결함이 없는 물체, 다양한 유형의 결함이 있는 물체, 공장 현장의 다양한 조명 조건, 벨트의 다양한 회전 및 위치에서의 사진을 데이터에 포함하고 싶을 수도 있습니다. 하지만 차이가 거의 없는 비디오 프레임은 불필요한 반복이기 때문에 사용하지 않는 것이 좋습니다.

강력한 기술

위에 나열된 접근 방식은 이미 학습한 유사한 도메인의 다른 모델에 대한 전이 학습을 통해 좋은 결과를 얻은 다음 스몰데이터로 조정할 수 있습니다. 결함 감지 예의 경우 MS COCO 데이터셋에서 훈련된 모델을 파인 튜닝하는 것과는 달리 이전에 훈련한 또 다른 결함 감지 모델이 될 수 있으며 이는 컨베이어 라인 사용 사례의 결함 감지와는 다릅니다.

데이터 중심 AI와 모델 중심 AI

AI 업계의 최신 연구 결과에 따르면 훈련에 적합한 데이터를 찾으면 모델 성능이 크게 향상되는 것으로 나타났습니다. 여러 하이퍼파라미터와 다양한 모델 아키텍처를 사용하여 교육하거나 일반적으로 유능한 데이터 사이언티스트가 알아낼 거라 가정하는 대신 엣지 케이스와 변형을 찾아 더 나은 결과를 얻을 수 있습니다. 결함 탐지 모델이 특정 유형의 결함을 잘 탐지하지 못하는 경우, 다른 모델 아키텍처나 하이퍼파라미터 튜닝을 시도하는 대신 해당 유형의 더 많은 이미지를 얻는 데 더 많은 투자를 하세요.

학습 데이터 전문가와 협력

데이터 중심 AI를 사용하면 데이터 사이언티스트가 잘하는 모델보다는 도메인 전문가가 더 잘하는 데이터에 디버깅 노력을 집중할 수 있습니다. 도메인 전문가와 협력하여 모델이 실패하는 경우의 패턴을 식별하고 실패할 수 있는 이유에 대한 가설을 세워보세요. 이는 필요한 데이터를 결정하는 데 도움이 됩니다. 예를 들어, 객체 결함 분야의 엔지니어 전문가는 모델에 필요한 올바른 데이터의 우선순위를 정하고, 위에서 언급한 잡음이 있거나 원치 않는 데이터를 정리하고, 데이터 사이언티스트가 더 나은 모델 아키텍처를 선택하는 데 사용할 수 있는 미묘한 차이를 지적하는 데 도움을 줄 수 있습니다. 요약하자면, 스몰데이터는 빅데이터보다 “밀도”가 더 높다고 할 수 있습니다. 가능한 가장 작은 크기의 데이터셋에서 최고 품질의 데이터를 원하며, 이를 비용 효율적으로 만들고 위의 접근 방식 중 하나로 쉽게 사용하여 고품질 모델을 생성할 수 있습니다.


에펜의 스몰데이터 솔루션

에펜은 머신러닝을 대규모로 개선하기 위해 플랫폼에서 데이터 수집어노테이션 서비스를 제공합니다. 저희는 글로벌 리더로서 고객의 AI 프로그램 요구 사항에 대한 맞춤형 이미지, 동영상, 음성 및 텍스트를 포함한 다양한 데이터 유형에 걸쳐 대량의 고품질 데이터를 신속하게 제공합니다. 25년 이상의 데이터 전문 지식을 바탕으로 여러분의 데이터 파이프라인 효율성을 최적화해드릴 것을 약속드립니다. 에펜의 데이터 서비스에 대해 궁금하신 점이 있으시다면 지금 바로 문의 남겨주세요.

학습 데이터가 필요하신가요? 데이터 전문가에게 문의하세요.