머신러닝 데이터셋(dataset) 사이트 40가지 모음

2023/11/01

머신러닝 데이터셋은 성공적인 AI 모델 구축과 배포에 핵심적인 역할을 합니다. 최근에는 데이터에 대한 수요가 증가하면서, 과거에는 구하기 어려웠던 희귀 이미지나 손글씨 샘플 등 다양한 주제를 다룬 데이터 저장소들이 많이 생겨났습니다.이번 글에서는 40개 이상의 머신러닝 데이터 저장소와 데이터셋 사이트를 프로젝트 유형과 산업 분야별로 분류해 소개합니다.

어떤 데이터가 필요한가요?

적절한 머신러닝 데이터셋을 선택하기 위해, 먼저 아래 질문에 답해보세요.

  • AI를 통해 달성하고자 하는 목표는 무엇인가요?
  • 이 프로젝트에 활용할 수 있는 내부 데이터가 충분한가요?
  • 어떤 유형의 데이터가 필요한가요?
  • 이 데이터를 어떤 목적(사용 사례)으로 활용할 예정인가요?
  • 엣지 케이스나 민감한 요소(예: 특정 인종, 성별 등)가 포함되어 있나요?

이 질문들은 프로젝트에 필요한 데이터의 특성을 명확히 이해하는 데 큰 도움이 됩니다. 특히, 특정 집단이 과소 대표되지 않도록 편향을 줄이는 노력이 필요할 수 있습니다. 또한 저품질 데이터를 사용할 경우 전체 프로젝트가 실패할 수 있으므로, 데이터 선택 시 충분한 주의가 필요합니다.

AI 모델 구축이 실패하는 주요 원인

대부분의 기업에서 AI 모델 구축에 실패하는 요인들에 대해 알아보고 개선 방향을 찾아보겠습니다.

  • 낮은 예산: AI에 투자하려면 많은 자본이 필요합니다. 인공지능 업계에는 기존 AI 이니셔티브를 충족할 수 있는 숙련된 인력이 부족할 뿐만 아니라 미래의 AI 이니셔티브는 더욱 부족합니다. 이러한 격차는 AI 산업이 성장함에 따라 더욱 확대될 것으로 예상됩니다.
  • 준비 부족: AI를 구축하려면 조직의 프로세스와 전략, 협업이 모두 빠지는 부분 없이 정확하게 준비되어야 합니다.
  • 저품질 데이터: 머신러닝 모델에는 많은 양의 고품질 데이터가 필요하지만, 실사용 환경에서는 이러한 데이터를 수집하는 것이 쉽지 않습니다. 또, 저품질 데이터를 정제하는 데에는 많은 시간과 자원이 소요됩니다.

기성 데이터셋이란?

기성 데이터셋(Off-the-shelf data)은 다양한 AI 프로젝트에 빠르고 경제적으로 활용할 수 있는 데이터 모음입니다. AI 모델의 성능은 학습에 사용하는 데이터의 품질과 다양성에 크게 좌우됩니다. 이때 기성 데이터셋은 방대한 데이터를 손쉽고 저렴하게 확보할 수 있는 효과적인 방법이 됩니다.

기성 데이터셋의 장점

  • 빠른 배포 가능: 데이터 수집 및 가공은 시간이 많이 걸리는 작업이며, 데이터 사이언티스트가 프로젝트 수행에 대부분의 시간을 소비하는 작업입니다. 하지만 기성 데이터셋은 이미 준비된 형태로 제공되기 때문에, 즉시 모델 학습에 사용할 수 있어 AI 모델을 빠르게 배포할 수 있습니다.
  • 규정 준수: 고객과 정부의 데이터 보안 요구가 점점 강화되면서, 기업이 AI 구축에 내부 데이터를 활용하는 것이 갈수록 어려워지고 있습니다. 이러한 상황에서 이미 라이선스를 취득한 기성 데이터셋을 활용하면, 보안 규정 준수에 대한 부담을 크게 줄일 수 있습니다.
  • 비용 효율성: 기성 데이터셋은 대부분 라이선스를 통해 구매하거나 무료로 제공되며, 맞춤형 데이터 수집보다 훨씬 저렴합니다. 만약 AI 예산 충분하지 않다면 기성 데이터셋 활용이 도움이 될 수 있습니다.
  • 검증된 품질: 대표적인 데이터셋은 에펜과 같은 전문 데이터 기업의 품질 검수와 가공을 거쳐 제공되기 때문에, 신뢰도가 높습니다.
  • 데이터 편견 감소: 기성 데이터셋을 사용하면 데이터 소스를 조사하여 데이터 생성 기간 동안 편향 검사가 통합되었는지 미리 확인할 수 있습니다. 또한 AI 데이터 제공업체는 데이터 편견을 최소화한 다양한 고품질 머신러닝 데이터셋을 제공합니다.

기성 데이터셋의 위와 같은 장점은 AI 개발의 과제를 극복하는 데 도움이 됩니다. ML 모델 구현을 위해 기성 데이터셋 사용을 통해 쉽고 빠른 AI 구축 전략을 마련해 보세요.

머신러닝 데이터셋 사이트 모음

데이터셋을 찾을 수 있는 유용한 데이터 저장소 사이트 40개를 소개합니다. 아래 목록은 정해진 순서 없이 데이터 저장소부터 특정 사용 사례에 적합한 머신러닝 데이터셋 사이트를 나열했습니다.

데이터셋 저장소

캐글(Kaggle): 캐글은 스포츠, 의료, 정부와 같은 다양한 주제를 다루는 가장 큰 데이터셋 저장소 중 하나입니다. 해당 플랫폼은 커뮤니티 중심이므로 사용자가 자신의 데이터셋을 자유롭게 업로드할 수 있죠. 데이터 소스가 다양하기 때문에 이곳에서 사용하는 데이터셋은 품질 확인이 꼭 필요합니다. 또한 캐글은 머신러닝에 대한 의견과 주요 프로세스에 대한 튜토리얼도 제공합니다.

구글(Google) 데이터셋: 구글은 이름으로 데이터셋을 검색할 수 있는 데이터셋 검색 엔진을 제공합니다. 파일 형식과 테마, 마지막 업데이트, 관련성과 같은 여러 기능을 기준으로 데이터셋을 정렬할 수 있습니다. 또한 인터넷에 있는 수천 개의 데이터베이스에서 데이터셋을 캡처하기 때문에 다양한 옵션을 찾아볼 수 있습니다. Harvard 및 World Health Organization과 같은 국제 조직이 데이터셋을 업로드합니다.

Papers with Code: Papers with Code에는 4천 개 이상의 데이터셋이 있습니다. 이러한 데이터셋은 커뮤니티에서 업로드됩니다. 양식이나 작업 및 언어별로 이러한 데이터셋을 쉽게 필터링할 수 있습니다. 데이터베이스에는 다양한 종류의 데이터셋을 제공하는 다른 데이터베이스에 대한 링크도 포함되어 있습니다.

데이터플레어(DataFlair): 데이터플레어는 70개 이상의 머신러닝 데이터셋에 연결되며 소스 코드 및 프로젝트 아이디어와 같은 유용한 정보를 포함합니다. 예를 들어, 이 플랫폼은 손으로 쓴 숫자가 포함된 데이터셋 목록에서 종이에 손글씨로 쓴 숫자를 인식하는 이미지 분류 알고리즘을 제안합니다. 따라서 새로운 아이디어를 위한 출발점으로 사용하기에 유용합니다.

엘리트데이터과학(EliteDataScience): 엘리드데이터과학에는 엄선된 무료 데이터셋 목록과 즐겨 찾는 수집기가 포함되어 있습니다. 데이터셋은 사용 사례별로 구성되어 있으므로 딥 러닝, 자연어 처리, 웹 스크래핑 등에 대한 데이터셋을 쉽게 찾을 수 있습니다.

UCI ML 리포지토리: UCI는 파일 유형, 작업, 응용 분야 및 주제별로 정렬할 수 있는 500개 이상의 머신러닝 데이터셋을 제공합니다. 이 데이터셋 중 다수는 벤치마킹에 사용할 수 있는 학술 논문에 대한 링크가 포함되어 있습니다.

Github: Github는 공개 데이터셋의 오픈 소스 컬렉션을 제공합니다. 농업부터 운송까지 다양한 옵션이 포함된 주제를 선택할 수 있죠. 또한 일반 머신러닝 모델 컬렉션도 포함되어 있습니다. 연결된 데이터셋은 대부분은 무료입니다.

Azure: Microsoft Azure에는 프로토타입 제작 및 테스트에 사용할 수 있는 공개 데이터셋 데이터베이스가 있습니다. 미국 정부 및 기관 데이터, 기타 통계 및 과학 데이터, 온라인 서비스 데이터가 포함됩니다. 또한 SQL에 대한 설명서와 모바일 및 웹 앱을 구축하는 방법을 찾아볼 수 있습니다. Snowflake 데이터 마켓플레이스는 데이터 사이언스, 비즈니스 인텔리전스 및 분석 전문가, 그리고 데이터 기반 의사 결정을 원하는 모든 사람에게 175개 이상의 타사 데이터 제공업체 및 데이터 서비스에서 제공하는 650개 이상의 실시간 쿼리 가능 데이터셋에 대한 액세스를 제공합니다.

AWS: AWS은 AWS 리소스를 통해 사용할 수 있는 데이터셋을 제공하는 레지스트리를 갖고 있습니다. 사용자는 자신의 데이터셋을 공유하거나 특정 데이터셋을 사용하는 방법에 대한 예를 추가할 수 있습니다. 280개 이상의 검색 가능한 데이터셋 레지스트리가 제공됩니다.

KDNuggets: KDNuggets은 다양한 데이터셋을 찾을 수 있는 데이터 저장소 목록을 보유하고 있습니다. 글로벌 저장소를 포함한 75개가 넘는 저장소가 있습니다.

에펜: 에펜은 80개 언어와 250개 이상의 라이선스 가능한 데이터를 포함한 기성 학습 데이터셋을 제공합니다. 또한 음성 인식 및 자연어 처리를 포함한 머신러닝 데이터셋과 다양한 파일 형식(텍스트, 이미지, 비디오, 음성 및 오디오)을 지원합니다.

  • 방송을 위한 음성 전사, 콜센터, 차량 내 및 전화 통신 애플리케이션을 위한 음성 데이터셋
  • 이름, 어휘, 자연수를 포함한 다양한 어휘 발음
  • 품사 태그가 지정된 어휘 및 동의어 사전
  • 형태학적 정보와 명명된 개체에 대해 표기된 텍스트 말뭉치

컴퓨터 비전(CV) 데이터셋

ImageNet: ImageNet은 WordNet 계층 구조에 따라 구성된 명사의 선택으로, 각 노드에는 수천 개의 연관 이미지가 있습니다. 저장소의 데이터는 연구자에게 무료로 제공됩니다.

MNIST: MNIST는 손으로 쓴 숫자 이미지를 제공합니다. 여기에는 60,000개의 예제로 구성된 훈련 세트와 10,000개의 예제로 구성된 테스트셋이 포함됩니다.

IMDB-Wiki dataset: IMDB-Wiki dataset은 500,000개 이상의 이미지로 구성된 최대 규모의 얼굴 이미지를 제공합니다. 대부분의 이미지는 유명인과 Wikipedia에서 가져왔습니다. 각 이미지에는 성별 및 연령 라벨이 첨부되어 있습니다.

LabelMe dataset: LabelMe dataset은 LabelMe 어노테이션 툴을 사용하여 구축되었습니다. 이 툴을 통해 사용자는 개체의 윤곽을 잡고 해당 개체에 라벨링할 수 있습니다. 이 데이터셋은 이미지 인식 프로젝트에 사용될 수 있습니다.

MS COCO: MS COCO는 Microsoft Common Objects in Context Dataset의 약자로, Common Objects in Context Challenge를 위해 게시되었습니다. 이곳에는 120,000개 이상의 이미지가 포함되어 있으며 각 이미지에는 객체 감지, 분할 및 기타 이미지 라벨링 기술과 관련된 여러 태그가 있습니다. 세트에는 91개의 이미지 카테고리가 있습니다.

Chars74K: Chars74K에는 이름에서 알 수 있듯이 74,000개의 이미지가 있습니다. 데이터에는 레스토랑 간판 이미지와 같은 문자 인식이 포함됩니다.

Kinetics-700: Kinetics-700에는 인간 중심 작업으로 분류된 유튜브 비디오 링크가 포함되어 있습니다. 700가지 인간의 액션을 통한 650,000개 이상의 동영상 클립이 있습니다.

Places2 database: Places2 database는 MIT에서 발표한 데이터셋으로 400개 이상의 장면에 대한 1,000만 개 이상의 이미지가 포함되어 있습니다. 장면 분류 및 장면 구문 분석을 다루는 프로젝트에 도움이 될 수 있습니다.

Open Images: Open Images 데이터셋은 객체 위치 어노테이션을 제공하는 가장 큰 데이터셋 중 하나입니다. 여기에는 객체 경계 상자, 분할 및 기타 어노테이션으로 각각 라벨링된 900만 개가 넘는 이미지가 있습니다. 총 600개 클래스에 걸쳐 1,600만 개의 bounding box가 존재합니다.

MPII Human Pose Dataset: MPII Human Pose Dataset에는 410개의 사람의 포즈에 대한 약 25,000개의 이미지가 있습니다. 이미지에는 약 40,000명의 다양한 사람들이 포함되어 있으며 각 이미지에는 신체 관절에 어노테이션이 달려 있습니다. 이미지는 유튜브 영상에서 수집되었습니다.

자연어 처리(NLP) 데이터셋

다음 데이터셋에는 자연어 처리 프로젝트에 사용할 수 있는 텍스트 및 음성 전반의 자연어 예제가 포함되어 있습니다. 이러한 예시들은 감정 분석 및 음성 인식, 음성 전사 등을 다룹니다.

Google Blogger Corpus: Google Blogger Corpus에는 blogger.com에서 가져온 약 700,000개의 블로그 게시물이 있으며 각 항목에는 최소 200개의 영어 단어가 포함되어 있습니다. 대부분의 블로그 게시물에는 흔히 쓰이는 영어 단어가 많이 포함되어 있습니다.

옐프 리뷰: Yelp Reviews는 레스토랑 순위와 리뷰를 다루며, 데이터셋에는 이와 관련된 정보가 담겨있습니다. 또한 감정 분석을 위한 리뷰가 포함되어 있습니다.

WikiQA Corpus: WikiQA Corpus는 Bing 검색 데이터에서 컴파일된 질문과 답변 쌍을 갖춘 데이터셋입니다. 3,000개 이상의 질문으로 구성된 29,000개의 문장을 제공하며, 그중 1,500개가 답변 문장으로 표시됩니다.

M-AI Labs Speech Dataset: M-AI Labs Speech Dataset에는 텍스트 변환과 결합된 약 1,000시간의 오디오가 포함되어 있습니다. 해당 음성 파일은 여성과 남성의 목소리로 다양한 언어로 표현됩니다.

LibriSpeech: LibriSpeech에는 분할되고 정렬된 약 1,000시간의 음성 데이터가 포함되어 있습니다. 데이터는 LibriVox 프로젝트의 오디오북에서 수집되었습니다.

워드넷: WordNet은 의미에 따라 그룹화된 영어 단어의 데이터베이스입니다. 117,000개의 synset(동의어를 기준으로 함께 쌍을 이루는 단어)이 있으며, 이는 관련 synset에 연결됩니다. 텍스트 분류 프로젝트에 유용합니다.

OpinRank dataset: OpinRank dataset에는 Edmunds 및 TripAdvisor에서 선별된 300,000개의 리뷰가 포함되어 있습니다. 데이터 목록은 여행지, 호텔, 기타 관련 요소별로 분류됩니다.

Multi-Domain Sentiment Dataset: Multi-Domain Sentiment Dataset는 DVD, 서적, 주방, 전자제품 등 4개 도메인에 걸친 아마존 제품 리뷰로 구성됩니다. 각 도메인에는 1부터 5까지의 별 등급이 첨부된 수천 개의 리뷰가 있습니다. 이름에서 알 수 있듯이 이는 감정 분석 프로젝트에 유용합니다.

트위터 감성 분석: Twitter 감정 분석 데이터셋에는 150만 개가 넘는 기밀 트윗이 포함되어 있으며 데이터셋의 각 행에는 순위가 있습니다. 이때 긍정적인 감정은 1로 부정적인 감정은 0으로 나타납니다.

20 Newsgroups: 20 Newsgroups에는 20개가 넘는 다양한 뉴스의 20,000개 문서가 포함되어 있습니다. 많은 주제가 포함되어 있으며 그중 일부는 내용이 유사할 수 있습니다. 데이터셋에는 세 가지 버전이 포함되어 있는데요, 하나는 초기 형식이고, 하나는 날짜가 제거되었으며, 다른 하나는 중복 항목이 제거되어 있습니다.

산업별 데이터셋 모음

정부

미국 정부 데이터 포털: 미국 정부 데이터 포털에는 미국이 약속한 모든 정부 데이터가 포함되어 있습니다. 포털을 방문하면 300,000개 이상의 데이터셋(예: 학자금 대출 데이터 또는 의료 서비스 제공업체 청구 데이터)을 검색할 수 있습니다.

유럽연합 개방형 데이터 포털: 유럽 연합 개방형 데이터 포털(European Union Open Data Portal)은 인구 데이터, 교육 등과 같은 유럽 연합 기관의 데이터를 검색하는 방법을 제공합니다.

헬스케어

세계보건기구: 세계보건기구(WHO)는 세계 기아, 의료, 질병과 같은 중요한 주제를 다루는 데이터를 제공합니다.

브로드 연구소: Broad Institute는 서열 분석부터 분류까지 암 관련 주제를 다루는 다양한 데이터셋을 제공합니다.

금융

구글 금융: Google Finance는 40년 이상의 주식 시장 데이터를 제공하며 현재도 실시간 업데이트되고 있습니다.

자동차

버클리 딥드라이브: Berkeley DeepDrive는 UC Berkeley에서 제작되었으며 다양한 지리적, 환경적, 기상 조건에 대한 100,000개 이상의 동영상 클립을 제공합니다. 이 클립은 bounding box로 어노테이션 되어 객체, 차선 표시 및 다양한 형태의 분할을 감지합니다. 이러한 데이터셋은 자율주행차 훈련에 사용될 수 있습니다.

레벨5: Level5는 차량 공유 회사인 Lyft에서 만들었습니다. 데이터셋에는 특정한 지리적 영역에서 여러 자율주행차가 캡처한 원시 센서 카메라와 LiDAR 데이터가 포함되어 있습니다. 또한 특정 대상 개체의 3D bounding box로 레이블이 지정됩니다.

농업

USDA 공개 데이터 카탈로그: USDA 공개 데이터 카탈로그에는 미국 농무부에서 수집한 데이터가 포함되어 있습니다. 주제는 미국 농업의 생산성 측정부터 식인성 질병의 비용 추정에 이르기까지 다양합니다.

이커머스/소매

Fashion-MNIST: Fashion-MNIST에는 10개 클래스에 걸쳐 패션 산업 제품에 대한 약 60,000개의 이미지와 10,000개의 테스트 이미지가 포함되어 있습니다. 이 데이터는 제품 분류 프로젝트에 유용합니다.

전자상거래 검색 관련성: eCommerce Search Relevance 데이터셋에는 제품 링크, 페이지에서 해당 제품의 순위, 해당 결과를 제공한 검색어 및 기타 관련 속성이 포함되어 있습니다. 데이터는 5개의 주요 영어 전자상거래 사이트에서 수집되었습니다.

머신러닝 데이터 인사이트

데이터베이스를 선택할 때 고려해야 할 사항

새 프로젝트를 시작할 때는 충분한 시간을 갖고 데이터셋을 준비하세요. 시작 전 한발 물러서서 애플리케이션이나 서비스가 제공할 사용자 요구 사항을 살펴보는 것도 좋습니다. 데이터셋 선택을 돕는 아래 주요 포인트를 따라가면 여러분의 해답을 찾아보세요.

  • 데이터셋의 하위 집합: 데이터셋이 너무 복잡하게 느껴지나요? 이제 두려워하지 마세요. 데이터 전체의 하위 집합을 추출하여 복잡성을 감소시킬 수 있습니다.
  • 여러 데이터셋의 결합: 때로는 선택한 데이터셋이 모델 개발에 필요한 데이터셋과 맞지 않을 수도 있습니다. 여러 데이터셋이나 하위 세트를 결합하여 사용 사례의 전체 모집단과 더 유사한 학습 데이터셋을 구성해 보세요.
  • API: 많은 데이터셋에는 쉬운 데이터 액세스 및 변환을 위한 API 또는 라이브러리가 함께 제공됩니다. 이렇게 하면 AI 개발 초기에 사용되는 시간을 절약할 수 있습니다.
  • 샘플 프로젝트: 인기 있는 데이터셋 활용 프로젝트에 참여하고 Github와 같은 저장소를 통해 작업을 공개한 사람들을 찾아볼 수도 있습니다. 데이터를 선택할 때 소스 코드, 모델 또는 사전 학습된 모델을 기초로 사용하거나 참조로 사용하세요.
  • 저작권: 소프트웨어와 마찬가지로 데이터셋에도 다양한 유형의 저작권이 있습니다. 일부는 특정 데이터셋에 대한 작업을 공유하도록 요구할 수도 있습니다. 또한 비상업적인 용도로만 응용 프로그램을 제한할 수 있습니다. 일반적인 전략은 코드를 데이터셋에서 최대한 멀리 분리하는 것입니다. 하지만 안전한 방법은 애플리케이션에 대한 데이터셋을 선택하기 전에 법적 조언을 구하는 것입니다.
  • 단기/장기: 작업할 첫 번째 데이터셋을 선택하는 등 단기적인 결정을 내릴 때는 장기적인 영향을 고려하는 것이 좋습니다. 큰 그림을 보다 보면 공개 도메인 데이터셋에서 자체 선별된 데이터셋로 전환해야 하는 경우가 발생하기도 하는데요, 처음부터 차선책을 선택하면 시간과 노력 및 예산을 절약할 수 있습니다.

에펜의 데이터셋 솔루션

머신러닝 데이터셋이 필요하신가요? 에펜은 즉시 활용 가능한 약 300개의 기성 AI 학습 데이터셋을 보유하고 있습니다. 저희의 광범위한 기성(OTS: Off-the-Shelf) 데이터셋는 다양한 데이터 유형과 산업 분야를 아우르며, 여러 AI 애플리케이션에 폭넓게 활용할 수 있도록 설계되어 있습니다. 이 모든 데이터셋은 최고 수준의 품질과 정확도 기준을 기반으로 제작되어, AI 모델 학습에 필요한 신뢰도 높은 데이터를 안정적으로 제공합니다.

데이터셋 지원이 필요하신가요? 무료 데이터셋 샘플을 받아보세요.