머신러닝 데이터셋(dataset) 사이트 40가지 모음
머신러닝 데이터셋은 성공적 AI 출시에 매우 중요한 역할을 합니다. 데이터에 대한 수요가 늘어남에 따라 이전에는 찾기 힘들었던 희귀한 이미지부터 손글씨 샘플까지 여러 가지 주제를 다루는 데이터 저장소 사이트가 많이 생겼습니다. 이번 글에서는 40개 이상의 머신러닝 데이터 저장소와 데이터셋 사이트를 프로젝트 유형과 산업별로 분류하여 소개해드리겠습니다. 하지만 머신러닝 데이터셋은 경우에 따라 추가 데이터 가공 작업이 필요할 수 있다는 점을 잊지 말아 주세요!
어떤 종류의 데이터가 필요한가요?
내게 맞는 머신러닝 데이터셋을 찾기 위해 먼저 아래 질문에 답을 해보세요.
- AI를 통해 무엇을 성취하려고 하는가?
- 이 프로젝트에 활용할 수 있는 충분한 내부 데이터가 있습니까?
- 어떤 데이터를 원하시나요?
- 데이터를 어떤 사용 사례에 사용할 예정인가요?
- 데이터 관련 엣지 케이스가 있나요?
위 질문들은 필요한 유형의 데이터에 대해 더 명확한 그림을 그리는 데 도움이 됩니다. 특정 인종이나 성별, 성적 취향을 포함한 기타 요인의 소외 계층을 대상으로 작업하는 경우 머신러닝 데이터셋이 모든 사람들을 적절하게 나타내도록 추가 노력이 필요합니다. 또한 저품질 데이터를 사용할 경우 머신러닝 프로젝트 전체가 실패될 수 있으므로 데이터를 검색할 때는 의도를 정확히 하는 것이 중요합니다.
AI 모델 구축 실패 요인
적을 알면 나를 안다. 대부분의 기업에서 AI 모델 구축에 실패하는 요인들에 대해 알아보고 개선 방향을 찾아보겠습니다.
- 낮은 예산
AI에 투자하려면 많은 자본이 필요합니다. 인공지능 업계에는 기존 AI 이니셔티브를 충족할 수 있는 숙련된 인력이 부족할 뿐만 아니라 미래의 AI 이니셔티브는 더욱 부족합니다. 이러한 격차는 AI 산업이 성장함에 따라 더욱 확대될 것으로 예상됩니다.
- 준비 부족
AI를 구축하려면 조직의 프로세스와 전략, 협업이 모두 빠지는 부분 없이 정확하게 설정되어야 합니다.
- 저품질 데이터 혹은 부족한 데이터 양
머신러닝 모델을 정확하게 수행하려면 많은 데이터가 필요하지만 데이터 수집은 사용 사례에 따라 어려울 수 있습니다. 또한 품질이 낮은 데이터를 고품질의 라벨링 된 데이터로 변환하는 것은 시간이 많이 걸리고 비효율적인 프로세스일 수 있습니다.
기성 데이터셋의 장점
많은 기업이 인공지능 배포에 어려움을 겪으면서 AI 데이터 솔루션 기업과 협업하는 케이스가 늘어나고 있습니다. 데이터 병목 현상을 해결하기 위해 기성 데이터셋을 구매할 수 있습니다. 이는 머신러닝 모델 구축을 위한 유용한 시작점이 될 수 있으며 경우에 따라 모든 사용 사례에 충분한 적용 범위를 제공할 수 있습니다.
- 규정 준수
고객과 당국의 데이터 보안 요구 사항이 증가함에 따라 기업이 AI 구축을 위해 사내 데이터를 사용하는 것이 더욱 어려워지고 있습니다. 일부 회사는 비교적 쉽게 많은 데이터에 액세스 할 수 있습니다. 하지만 고객 개인정보 보호를 위해서는 ML 모델에 사용할 수 있는 데이터와 사용할 수 없는 것을 구분하는 것이 매우 중요합니다.
- 데이터 편견 감소
AI 모델 편견 완화의 중요성은 점점 더 증가하고 있습니다. 하지만 기업 내부 데이터에 의존하는 경우 데이터 편견을 방지하는 것이 어려울 수 있습니다. 하지만 기성 데이터셋을 사용하면 데이터 소스를 조사하여 데이터 생성 기간 동안 편향 검사가 통합되었는지 확인할 수 있습니다. 또한 AI 데이터 제공업체는 데이터 편견을 최소화한 다양한 고품질 머신러닝 데이터셋을 제공합니다.
- 빠른 출시 기간
데이터 수집 및 가공은 시간이 많이 걸리는 작업이며, 데이터 사이언티스트가 프로젝트 수행에 대부분의 시간을 소비하는 작업입니다. 이때, 기성 데이터셋을 사용하면 작업을 많이 줄일 수 있고 이를 통해 출시 기간을 최대한 줄일 수 있습니다.
- 비용 효율성
내부 데이터를 집계, 검토 및 준비 단계는 비용이 많이 드는 프로세스입니다. 온라인에서 사용할 수 있는 많은 기성 데이터셋은 무료이거나 가격이 저렴합니다. 만약 AI 예산 충분하지 않다면 기성 데이터셋 활용이 도움이 될 수 있습니다.
기성 데이터셋의 위와 같은 장점은 AI 개발의 과제를 극복하는 데 도움이 됩니다. ML 모델 구현을 위해 기성 데이터셋 사용을 통해 쉽고 빠른 AI 구축 전략을 마련해 보세요.
머신러닝 데이터셋 사이트 모음
데이터셋을 찾을 수 있는 유용한 데이터 저장소 사이트 40개를 소개합니다. 아래 목록은 정해진 순서 없이 데이터 저장소부터 특정 사용 사례에 적합한 머신러닝 데이터셋 사이트를 나열했습니다.
데이터 저장소
캐글은 스포츠, 의료, 정부와 같은 다양한 주제를 다루는 가장 큰 데이터셋 저장소 중 하나입니다. 해당 플랫폼은 커뮤니티 중심이므로 사용자가 자신의 데이터셋을 자유롭게 업로드할 수 있죠. 데이터 소스가 다양하기 때문에 이곳에서 사용하는 데이터셋은 품질 확인이 꼭 필요합니다. 또한 캐글은 머신러닝에 대한 의견과 주요 프로세스에 대한 튜토리얼도 제공합니다.
구글은 이름으로 데이터셋을 검색할 수 있는 데이터셋 검색 엔진을 제공합니다. 파일 형식과 테마, 마지막 업데이트, 관련성과 같은 여러 기능을 기준으로 데이터셋을 정렬할 수 있습니다. 또한 인터넷에 있는 수천 개의 데이터베이스에서 데이터셋을 캡처하기 때문에 다양한 옵션을 찾아볼 수 있습니다. Harvard 및 World Health Organization과 같은 국제 조직이 데이터셋을 업로드합니다.
Papers with Code에는 4천 개 이상의 데이터셋이 있습니다. 이러한 데이터셋은 커뮤니티에서 업로드됩니다. 양식이나 작업 및 언어별로 이러한 데이터셋을 쉽게 필터링할 수 있습니다. 데이터베이스에는 다양한 종류의 데이터셋을 제공하는 다른 데이터베이스에 대한 링크도 포함되어 있습니다.
데이터플레어는 70개 이상의 머신러닝 데이터셋에 연결되며 소스 코드 및 프로젝트 아이디어와 같은 유용한 정보를 포함합니다. 예를 들어, 이 플랫폼은 손으로 쓴 숫자가 포함된 데이터셋 목록에서 종이에 손글씨로 쓴 숫자를 인식하는 이미지 분류 알고리즘을 제안합니다. 따라서 새로운 아이디어를 위한 출발점으로 사용하기에 유용합니다.
엘리드데이터과학에는 엄선된 무료 데이터셋 목록과 즐겨 찾는 수집기가 포함되어 있습니다. 데이터셋은 사용 사례별로 구성되어 있으므로 딥 러닝, 자연어 처리, 웹 스크래핑 등에 대한 데이터셋을 쉽게 찾을 수 있습니다.
UCI는 파일 유형, 작업, 응용 분야 및 주제별로 정렬할 수 있는 500개 이상의 머신러닝 데이터셋을 제공합니다. 이 데이터셋 중 다수는 벤치마킹에 사용할 수 있는 학술 논문에 대한 링크가 포함되어 있습니다.
Github는 공개 데이터셋의 오픈 소스 컬렉션을 제공합니다. 농업부터 운송까지 다양한 옵션이 포함된 주제를 선택할 수 있죠. 또한 일반 머신러닝 모델 컬렉션도 포함되어 있습니다. 연결된 데이터셋은 대부분은 무료입니다.
Microsoft Azure에는 프로토타입 제작 및 테스트에 사용할 수 있는 공개 데이터셋 데이터베이스가 있습니다. 미국 정부 및 기관 데이터, 기타 통계 및 과학 데이터, 온라인 서비스 데이터가 포함됩니다. 또한 SQL에 대한 설명서와 모바일 및 웹 앱을 구축하는 방법을 찾아볼 수 있습니다. Snowflake 데이터 마켓플레이스는 데이터 사이언스, 비즈니스 인텔리전스 및 분석 전문가, 그리고 데이터 기반 의사 결정을 원하는 모든 사람에게 175개 이상의 타사 데이터 제공업체 및 데이터 서비스에서 제공하는 650개 이상의 실시간 쿼리 가능 데이터셋에 대한 액세스를 제공합니다.
AWS은 AWS 리소스를 통해 사용할 수 있는 데이터셋을 제공하는 레지스트리를 갖고 있습니다. 사용자는 자신의 데이터셋을 공유하거나 특정 데이터셋을 사용하는 방법에 대한 예를 추가할 수 있습니다. 280개 이상의 검색 가능한 데이터셋 레지스트리가 제공됩니다.
KDNuggets은 다양한 데이터셋을 찾을 수 있는 데이터 저장소 목록을 보유하고 있습니다. 글로벌 저장소를 포함한 75개가 넘는 저장소가 있습니다.
에펜은 80개 언어와 250개 이상의 라이선스 가능한 데이터를 포함한 기성 학습 데이터셋을 제공합니다. 또한 음성 인식 및 자연어 처리를 포함한 머신러닝 데이터셋과 다양한 파일 형식(텍스트, 이미지, 비디오, 음성 및 오디오)을 지원합니다.
- 방송을 위한 음성 전사, 콜센터, 차량 내 및 전화 통신 애플리케이션을 위한 음성 데이터셋
- 이름, 어휘, 자연수를 포함한 다양한 어휘 발음
- 품사 태그가 지정된 어휘 및 동의어 사전
- 형태학적 정보와 명명된 개체에 대해 표기된 텍스트 말뭉치
컴퓨터 비전 데이터셋
ImageNet은 WordNet 계층 구조에 따라 구성된 명사의 선택으로, 각 노드에는 수천 개의 연관 이미지가 있습니다. 저장소의 데이터는 연구자에게 무료로 제공됩니다.
MNIST는 손으로 쓴 숫자 이미지를 제공합니다. 여기에는 60,000개의 예제로 구성된 훈련 세트와 10,000개의 예제로 구성된 테스트셋이 포함됩니다.
IMDB-Wiki dataset은 500,000개 이상의 이미지로 구성된 최대 규모의 얼굴 이미지를 제공합니다. 대부분의 이미지는 유명인과 Wikipedia에서 가져왔습니다. 각 이미지에는 성별 및 연령 라벨이 첨부되어 있습니다.
LabelMe dataset은 LabelMe 어노테이션 툴을 사용하여 구축되었습니다. 이 툴을 통해 사용자는 개체의 윤곽을 잡고 해당 개체에 라벨링할 수 있습니다. 이 데이터셋은 이미지 인식 프로젝트에 사용될 수 있습니다.
MS COCO는 Microsoft Common Objects in Context Dataset의 약자로, Common Objects in Context Challenge를 위해 게시되었습니다. 이곳에는 120,000개 이상의 이미지가 포함되어 있으며 각 이미지에는 객체 감지, 분할 및 기타 이미지 라벨링 기술과 관련된 여러 태그가 있습니다. 세트에는 91개의 이미지 카테고리가 있습니다.
Chars74K에는 이름에서 알 수 있듯이 74,000개의 이미지가 있습니다. 데이터에는 레스토랑 간판 이미지와 같은 문자 인식이 포함됩니다.
Kinetics-700에는 인간 중심 작업으로 분류된 유튜브 비디오 링크가 포함되어 있습니다. 700가지 인간의 액션을 통한 650,000개 이상의 동영상 클립이 있습니다.
Places2 database는 MIT에서 발표한 데이터셋으로 400개 이상의 장면에 대한 1,000만 개 이상의 이미지가 포함되어 있습니다. 장면 분류 및 장면 구문 분석을 다루는 프로젝트에 도움이 될 수 있습니다.
Open Images 데이터셋은 객체 위치 어노테이션을 제공하는 가장 큰 데이터셋 중 하나입니다. 여기에는 객체 경계 상자, 분할 및 기타 어노테이션으로 각각 라벨링된 900만 개가 넘는 이미지가 있습니다. 총 600개 클래스에 걸쳐 1,600만 개의 bounding box가 존재합니다.
MPII Human Pose Dataset에는 410개의 사람의 포즈에 대한 약 25,000개의 이미지가 있습니다. 이미지에는 약 40,000명의 다양한 사람들이 포함되어 있으며 각 이미지에는 신체 관절에 어노테이션이 달려 있습니다. 이미지는 유튜브 영상에서 수집되었습니다.
자연어 처리 데이터셋
다음 데이터셋에는 자연어 처리 프로젝트에 사용할 수 있는 텍스트 및 음성 전반의 자연어 예제가 포함되어 있습니다. 이러한 예시들은 감정 분석 및 음성 인식, 음성 전사 등을 다룹니다.
Google Blogger Corpus에는 blogger.com에서 가져온 약 700,000개의 블로그 게시물이 있으며 각 항목에는 최소 200개의 영어 단어가 포함되어 있습니다. 대부분의 블로그 게시물에는 흔히 쓰이는 영어 단어가 많이 포함되어 있습니다.
Yelp Reviews는 레스토랑 순위와 리뷰를 다루며, 데이터셋에는 이와 관련된 정보가 담겨있습니다. 또한 감정 분석을 위한 리뷰가 포함되어 있습니다.
WikiQA Corpus는 Bing 검색 데이터에서 컴파일된 질문과 답변 쌍을 갖춘 데이터셋입니다. 3,000개 이상의 질문으로 구성된 29,000개의 문장을 제공하며, 그중 1,500개가 답변 문장으로 표시됩니다.
M-AI Labs Speech Dataset에는 텍스트 변환과 결합된 약 1,000시간의 오디오가 포함되어 있습니다. 해당 음성 파일은 여성과 남성의 목소리로 다양한 언어로 표현됩니다.
LibriSpeech에는 분할되고 정렬된 약 1,000시간의 음성 데이터가 포함되어 있습니다. 데이터는 LibriVox 프로젝트의 오디오북에서 수집되었습니다.
WordNet은 의미에 따라 그룹화된 영어 단어의 데이터베이스입니다. 117,000개의 synset(동의어를 기준으로 함께 쌍을 이루는 단어)이 있으며, 이는 관련 synset에 연결됩니다. 텍스트 분류 프로젝트에 유용합니다.
OpinRank dataset에는 Edmunds 및 TripAdvisor에서 선별된 300,000개의 리뷰가 포함되어 있습니다. 데이터 목록은 여행지, 호텔, 기타 관련 요소별로 분류됩니다.
Multi-Domain Sentiment Dataset
Multi-Domain Sentiment Dataset는 DVD, 서적, 주방, 전자제품 등 4개 도메인에 걸친 아마존 제품 리뷰로 구성됩니다. 각 도메인에는 1부터 5까지의 별 등급이 첨부된 수천 개의 리뷰가 있습니다. 이름에서 알 수 있듯이 이는 감정 분석 프로젝트에 유용합니다.
Twitter 감정 분석 데이터셋에는 150만 개가 넘는 기밀 트윗이 포함되어 있으며 데이터셋의 각 행에는 순위가 있습니다. 이때 긍정적인 감정은 1로 부정적인 감정은 0으로 나타납니다.
20 Newsgroups에는 20개가 넘는 다양한 뉴스의 20,000개 문서가 포함되어 있습니다. 많은 주제가 포함되어 있으며 그중 일부는 내용이 유사할 수 있습니다. 데이터셋에는 세 가지 버전이 포함되어 있는데요, 하나는 초기 형식이고, 하나는 날짜가 제거되었으며, 다른 하나는 중복 항목이 제거되어 있습니다.
산업별 데이터셋
미국 정부 데이터 포털에는 미국이 약속한 모든 정부 데이터가 포함되어 있습니다. 포털을 방문하면 300,000개 이상의 데이터셋(예: 학자금 대출 데이터 또는 의료 서비스 제공업체 청구 데이터)을 검색할 수 있습니다.
- 관련 산업: 정부
유럽 연합 개방형 데이터 포털(European Union Open Data Portal)은 인구 데이터, 교육 등과 같은 유럽 연합 기관의 데이터를 검색하는 방법을 제공합니다.
- 관련 산업: 정부
세계보건기구(WHO)는 세계 기아, 의료, 질병과 같은 중요한 주제를 다루는 데이터를 제공합니다.
- 관련 산업: 헬스케어
Broad Institute는 서열 분석부터 분류까지 암 관련 주제를 다루는 다양한 데이터셋을 제공합니다.
- 관련 산업: 헬스케어
Google Finance는 40년 이상의 주식 시장 데이터를 제공하며 현재도 실시간 업데이트되고 있습니다.
- 관련 산업: 금융
Berkeley DeepDrive는 UC Berkeley에서 제작되었으며 다양한 지리적, 환경적, 기상 조건에 대한 100,000개 이상의 동영상 클립을 제공합니다. 이 클립은 bounding box로 어노테이션 되어 객체, 차선 표시 및 다양한 형태의 분할을 감지합니다. 이러한 데이터셋은 자율주행차 훈련에 사용될 수 있습니다.
- 관련 산업: 자동차
Level5는 차량 공유 회사인 Lyft에서 만들었습니다. 데이터셋에는 특정한 지리적 영역에서 여러 자율주행차가 캡처한 원시 센서 카메라와 LiDAR 데이터가 포함되어 있습니다. 또한 특정 대상 개체의 3D bounding box로 레이블이 지정됩니다.
- 관련 산업: 자동차
USDA 공개 데이터 카탈로그에는 미국 농무부에서 수집한 데이터가 포함되어 있습니다. 주제는 미국 농업의 생산성 측정부터 식인성 질병의 비용 추정에 이르기까지 다양합니다.
- 관련 산업: 농업
Fashion-MNIST에는 10개 클래스에 걸쳐 패션 산업 제품에 대한 약 60,000개의 이미지와 10,000개의 테스트 이미지가 포함되어 있습니다. 이 데이터는 제품 분류 프로젝트에 유용합니다.
- 관련 산업: 소매
eCommerce Search Relevance 데이터셋에는 제품 링크, 페이지에서 해당 제품의 순위, 해당 결과를 제공한 검색어 및 기타 관련 속성이 포함되어 있습니다. 데이터는 5개의 주요 영어 전자상거래 사이트에서 수집되었습니다.
- 관련 산업: 소매
여기에 언급되지 않은 산업의 데이터셋을 찾고 싶으시다면 적절한 산업 태그를 사용하여 위의 데이터 저장소를 검색하시면 됩니다.
세
머신러닝 데이터 인사이트
데이터베이스를 선택할 때 고려해야 할 사항
새 프로젝트를 시작할 때는 충분한 시간을 갖고 데이터셋을 준비하세요. 시작 전 한발 물러서서 애플리케이션이나 서비스가 제공할 사용자 요구 사항을 살펴보는 것도 좋습니다. 데이터셋 선택을 돕는 아래 주요 포인트를 따라가면 여러분의 해답을 찾아보세요.
데이터셋의 하위 집합
데이터셋이 너무 복잡하게 느껴지나요? 이제 두려워하지 마세요. 데이터 전체의 하위 집합을 추출하여 복잡성을 감소시킬 수 있습니다.
여러 데이터셋의 결합
때로는 선택한 데이터셋이 모델 개발에 필요한 데이터셋과 맞지 않을 수도 있습니다. 여러 데이터셋이나 하위 세트를 결합하여 사용 사례의 전체 모집단과 더 유사한 훈련 세트를 구성해 보세요.
API
많은 데이터셋에는 쉬운 데이터 액세스 및 변환을 위한 API 또는 라이브러리가 함께 제공됩니다. 이렇게 하면 AI 개발 초기에 사용되는 시간을 절약할 수 있습니다.
샘플 프로젝트
인기 있는 데이터셋 활용 프로젝트에 참여하고 Github와 같은 저장소를 통해 작업을 공개한 사람들을 찾아볼 수도 있습니다. 데이터를 선택할 때 소스 코드, 모델 또는 사전 학습된 모델을 기초로 사용하거나 참조로 사용하세요.
저작권
소프트웨어와 마찬가지로 데이터셋에도 다양한 유형의 저작권이 있습니다. 일부는 특정 데이터셋에 대한 작업을 공유하도록 요구할 수도 있습니다. 또한 비상업적인 용도로만 응용 프로그램을 제한할 수 있습니다. 일반적인 전략은 코드를 데이터셋에서 최대한 멀리 분리하는 것입니다. 하지만 안전한 방법은 애플리케이션에 대한 데이터셋을 선택하기 전에 법적 조언을 구하는 것입니다.
단기/장기
작업할 첫 번째 데이터셋을 선택하는 등 단기적인 결정을 내릴 때는 장기적인 영향을 고려하는 것이 좋습니다. 큰 그림을 보다 보면 공개 도메인 데이터셋에서 자체 선별된 데이터셋로 전환해야 하는 경우가 발생하기도 하는데요, 처음부터 차선책을 선택하면 시간과 노력 및 예산을 절약할 수 있습니다.
에펜의 데이터셋
기성 데이터셋 보완이 필요하신가요? 그럼 저희 에펜의 데이터 수집 및 가공 서비스와 플랫폼을 통해 ML 모델에 필요한 데이터를 보완해 보세요. 저희는 AI 데이터 글로벌 리더로서 맞춤형 AI 프로그램을 위해 이미지, 동영상, 음성, 오디오 및 텍스트를 포함한 다양한 데이터 유형에 걸쳐 고품질 데이터를 신속하게 제공합니다. 에펜의 25년 이상의 AI 데이터 전문 지식을 바탕으로 여러분의 AI 프로젝트를 성공적으로 지원하겠습니다. 학습 데이터에 대한 상담이 필요하시다면 지금 바로 문의주
데이터셋 지원이 필요하신가요? 데이터 전문가에게 문의하세요.