Dataset

글로벌 시장 진출을 위한 AI 구축, 고품질 데이터셋으로 쉽고 빠르게 시작하세요

고품질 데이터셋으로 AI 개발이 빨라집니다

전처리된 데이터셋으로 AI 모델을 더 빠르게 학습시키고, 개발 비용을 최적화하세요.

음성 인식(ASR) 데이터셋

  • 90개 언어로 된 오디오 데이터 10만 시간
  • 1만 시간의 대화형 오디오 데이터셋 90개
  • 7만 시간의 낭독 오디오 데이터셋 120개
  • 2만 시간의 스피치 오디오 데이터셋 20개
  • 아기 울음소리 70시간, 개와 고양이 소리 70시간, 어린이 목소리 등 특수 데이터셋
데이터셋 받아보기

LLM 데이터셋

  • 토큰 LLM 데이터셋 81억 개
  • 이미지-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 5만 개
  • 동영상-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 1만 개
  • 생각의 사슬(Chain-of-thoughts) 데이터셋(일본어/한국어/영어) 1만 개
데이터셋 받아보기

이미지 데이터셋

  • 이미지 데이터 600만 개
  • 한국어, 영어, 태국어, 힌디어, 스페인어, 핀란드어를 포함한 OCR 이미지 12,000개
  • 다중 레이블 이미지 데이터베이스 2,196개
  • 다중 포즈 및 다중 조명의 인물 사진 680개
데이터셋 받아보기

동영상 데이터셋

  • 0~3세 영유아의 울음소리 데이터 100개
  • 한국어, 독일어, 태국어 자막이 있는 동영상 데이터
데이터셋 받아보기

텍스트 데이터셋

  • 523만 개의 항목과 98개 언어를 포함하는 발음 사전
  • 326만 개의 항목과 22개 언어를 포함하는 품사 사전
  • 8개 언어로 된 100만 개의 항목이 포함된 NER 데이터셋
데이터셋 받아보기

음성 합성(TTS) 데이터셋

  • 다국어 데이터셋
  • 20개 이상의 각기 다른 언어를 사용하는 400명의 전문 성우 리소스
데이터셋 받아보기

Use Cases

데이터셋 리스트

필요한 데이터셋을 검색해보세요.

"문의하기”를 클릭하시면 담당 전문가가 연락드립니다.

필터
Data Type
ASR
TTS
Dictionary
Image
Text
Video
Country/Area
South Korea
Asia
North America
South America
Ocreania
Multi-language
Europe
Africa
Use Case
ASR
Conversational AI
Chatbot
Smart Devices
Call center
Virtual assistant
OCR
LLM
Healthcare
Semantic Analysis
Multimodal
Education
TTS
Translation
Smart Cockpit
Autopilot
Image recognition
Language modeling
Speech analysis
지우기
한국어 NER 뉴스 데이터셋
문의하기
Dataset ID
KOR_NER001
Type
Text
Language
한국어
Language/Region
대한민국
Common application
LLM, Language Modeling
Lead more
Dataset name :
한국어 NER 뉴스 데이터셋
Dataset ID :
KOR_NER001
Description :
라벨링 된 뉴스 문장이 담긴 XML 파일 26개
Type :
Text
Language :
한국어
Country/Area :
대한민국
Unit :
문장 25,830개
Common application :
LLM, Language Modeling
한국어 OCR 데이터셋
문의하기
Dataset ID
IMG_KOR_OCR_CN
Type
Image
Language
한국어
Language/Region
대한민국
Common application
OCR
Lead more
Dataset name :
한국어 OCR 데이터셋
Dataset ID :
IMG_KOR_OCR_CN
Description :
광고를 포함한 7개 카테고리의 OCR 데이터셋 (라벨링 된 OCR: 306개, 라벨링 되지 않은 OCR: 2,349개)
Type :
Image
Language :
한국어
Country/Area :
대한민국
Collection equipment :
스마트폰 카메라/카메라
Collection environment :
다양한 조명 조건
Unit :
이미지 153,721개
Common application :
OCR
한국어 품사 사전
문의하기
Dataset ID
kor_KOR_POS
Type
Part of Speech Dictionary
Language
한국어
Language/Region
대한민국
Common application
ASR, Language Modeling, TTS
Lead more
Dataset name :
한국어 품사 사전
Dataset ID :
kor_KOR_POS
Description :
사전은 UTF-8 인코딩된 일반 텍스트(TXT) 파일 형식이며, 각 행은 <tab> 문자로 구분된 네 개의 열로 구성됩니다. 열의 순서는 다음과 같습니다: 1열은 단어 또는 이름, 2열은 전사, 3열은 순위, 4열은 선택 사항인 주석입니다.
Type :
Part of Speech Dictionary
Language :
한국어
Country/Area :
대한민국
Unit :
10만 단어
Common application :
ASR, Language Modeling, TTS
한국어 발음 사전
문의하기
Dataset ID
kor_KOR_PHON
Type
Pronunciation Dictionary
Language
한국어
Language/Region
대한민국
Common application
ASR, TTS, Language Modeling
Lead more
Dataset name :
한국어 발음 사전
Dataset ID :
kor_KOR_PHON
Description :
사전은 UTF-8 인코딩된 일반 텍스트(TXT) 파일 형식이며, 각 행은 <tab> 문자로 구분된 네 개의 열로 구성됩니다. 열의 순서는 다음과 같습니다: 1열은 단어 또는 이름, 2열은 전사, 3열은 순위, 4열은 선택 사항인 주석입니다.
Type :
Pronunciation Dictionary
Language :
한국어
Country/Area :
대한민국
Unit :
10만 단어
Common application :
ASR, TTS, Language Modeling
한국어 단일 화자 음성 데이터셋
문의하기
Dataset ID
KOR_ASR002_CN
Type
ASR
Language
한국어
Language/Region
대한민국
Common application
ASR, Speech Analysis, Virtual Assistant
Lead more
Dataset name :
한국어 단일 화자 음성 데이터셋
Dataset ID :
KOR_ASR002_CN
Description :
특정 주제가 없는 단일 화자의 총 3.35시간 분량의 음성 데이터셋입니다.
Type :
ASR
Language :
한국어
Country/Area :
대한민국
Collection equipment :
핸드셋 마이크
Collection environment :
저소음 (집/사무실)
Unit :
3.35시간
Common application :
ASR, Speech Analysis, Virtual Assistant
일본어 영수증/송장 OCR 데이터셋
문의하기
Dataset ID
IMG_JP_OCR Invoices_CN
Type
Image
Language
일본어
Language/Region
일본
Common application
OCR
Lead more
Dataset name :
일본어 영수증/송장 OCR 데이터셋
Dataset ID :
IMG_JP_OCR Invoices_CN
Description :
영수증 326개, 견적서 332개, 주문서 334개를 포함한 일본 영수증 및 송장 이미지 992개
Type :
Image
Language :
일본어
Country/Area :
일본
Collection equipment :
스마트폰 카메라/카메라
Collection environment :
다양한 조명 조건
Unit :
이미지 992개
Common application :
OCR
동남아시아 도로 동영상 데이터셋
문의하기
Dataset ID
VED_2DLC_CN
Type
Video
Language
혼합
Language/Region
동남아시아 국가 혼합
Common application
Autopilot
Lead more
Dataset name :
동남아시아 도로 동영상 데이터셋
Dataset ID :
VED_2DLC_CN
Description :
태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km를 커버하는 도로 동영상 데이터셋
Type :
Video
Language :
혼합
Country/Area :
동남아시아 국가 혼합
Unit :
태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km
Common application :
Autopilot
일본어 대화 음성 데이터셋
문의하기
Dataset ID
JAP_ASR002_CN
Type
ASR
Language
일본어
Language/Region
일본
Common application
ASR, Conversational AI, Speech Analysis
Lead more
Dataset name :
일본어 대화 음성 데이터셋
Dataset ID :
JAP_ASR002_CN
Description :
이 데이터셋에는 일본어로 녹음된 2~3인 대화가 총 8.5시간 분량으로 수록되어 있습니다. 주제는 정치, 경제, 사회, 스포츠, 문화 등이며, IT, 금융, 건설, 예술, 문학, 기술, 음식, 자연 등 다양한 산업 분야의 비즈니스 회의와 일상 대화를 포함합니다.
Type :
ASR
Language :
일본어
Country/Area :
일본
Collection equipment :
핸드셋 마이크
Collection environment :
저소음 (집/사무실)
Unit :
8.5시간
Common application :
ASR, Conversational AI, Speech Analysis
한국어와 중국어 코퍼스 쌍 데이터셋
문의하기
Dataset ID
CHN_KOR_corpus_CN
Type
Text
Language
한국어, 중국어
Language/Region
대한민국, 중국
Common application
Translation
Lead more
Dataset name :
한국어와 중국어 코퍼스 쌍 데이터셋
Dataset ID :
CHN_KOR_corpus_CN
Description :
한국어-중국어 AI 번역 훈련을 위한 10,000개의 문단 쌍
Type :
Text
Language :
한국어, 중국어
Country/Area :
대한민국, 중국
Unit :
10,000쌍
Common application :
Translation
영어 프로그래밍 Q&A 데이터셋
문의하기
Dataset ID
DM_CNRD
Type
Text
Language
영어
Language/Region
혼합
Common application
Translation, LLM
Lead more
Dataset name :
영어 프로그래밍 Q&A 데이터셋
Dataset ID :
DM_CNRD
Description :
문제 해결과 코드별 학습을 위한 영어 프로그래밍 질문-답변 쌍
Type :
Text
Language :
영어
Country/Area :
혼합
Unit :
1,200만 쌍
Common application :
Translation, LLM
1 / 39

FAQ

데이터셋 솔루션에 관한 자주 묻는 질문과 답변을 지금 확인해보세요.

1
AI 데이터셋은 어떤 형식으로 제공되나요? (예: CSV, JSON, 텍스트 등)
-

저희는 고객사의 요구에 맞춰 CSV, JSON, 텍스트 등 다양한 형식으로 AI 데이터셋을 제공합니다. 요청 시, 원하는 포맷에 맞춘 샘플 데이터도 공유해드릴 수 있으며, 실사용에 최적화된 형태로 데이터 전환 및 제공 서비스를 함께 지원합니다.

2
특정 케이스에 따라 맞춤형 데이터셋을 받아 볼 수 있나요?
+

네, 가능합니다. 건별로 요구사항을 사전에 면밀히 검토한 뒤, 데이터의 특성과 활용 목적을 고려하여 최적화된 맞춤형 데이터셋을 제공합니다. 고객사와의 긴밀한 협의를 통해 필요사항을 정확히 파악하여, 이에 맞춰 유연하게 대응합니다.

3
샘플 데이터셋을 먼저 받아볼 수 있나요?
+

네, 가능합니다. 고객사와 상담 후 프로젝트 및 고객의 니즈에 적합한 샘플 데이터셋을 제공함으로서 실적용 가능성을 사전에 검토하실 수 있도록 지원해드립니다.

에펜의 데이터셋, 무엇이 다를까요?

빠른 배포 속도

전처리 된 데이터셋으로 AI와 ML 프로젝트 프로세스를 단축합니다.

저비용 고효율

라이선스가 확보된 전처리된 데이터셋은 직접 데이터를 수집 및 가공하는 것보다 비용 효율적입니다.

전문가 지원

데이터셋 분야에서 20년 이상 활동해 온 전문가 팀이 함께 합니다.

모든 데이터 유형 지원

이미지, 동영상, 음성, 오디오, 텍스트 등 모든 종류의 데이터셋을 지원합니다.

대규모 데이터 제공

모델을 효율적으로 훈련할 수 있는 대량의 고품질 데이터를 제공합니다.

고품질 데이터 제공

정확하게 전처리 된 데이터를 통해 머신러닝 모델 품질을 개선하고 데이터 편향을 줄입니다.

AI 모델에 딱 맞춘 데이터셋을 제공합니다.

  • 원하는 언어, 도메인, 포맷으로 완벽하게 맞춤 제작 가능
  • 기업별 요구사항을 반영한 커스텀 데이터 서비스 제공
  • 전 세계 80개국에서 원하는 데이터 수집 & 가공 가능
맞춤형 데이터 요청하기

데이터 수집 및 가공은 에펜에서!

찾고 계시는 데이터셋이 있으신가요? 에펜은 모든 데이터 유형에 대한 맞춤형 데이터셋 서비스를 제공합니다. 지금 바로 문의하세요.

문의하기
@ 2024 APPEN LIMITED
개인정보처리방침
문의하기