Dataset

글로벌 시장 진출을 위한 AI 구축, 고품질 데이터셋으로 쉽고 빠르게 시작하세요

데이터셋 받아보기

고품질 데이터셋으로 AI 개발이 빨라집니다

전처리된 데이터셋으로 AI 모델을 더 빠르게 학습시키고, 개발 비용을 최적화하세요.

음성 인식(ASR) 데이터셋

90개 언어로 된 오디오 데이터 10만 시간
1만 시간의 대화형 오디오 데이터셋 90개
7만 시간의 낭독 오디오 데이터셋 120개
2만 시간의 스피치 오디오 데이터셋 20개
아기 울음소리 70시간, 개와 고양이 소리 70시간, 어린이 목소리 등 특수 데이터셋

데이터셋 받아보기

LLM 데이터셋

토큰 LLM 데이터셋 81억 개
이미지-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 5만 개
동영상-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 1만 개
생각의 사슬(Chain-of-thoughts) 데이터셋(일본어/한국어/영어) 1만 개

데이터셋 받아보기

이미지 데이터셋

이미지 데이터 600만 개
한국어, 영어, 태국어, 힌디어, 스페인어, 핀란드어를 포함한 OCR 이미지 12,000개
다중 레이블 이미지 데이터베이스 2,196개
다중 포즈 및 다중 조명의 인물 사진 680개

데이터셋 받아보기

동영상 데이터셋

0~3세 영유아의 울음소리 데이터 100개
한국어, 독일어, 태국어 자막이 있는 동영상 데이터

데이터셋 받아보기

텍스트 데이터셋

523만 개의 항목과 98개 언어를 포함하는 발음 사전
326만 개의 항목과 22개 언어를 포함하는 품사 사전
8개 언어로 된 100만 개의 항목이 포함된 NER 데이터셋

데이터셋 받아보기

음성 합성(TTS) 데이터셋

다국어 데이터셋

20개 이상의 각기 다른 언어를 사용하는 400명의 전문 성우 리소스

데이터셋 받아보기

Use Cases

자율주행

운전자 행동 인식 데이터셋: 운전자의 자세와 위험 행동, 피로도 감지

승객 안전 모니터링 데이터셋: 차에 남겨진 어린이나 애완동물 및 위험 품목 식별

차량 내부 음성 데이터셋: 음성 내비게이션과 스마트 드라이빙 구축

차량 외부 데이터셋: 도로의 차선, 장애물 및 주차 공간 식별

데이터셋 받아보기

고객 서비스

자연어 처리 데이터셋: AI와 유사한 대화 프로그램 생성, 스마트 온라인 고객 서비스 지원

TTS 음성 데이터셋: 텍스트 파일 실시간 변환, 자연스러운 음성 스트림 변환

데이터셋 받아보기

스마트 금융

금융 OCR 데이터셋: 텍스트 전사 인식 자동화를 통해 계약 검토나 금융 및 보험 분야의 OCR 지원

데이터셋 받아보기

스마트 홈

음성 인식 데이터셋: 전자 제품의 기능적 프롬프트 및 스마트 상호 작용 지원

장애물 이미지 데이터셋: 로봇 청소기의 물체 식별과 장애물 통과 기능 지원

데이터셋 받아보기

스마트 기기

얼굴 및 음성 인식 데이터셋: 스마트 장치 애플리케이션 배포 지원

데이터셋 받아보기

스마트 보안

얼굴 인식 및 위험 행동 추적 데이터셋: 스마트 보안 인공 지능 구축 지원

데이터셋 받아보기

데이터셋 리스트

필요한 데이터셋을 검색해보세요.

"문의하기”를 클릭하시면 담당 전문가가 연락드립니다.

필터

지우기

Dataset name	Dataset ID	Type	Language	Language/Region	Common application
한국어 NER 뉴스 데이터셋	KOR_NER001	Text	한국어	대한민국	LLM, Language Modeling	문의하기
한국어 OCR 데이터셋	IMG_KOR_OCR_CN	Image	한국어	대한민국	OCR	문의하기
한국어 품사 사전	kor_KOR_POS	Part of Speech Dictionary	한국어	대한민국	ASR, Language Modeling, TTS	문의하기
한국어 발음 사전	kor_KOR_PHON	Pronunciation Dictionary	한국어	대한민국	ASR, TTS, Language Modeling	문의하기
한국어 단일 화자 음성 데이터셋	KOR_ASR002_CN	ASR	한국어	대한민국	ASR, Speech Analysis, Virtual Assistant	문의하기
일본어 영수증/송장 OCR 데이터셋	IMG_JP_OCR Invoices_CN	Image	일본어	일본	OCR	문의하기
동남아시아 도로 동영상 데이터셋	VED_2DLC_CN	Video	혼합	동남아시아 국가 혼합	Autopilot	문의하기
일본어 대화 음성 데이터셋	JAP_ASR002_CN	ASR	일본어	일본	ASR, Conversational AI, Speech Analysis	문의하기
한국어와 중국어 코퍼스 쌍 데이터셋	CHN_KOR_corpus_CN	Text	한국어, 중국어	대한민국, 중국	Translation	문의하기
영어 프로그래밍 Q&A 데이터셋	DM_CNRD	Text	영어	혼합	Translation, LLM	문의하기

한국어 NER 뉴스 데이터셋

문의하기

Dataset ID

KOR_NER001

Type

Text

Language

한국어

Language/Region

대한민국

Common application

LLM, Language Modeling

Lead more

Dataset name :

한국어 NER 뉴스 데이터셋

Dataset ID :

KOR_NER001

Description :

라벨링 된 뉴스 문장이 담긴 XML 파일 26개

Type :

Text

Language :

한국어

Country/Area :

대한민국

Unit :

문장 25,830개

Common application :

LLM, Language Modeling

한국어 OCR 데이터셋

문의하기

Dataset ID

IMG_KOR_OCR_CN

Type

Image

Language

한국어

Language/Region

대한민국

Common application

OCR

Lead more

Dataset name :

한국어 OCR 데이터셋

Dataset ID :

IMG_KOR_OCR_CN

Description :

광고를 포함한 7개 카테고리의 OCR 데이터셋 (라벨링 된 OCR: 306개, 라벨링 되지 않은 OCR: 2,349개)

Type :

Image

Language :

한국어

Country/Area :

대한민국

Collection equipment :

스마트폰 카메라/카메라

Collection environment :

다양한 조명 조건

Unit :

이미지 153,721개

Common application :

OCR

한국어 품사 사전

문의하기

Dataset ID

kor_KOR_POS

Type

Part of Speech Dictionary

Language

한국어

Language/Region

대한민국

Common application

ASR, Language Modeling, TTS

Lead more

Dataset name :

한국어 품사 사전

Dataset ID :

kor_KOR_POS

Description :

사전은 UTF-8 인코딩된 일반 텍스트(TXT) 파일 형식이며, 각 행은 <tab> 문자로 구분된 네 개의 열로 구성됩니다. 열의 순서는 다음과 같습니다: 1열은 단어 또는 이름, 2열은 전사, 3열은 순위, 4열은 선택 사항인 주석입니다.

Type :

Part of Speech Dictionary

Language :

한국어

Country/Area :

대한민국

Unit :

10만 단어

Common application :

ASR, Language Modeling, TTS

한국어 발음 사전

문의하기

Dataset ID

kor_KOR_PHON

Type

Pronunciation Dictionary

Language

한국어

Language/Region

대한민국

Common application

ASR, TTS, Language Modeling

Lead more

Dataset name :

한국어 발음 사전

Dataset ID :

kor_KOR_PHON

Description :

Type :

Pronunciation Dictionary

Language :

한국어

Country/Area :

대한민국

Unit :

10만 단어

Common application :

ASR, TTS, Language Modeling

한국어 단일 화자 음성 데이터셋

문의하기

Dataset ID

KOR_ASR002_CN

Type

ASR

Language

한국어

Language/Region

대한민국

Common application

ASR, Speech Analysis, Virtual Assistant

Lead more

Dataset name :

한국어 단일 화자 음성 데이터셋

Dataset ID :

KOR_ASR002_CN

Description :

특정 주제가 없는 단일 화자의 총 3.35시간 분량의 음성 데이터셋입니다.

Type :

ASR

Language :

한국어

Country/Area :

대한민국

Collection equipment :

핸드셋 마이크

Collection environment :

저소음 (집/사무실)

Unit :

3.35시간

Common application :

ASR, Speech Analysis, Virtual Assistant

일본어 영수증/송장 OCR 데이터셋

문의하기

Dataset ID

IMG_JP_OCR Invoices_CN

Type

Image

Language

일본어

Language/Region

일본

Common application

OCR

Lead more

Dataset name :

일본어 영수증/송장 OCR 데이터셋

Dataset ID :

IMG_JP_OCR Invoices_CN

Description :

영수증 326개, 견적서 332개, 주문서 334개를 포함한 일본 영수증 및 송장 이미지 992개

Type :

Image

Language :

일본어

Country/Area :

일본

Collection equipment :

스마트폰 카메라/카메라

Collection environment :

다양한 조명 조건

Unit :

이미지 992개

Common application :

OCR

동남아시아 도로 동영상 데이터셋

문의하기

Dataset ID

VED_2DLC_CN

Type

Video

Language

혼합

Language/Region

동남아시아 국가 혼합

Common application

Autopilot

Lead more

Dataset name :

동남아시아 도로 동영상 데이터셋

Dataset ID :

VED_2DLC_CN

Description :

태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km를 커버하는 도로 동영상 데이터셋

Type :

Video

Language :

혼합

Country/Area :

동남아시아 국가 혼합

Unit :

태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km

Common application :

Autopilot

일본어 대화 음성 데이터셋

문의하기

Dataset ID

JAP_ASR002_CN

Type

ASR

Language

일본어

Language/Region

일본

Common application

ASR, Conversational AI, Speech Analysis

Lead more

Dataset name :

일본어 대화 음성 데이터셋

Dataset ID :

JAP_ASR002_CN

Description :

이 데이터셋에는 일본어로 녹음된 2~3인 대화가 총 8.5시간 분량으로 수록되어 있습니다. 주제는 정치, 경제, 사회, 스포츠, 문화 등이며, IT, 금융, 건설, 예술, 문학, 기술, 음식, 자연 등 다양한 산업 분야의 비즈니스 회의와 일상 대화를 포함합니다.

Type :

ASR

Language :

일본어

Country/Area :

일본

Collection equipment :

핸드셋 마이크

Collection environment :

저소음 (집/사무실)

Unit :

8.5시간

Common application :

ASR, Conversational AI, Speech Analysis

한국어와 중국어 코퍼스 쌍 데이터셋

문의하기

Dataset ID

CHN_KOR_corpus_CN

Type

Text

Language

한국어, 중국어

Language/Region

대한민국, 중국

Common application

Translation

Lead more

Dataset name :

한국어와 중국어 코퍼스 쌍 데이터셋

Dataset ID :

CHN_KOR_corpus_CN

Description :

한국어-중국어 AI 번역 훈련을 위한 10,000개의 문단 쌍

Type :

Text

Language :

한국어, 중국어

Country/Area :

대한민국, 중국

Unit :

10,000쌍

Common application :

Translation

영어 프로그래밍 Q&A 데이터셋

문의하기

Dataset ID

DM_CNRD

Type

Text

Language

영어

Language/Region

혼합

Common application

Translation, LLM

Lead more

Dataset name :

영어 프로그래밍 Q&A 데이터셋

Dataset ID :

DM_CNRD

Description :

문제 해결과 코드별 학습을 위한 영어 프로그래밍 질문-답변 쌍

Type :

Text

Language :

영어

Country/Area :

혼합

Unit :

1,200만 쌍

Common application :

Translation, LLM

1 / 39

FAQ

데이터셋 솔루션에 관한 자주 묻는 질문과 답변을 지금 확인해보세요.

AI 데이터셋은 어떤 형식으로 제공되나요? (예: CSV, JSON, 텍스트 등)

저희는 고객사의 요구에 맞춰 CSV, JSON, 텍스트 등 다양한 형식으로 AI 데이터셋을 제공합니다. 요청 시, 원하는 포맷에 맞춘 샘플 데이터도 공유해드릴 수 있으며, 실사용에 최적화된 형태로 데이터 전환 및 제공 서비스를 함께 지원합니다.

특정 케이스에 따라 맞춤형 데이터셋을 받아 볼 수 있나요?

네, 가능합니다. 건별로 요구사항을 사전에 면밀히 검토한 뒤, 데이터의 특성과 활용 목적을 고려하여 최적화된 맞춤형 데이터셋을 제공합니다. 고객사와의 긴밀한 협의를 통해 필요사항을 정확히 파악하여, 이에 맞춰 유연하게 대응합니다.

샘플 데이터셋을 먼저 받아볼 수 있나요?

네, 가능합니다. 고객사와 상담 후 프로젝트 및 고객의 니즈에 적합한 샘플 데이터셋을 제공함으로서 실적용 가능성을 사전에 검토하실 수 있도록 지원해드립니다.

에펜의 데이터셋, 무엇이 다를까요?

빠른 배포 속도

전처리 된 데이터셋으로 AI와 ML 프로젝트 프로세스를 단축합니다.

저비용 고효율

라이선스가 확보된 전처리된 데이터셋은 직접 데이터를 수집 및 가공하는 것보다 비용 효율적입니다.

전문가 지원

데이터셋 분야에서 20년 이상 활동해 온 전문가 팀이 함께 합니다.

모든 데이터 유형 지원

이미지, 동영상, 음성, 오디오, 텍스트 등 모든 종류의 데이터셋을 지원합니다.

대규모 데이터 제공

모델을 효율적으로 훈련할 수 있는 대량의 고품질 데이터를 제공합니다.

고품질 데이터 제공

정확하게 전처리 된 데이터를 통해 머신러닝 모델 품질을 개선하고 데이터 편향을 줄입니다.

AI 모델에 딱 맞춘 데이터셋을 제공합니다.

원하는 언어, 도메인, 포맷으로 완벽하게 맞춤 제작 가능
기업별 요구사항을 반영한 커스텀 데이터 서비스 제공
전 세계 80개국에서 원하는 데이터 수집 & 가공 가능

맞춤형 데이터 요청하기

맞춤형 데이터 요청하기

Resources

2026/02/23

데이터 수집 및 가공은 에펜에서!

찾고 계시는 데이터셋이 있으신가요? 에펜은 모든 데이터 유형에 대한 맞춤형 데이터셋 서비스를 제공합니다. 지금 바로 문의하세요.

문의하기

Dataset

고품질 데이터셋으로 AI 개발이 빨라집니다

Use Cases

자율주행

고객 서비스

스마트 금융

스마트 홈

스마트 기기

스마트 보안

데이터셋 리스트

FAQ

에펜의 데이터셋, 무엇이 다를까요?

AI 모델에 딱 맞춘 데이터셋을 제공합니다.

에이전트 AI 만들기, 어떤 데이터가 필요할까?

AI 모델 성능 향상하는 방법

2026년을 대비하는 기업이 지금부터 준비하는 AI 데이터 전략

임베디드 AI란? 정의, 한계, 로봇 구축에 필요한 데이터

이커머스 AI란? 온라인 쇼핑을 바꾸는 인공지능

다국어 번역 AI 품질 개선하는 법

데이터 수집 및 가공은 에펜에서!