Dataset

글로벌 시장 진출을 위한 AI, 고품질 데이터셋으로 쉽고 빠르게 시작하세요

데이터셋 받아보기

고품질 데이터셋으로 AI 개발이 빨라집니다

전처리된 데이터셋으로 AI 모델을 더 빠르게 학습시키고, 개발 비용을 최적화하세요.

음성 인식(ASR) 데이터셋

90개 언어로 된 오디오 데이터 10만 시간
1만 시간의 대화형 오디오 데이터셋 90개
7만 시간의 낭독 오디오 데이터셋 120개
2만 시간의 스피치 오디오 데이터셋 20개
아기 울음소리 70시간, 개와 고양이 소리 70시간, 어린이 목소리 등 특수 데이터셋

데이터셋 받아보기

LLM 데이터셋

토큰 LLM 데이터셋 81억 개
이미지-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 5만 개
동영상-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 1만 개
생각의 사슬(Chain-of-thoughts) 데이터셋(일본어/한국어/영어) 1만 개

데이터셋 받아보기

이미지 데이터셋

이미지 데이터 600만 개
한국어, 영어, 태국어, 힌디어, 스페인어, 핀란드어를 포함한 OCR 이미지 12,000개
다중 레이블 이미지 데이터베이스 2,196개
다중 포즈 및 다중 조명의 인물 사진 680개

데이터셋 받아보기

동영상 데이터셋

0~3세 영유아의 울음소리 데이터 100개
한국어, 독일어, 태국어 자막이 있는 동영상 데이터

데이터셋 받아보기

텍스트 데이터셋

523만 개의 항목과 98개 언어를 포함하는 발음 사전
326만 개의 항목과 22개 언어를 포함하는 품사 사전
8개 언어로 된 100만 개의 항목이 포함된 NER 데이터셋

데이터셋 받아보기

음성 합성(TTS) 데이터셋

다국어 데이터셋

20개 이상의 각기 다른 언어를 사용하는 400명의 전문 성우 리소스

데이터셋 받아보기

Use Cases

자율주행

운전자 행동 인식 데이터셋: 운전자의 자세와 위험 행동, 피로도 감지

승객 안전 모니터링 데이터셋: 차에 남겨진 어린이나 애완동물 및 위험 품목 식별

차량 내부 음성 데이터셋: 음성 내비게이션과 스마트 드라이빙 구축

차량 외부 데이터셋: 도로의 차선, 장애물 및 주차 공간 식별

데이터셋 받아보기

고객 서비스

자연어 처리 데이터셋: AI와 유사한 대화 프로그램 생성, 스마트 온라인 고객 서비스 지원

TTS 음성 데이터셋: 텍스트 파일 실시간 변환, 자연스러운 음성 스트림 변환

데이터셋 받아보기

스마트 금융

금융 OCR 데이터셋: 텍스트 전사 인식 자동화를 통해 계약 검토나 금융 및 보험 분야의 OCR 지원

데이터셋 받아보기

스마트 홈

음성 인식 데이터셋: 전자 제품의 기능적 프롬프트 및 스마트 상호 작용 지원

장애물 이미지 데이터셋: 로봇 청소기의 물체 식별과 장애물 통과 기능 지원

데이터셋 받아보기

스마트 기기

얼굴 및 음성 인식 데이터셋: 스마트 장치 애플리케이션 배포 지원

데이터셋 받아보기

스마트 보안

얼굴 인식 및 위험 행동 추적 데이터셋: 스마트 보안 인공 지능 구축 지원

데이터셋 받아보기

데이터셋 리스트

필요한 데이터셋을 검색해보세요.

"문의하기”를 클릭하시면 담당 전문가가 연락드립니다.

필터

지우기

데이터셋	데이터 타입	언어	국가	적용 사례
한국어 NER 뉴스 데이터셋	텍스트	한국어	대한민국	LLM, 언어 모델링	문의하기
한국어 OCR 데이터셋	이미지	한국어	대한민국	OCR	문의하기
한국어 품사 사전	품사 사전	한국어	대한민국	ASR, 언어 모델링, TTS	문의하기
한국어 발음 사전	발음 사전	한국어	대한민국	ASR, TTS, 언어 모델링	문의하기
한국어 단일 화자 음성 데이터셋	ASR	한국어	대한민국	ASR, 음성 분석, 가상 비서	문의하기
일본어 영수증/송장 OCR 데이터셋	이미지	일본어	일본	OCR	문의하기
동남아시아 도로 동영상 데이터셋	동영상	혼합	동남아시아 국가 혼합	자동 조종 장치	문의하기
일본어 대화 음성 데이터셋	ASR	일본어	일본	ASR, 대화형 AI, 음성 분석	문의하기
한국어와 중국어 코퍼스 쌍 데이터셋	텍스트	한국어, 중국어	대한민국, 중국	번역	문의하기
영어 프로그래밍 Q&A 데이터셋	텍스트	영어	혼합	번역, LLM	문의하기

한국어 NER 뉴스 데이터셋

문의하기

데이터 타입

텍스트

언어

한국어

국가

대한민국

적용 사례

LLM, 언어 모델링

Lead more

데이터셋 :

한국어 NER 뉴스 데이터셋

언어 :

한국어

데이터셋 ID :

KOR_NER001

국가 :

대한민국

데이터셋 정보 :

라벨링 된 뉴스 문장이 담긴 XML 파일 26개

단위 :

문장 25,830개

데이터 타입 :

텍스트

적용 사례 :

LLM, 언어 모델링

한국어 OCR 데이터셋

문의하기

데이터 타입

이미지

언어

한국어

국가

대한민국

적용 사례

OCR

Lead more

데이터셋 :

한국어 OCR 데이터셋

언어 :

한국어

데이터셋 ID :

IMG_KOR_OCR_CN

국가 :

대한민국

데이터셋 정보 :

광고를 포함한 7개 카테고리의 OCR 데이터셋 (라벨링 된 OCR: 306개, 라벨링 되지 않은 OCR: 2,349개)

단위 :

이미지 153,721개

데이터 타입 :

이미지

적용 사례 :

OCR

수집 환경 :

다양한 조명 조건

수집 기기 :

스마트폰 카메라/카메라

한국어 품사 사전

문의하기

데이터 타입

품사 사전

언어

한국어

국가

대한민국

적용 사례

ASR, 언어 모델링, TTS

Lead more

데이터셋 :

한국어 품사 사전

언어 :

한국어

데이터셋 ID :

kor_KOR_POS

국가 :

대한민국

데이터셋 정보 :

사전은 UTF-8 인코딩된 일반 텍스트(TXT) 파일 형식이며, 각 행은 <tab> 문자로 구분된 네 개의 열로 구성됩니다. 열의 순서는 다음과 같습니다: 1열은 단어 또는 이름, 2열은 전사, 3열은 순위, 4열은 선택 사항인 주석입니다.

단위 :

10만 단어

데이터 타입 :

품사 사전

적용 사례 :

ASR, 언어 모델링, TTS

한국어 발음 사전

문의하기

데이터 타입

발음 사전

언어

한국어

국가

대한민국

적용 사례

ASR, TTS, 언어 모델링

Lead more

데이터셋 :

한국어 발음 사전

언어 :

한국어

데이터셋 ID :

kor_KOR_PHON

국가 :

대한민국

데이터셋 정보 :

단위 :

10만 단어

데이터 타입 :

발음 사전

적용 사례 :

ASR, TTS, 언어 모델링

한국어 단일 화자 음성 데이터셋

문의하기

데이터 타입

ASR

언어

한국어

국가

대한민국

적용 사례

ASR, 음성 분석, 가상 비서

Lead more

데이터셋 :

한국어 단일 화자 음성 데이터셋

언어 :

한국어

데이터셋 ID :

KOR_ASR002_CN

국가 :

대한민국

데이터셋 정보 :

특정 주제가 없는 단일 화자의 총 3.35시간 분량의 음성 데이터셋입니다.

단위 :

3.35시간

데이터 타입 :

ASR

적용 사례 :

ASR, 음성 분석, 가상 비서

수집 환경 :

저소음 (집/사무실)

수집 기기 :

핸드셋 마이크

일본어 영수증/송장 OCR 데이터셋

문의하기

데이터 타입

이미지

언어

일본어

국가

일본

적용 사례

OCR

Lead more

데이터셋 :

일본어 영수증/송장 OCR 데이터셋

언어 :

일본어

데이터셋 ID :

IMG_JP_OCR Invoices_CN

국가 :

일본

데이터셋 정보 :

영수증 326개, 견적서 332개, 주문서 334개를 포함한 일본 영수증 및 송장 이미지 992개

단위 :

이미지 992개

데이터 타입 :

이미지

적용 사례 :

OCR

수집 환경 :

다양한 조명 조건

수집 기기 :

스마트폰 카메라/카메라

동남아시아 도로 동영상 데이터셋

문의하기

데이터 타입

동영상

언어

혼합

국가

동남아시아 국가 혼합

적용 사례

자동 조종 장치

Lead more

데이터셋 :

동남아시아 도로 동영상 데이터셋

언어 :

혼합

데이터셋 ID :

VED_2DLC_CN

국가 :

동남아시아 국가 혼합

데이터셋 정보 :

태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km를 커버하는 도로 동영상 데이터셋

단위 :

태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km

데이터 타입 :

동영상

적용 사례 :

자동 조종 장치

일본어 대화 음성 데이터셋

문의하기

데이터 타입

ASR

언어

일본어

국가

일본

적용 사례

ASR, 대화형 AI, 음성 분석

Lead more

데이터셋 :

일본어 대화 음성 데이터셋

언어 :

일본어

데이터셋 ID :

JAP_ASR002_CN

국가 :

일본

데이터셋 정보 :

이 데이터셋에는 일본어로 녹음된 2~3인 대화가 총 8.5시간 분량으로 수록되어 있습니다. 주제는 정치, 경제, 사회, 스포츠, 문화 등이며, IT, 금융, 건설, 예술, 문학, 기술, 음식, 자연 등 다양한 산업 분야의 비즈니스 회의와 일상 대화를 포함합니다.

단위 :

8.5시간

데이터 타입 :

ASR

적용 사례 :

ASR, 대화형 AI, 음성 분석

수집 환경 :

저소음 (집/사무실)

수집 기기 :

핸드셋 마이크

한국어와 중국어 코퍼스 쌍 데이터셋

문의하기

데이터 타입

텍스트

언어

한국어, 중국어

국가

대한민국, 중국

적용 사례

번역

Lead more

데이터셋 :

한국어와 중국어 코퍼스 쌍 데이터셋

언어 :

한국어, 중국어

데이터셋 ID :

CHN_KOR_corpus_CN

국가 :

대한민국, 중국

데이터셋 정보 :

한국어-중국어 AI 번역 훈련을 위한 10,000개의 문단 쌍

단위 :

10,000쌍

데이터 타입 :

텍스트

적용 사례 :

번역

영어 프로그래밍 Q&A 데이터셋

문의하기

데이터 타입

텍스트

언어

영어

국가

혼합

적용 사례

번역, LLM

Lead more

데이터셋 :

영어 프로그래밍 Q&A 데이터셋

언어 :

영어

데이터셋 ID :

DM_CNRD

국가 :

혼합

데이터셋 정보 :

문제 해결과 코드별 학습을 위한 영어 프로그래밍 질문-답변 쌍

단위 :

1,200만 쌍

데이터 타입 :

텍스트

적용 사례 :

번역, LLM

1 / 39

FAQ

데이터셋 솔루션에 관한 자주 묻는 질문과 답변을 지금 확인해보세요.

AI 데이터셋은 어떤 형식으로 제공되나요? (예: CSV, JSON, 텍스트 등)

저희는 고객사의 요구에 맞춰 CSV, JSON, 텍스트 등 다양한 형식으로 AI 데이터셋을 제공합니다. 요청 시, 원하는 포맷에 맞춘 샘플 데이터도 공유해드릴 수 있으며, 실사용에 최적화된 형태로 데이터 전환 및 제공 서비스를 함께 지원합니다.

특정 케이스에 따라 맞춤형 데이터셋을 받아 볼 수 있나요?

네, 가능합니다. 건별로 요구사항을 사전에 면밀히 검토한 뒤, 데이터의 특성과 활용 목적을 고려하여 최적화된 맞춤형 데이터셋을 제공합니다. 고객사와의 긴밀한 협의를 통해 필요사항을 정확히 파악하여, 이에 맞춰 유연하게 대응합니다.

샘플 데이터셋을 먼저 받아볼 수 있나요?

네, 가능합니다. 고객사와 상담 후 프로젝트 및 고객의 니즈에 적합한 샘플 데이터셋을 제공함으로서 실적용 가능성을 사전에 검토하실 수 있도록 지원해드립니다.

에펜의 데이터셋, 무엇이 다를까요?

빠른 배포 속도

전처리 된 데이터셋으로 AI와 ML 프로젝트 프로세스를 단축합니다.

저비용 고효율

라이선스가 확보된 전처리된 데이터셋은 직접 데이터를 수집 및 가공하는 것보다 비용 효율적입니다.

전문가 지원

데이터셋 분야에서 20년 이상 활동해 온 전문가 팀이 함께 합니다.

모든 데이터 유형 지원

이미지, 동영상, 음성, 오디오, 텍스트 등 모든 종류의 데이터셋을 지원합니다.

대규모 데이터 제공

모델을 효율적으로 훈련할 수 있는 대량의 고품질 데이터를 제공합니다.

고품질 데이터 제공

정확하게 전처리 된 데이터를 통해 머신러닝 모델 품질을 개선하고 데이터 편향을 줄입니다.

기업의 니즈에 맞는 맞춤형 데이터셋을 제공합니다

원하는 언어, 도메인, 포맷으로 완벽하게 맞춤 제작 가능
기업별 요구사항을 반영한 커스텀 데이터 서비스 제공
전 세계 80개국에서 원하는 데이터 수집 & 가공 가능

맞춤형 데이터 요청하기

맞춤형 데이터 요청하기

Resources

2026/07/26

맞춤형 글로벌 데이터셋은 에펜에서!

찾고 계시는 데이터셋이 있으세요? 에펜은 모든 데이터 유형에 대한 맞춤형 데이터셋 서비스를 제공합니다. 지금 바로 문의하세요.

문의하기

Dataset

고품질 데이터셋으로 AI 개발이 빨라집니다

Use Cases

자율주행

고객 서비스

스마트 금융

스마트 홈

스마트 기기

스마트 보안

데이터셋 리스트

FAQ

에펜의 데이터셋, 무엇이 다를까요?

기업의 니즈에 맞는 맞춤형 데이터셋을 제공합니다

기업용 AI 도입하는 법 - A to Z 가이드라인

데이터 오염(Data Poisoning)이란?

AI 로보틱스란? 정의, 활용 사례, 데이터 전략

사내 데이터만으로 로컬 AI를 구축할 수 있다는 착각

에이전트 AI 만들기, 어떤 데이터가 필요할까?

AI 모델 성능 향상하는 방법

맞춤형 글로벌 데이터셋은 에펜에서!