Dataset

글로벌 시장 진출을 위한 AI 구축, 고품질 데이터셋으로 쉽고 빠르게 시작하세요

고품질 데이터셋으로 AI 개발이 빨라집니다

전처리된 데이터셋으로 AI 모델을 더 빠르게 학습시키고, 개발 비용을 최적화하세요.

음성 인식(ASR) 데이터셋

  • 90개 언어로 된 오디오 데이터 10만 시간
  • 1만 시간의 대화형 오디오 데이터셋 90개
  • 7만 시간의 낭독 오디오 데이터셋 120개
  • 2만 시간의 스피치 오디오 데이터셋 20개
  • 아기 울음소리 70시간, 개와 고양이 소리 70시간, 어린이 목소리 등 특수 데이터셋
데이터셋 받아보기

LLM 데이터셋

  • 토큰 LLM 데이터셋 81억 개
  • 이미지-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 5만 개
  • 동영상-텍스트 쌍 멀티모달 데이터셋(일본어/한국어/영어) 1만 개
  • 생각의 사슬(Chain-of-thoughts) 데이터셋(일본어/한국어/영어) 1만 개
데이터셋 받아보기

이미지 데이터셋

  • 이미지 데이터 600만 개
  • 한국어, 영어, 태국어, 힌디어, 스페인어, 핀란드어를 포함한 OCR 이미지 12,000개
  • 다중 레이블 이미지 데이터베이스 2,196개
  • 다중 포즈 및 다중 조명의 인물 사진 680개
데이터셋 받아보기

동영상 데이터셋

  • 0~3세 영유아의 울음소리 데이터 100개
  • 한국어, 독일어, 태국어 자막이 있는 동영상 데이터
데이터셋 받아보기

텍스트 데이터셋

  • 523만 개의 항목과 98개 언어를 포함하는 발음 사전
  • 326만 개의 항목과 22개 언어를 포함하는 품사 사전
  • 8개 언어로 된 100만 개의 항목이 포함된 NER 데이터셋
데이터셋 받아보기

음성 합성(TTS) 데이터셋

  • 다국어 데이터셋
  • 20개 이상의 각기 다른 언어를 사용하는 400명의 전문 성우 리소스
데이터셋 받아보기

Use Cases

데이터셋 리스트

필요한 데이터셋을 검색해보세요.

"문의하기”를 클릭하시면 담당 전문가가 연락드립니다.

필터
데이터 유형
ASR
TTS
동영상
발음 사전
이미지
텍스트
품사 사전
지역
대한민국
남미
북미
아시아
아프리카
오세아니아
유럽
여러 국가 혼합
적용 사례
ASR
LLM
OCR
TTS
가상 비서
고객 서비스
교육
대화형 AI
멀티모달
문서 처리
번역
스마트 디바이스
스마트 보안
스마트 콕핏
언어 모델링
이미지 인식
음성 분석
의미 분석
자동 조종 장치
챗봇
캡션 생성
프롬프트 엔지니어링
헬스케어
지우기
한국어 NER 뉴스 데이터셋
문의하기
데이터 타입
이미지
언어
한국어
국가
대한민국
적용 사례
대화형 AI, 의미 분석
Lead more
데이터셋 :
한국어 NER 뉴스 데이터셋
언어 :
한국어
데이터셋 ID :
KOR_NER001
국가 :
대한민국
데이터셋 정보 :
라벨링 된 한국어 뉴스 문장이 담긴 XML 파일 26개
단위 :
문장 25,830개
데이터 타입 :
이미지
적용 사례 :
대화형 AI, 의미 분석
한국어 OCR 데이터셋
문의하기
데이터 타입
발음 사전
언어
한국어
국가
대한민국
적용 사례
교육
Lead more
데이터셋 :
한국어 OCR 데이터셋
언어 :
한국어
데이터셋 ID :
IMG_KOR_OCR_CN
국가 :
대한민국
데이터셋 정보 :
광고를 포함한 7개 카테고리의 한국어 OCR 데이터셋 (라벨링 된 OCR: 306개, 라벨링 되지 않은 OCR: 2,349개)
단위 :
이미지 153,721개
데이터 타입 :
발음 사전
적용 사례 :
교육
수집 환경 :
다양한 조명 조건
수집 기기 :
스마트폰 카메라/카메라
한국어(대한민국) 품사 사전
문의하기
데이터 타입
동영상
언어
한국어
국가
대한민국
적용 사례
의미 분석, 스마트 보안, ASR
Lead more
데이터셋 :
한국어(대한민국) 품사 사전
언어 :
한국어
데이터셋 ID :
kor_KOR_POS
국가 :
대한민국
데이터셋 정보 :
사전 형식 사양: • 파일 형식: UTF-8 인코딩된 일반 TXT 파일 • 구조: <tab> 문자로 구분된 다음 열로 구성됩니다. 1. 단어/이름 2. 전사 3. 순위 4. 주석(선택 사항)
단위 :
10만 단어
데이터 타입 :
동영상
적용 사례 :
의미 분석, 스마트 보안, ASR
한국어(대한민국) 발음 사전
문의하기
데이터 타입
품사 사전
언어
한국어
국가
대한민국
적용 사례
의미 분석, 스마트 보안, ASR
Lead more
데이터셋 :
한국어(대한민국) 발음 사전
언어 :
한국어
데이터셋 ID :
kor_KOR_PHON
국가 :
대한민국
데이터셋 정보 :
사전 형식 사양: • 파일 형식: UTF-8 인코딩된 일반 TXT 파일 • 구조: <tab> 문자로 구분된 다음 열로 구성됩니다. 1. 단어/이름 2. 전사 3. 순위 4. 주석(선택 사항)
단위 :
10만 단어
데이터 타입 :
품사 사전
적용 사례 :
의미 분석, 스마트 보안, ASR
한국어(대한민국) 단일 화자 음성 데이터셋
문의하기
데이터 타입
ASR
언어
한국어
국가
대한민국
적용 사례
고객 서비스, 자동 조종 장치, ASR
Lead more
데이터셋 :
한국어(대한민국) 단일 화자 음성 데이터셋
언어 :
한국어
데이터셋 ID :
KOR_ASR002_CN
국가 :
대한민국
데이터셋 정보 :
특정 주제가 없는 단일 화자의 총 3.35시간 분량의 한국어 음성 데이터셋입니다.
단위 :
3.35시간
데이터 타입 :
ASR
적용 사례 :
고객 서비스, 자동 조종 장치, ASR
수집 환경 :
저소음 (집/사무실)
수집 기기 :
핸드셋 마이크
일본 영수증/송장 OCR 데이터셋
문의하기
데이터 타입
발음 사전
언어
일본어
국가
일본
적용 사례
교육
Lead more
데이터셋 :
일본 영수증/송장 OCR 데이터셋
언어 :
일본어
데이터셋 ID :
IMG_JP_OCR Invoices_CN
국가 :
일본
데이터셋 정보 :
영수증 326개, 견적서 332개, 주문서 334개를 포함한 일본 영수증 및 송장 이미지 992개
단위 :
이미지 992개
데이터 타입 :
발음 사전
적용 사례 :
교육
수집 환경 :
다양한 조명 조건
수집 기기 :
스마트폰 카메라/카메라
동남아시아 도로 동영상 데이터셋
문의하기
데이터 타입
텍스트
언어
해당 없음
국가
해당 없음
적용 사례
이미지 인식
Lead more
데이터셋 :
동남아시아 도로 동영상 데이터셋
언어 :
해당 없음
데이터셋 ID :
VED_2DLC_CN
국가 :
해당 없음
데이터셋 정보 :
태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km를 커버하는 도로 동영상 데이터셋
단위 :
태국 14,000km, 말레이시아 7,000km, 싱가포르 1,000km, 홍콩 1,000km
데이터 타입 :
텍스트
적용 사례 :
이미지 인식
일본어 대화 음성 데이터셋
문의하기
데이터 타입
ASR
언어
일본어
국가
일본
적용 사례
자동 조종 장치, LLM, ASR
Lead more
데이터셋 :
일본어 대화 음성 데이터셋
언어 :
일본어
데이터셋 ID :
JAP_ASR002_CN
국가 :
일본
데이터셋 정보 :
이 데이터셋에는 일본어로 녹음된 2~3인 대화가 총 8.5시간 분량으로 수록되어 있습니다. 주제는 정치, 경제, 사회, 스포츠, 문화 등이며, IT, 금융, 건설, 예술, 문학, 기술, 음식, 자연 등 다양한 산업 분야의 비즈니스 회의와 일상 대화를 포함합니다.
단위 :
8.5시간
데이터 타입 :
ASR
적용 사례 :
자동 조종 장치, LLM, ASR
수집 환경 :
저소음 (집/사무실)
수집 기기 :
핸드셋 마이크
한국어와 중국어 코퍼스 쌍 데이터셋
문의하기
데이터 타입
이미지
언어
한국어 & 중국어
국가
대한민국
적용 사례
스마트 콕핏
Lead more
데이터셋 :
한국어와 중국어 코퍼스 쌍 데이터셋
언어 :
한국어 & 중국어
데이터셋 ID :
CHN_KOR_corpus_CN
국가 :
대한민국
데이터셋 정보 :
한국어-중국어 AI 번역 훈련을 위한 10,000개의 문단 쌍
단위 :
10,000쌍
데이터 타입 :
이미지
적용 사례 :
스마트 콕핏
영어 프로그래밍 Q&A 데이터셋
문의하기
데이터 타입
이미지
언어
영어
국가
해당 없음
적용 사례
스마트 콕핏, 대화형 AI
Lead more
데이터셋 :
영어 프로그래밍 Q&A 데이터셋
언어 :
영어
데이터셋 ID :
DM_CNRD
국가 :
해당 없음
데이터셋 정보 :
문제 해결과 코드별 학습을 위한 영어 프로그래밍 질문-답변 쌍
단위 :
1,200만 쌍
데이터 타입 :
이미지
적용 사례 :
스마트 콕핏, 대화형 AI
1 / 39

FAQ

데이터셋 솔루션에 관한 자주 묻는 질문과 답변을 지금 확인해보세요.

1
AI 데이터셋은 어떤 형식으로 제공되나요? (예: CSV, JSON, 텍스트 등)
-

저희는 고객사의 요구에 맞춰 CSV, JSON, 텍스트 등 다양한 형식으로 AI 데이터셋을 제공합니다. 요청 시, 원하는 포맷에 맞춘 샘플 데이터도 공유해드릴 수 있으며, 실사용에 최적화된 형태로 데이터 전환 및 제공 서비스를 함께 지원합니다.

2
특정 케이스에 따라 맞춤형 데이터셋을 받아 볼 수 있나요?
+

네, 가능합니다. 건별로 요구사항을 사전에 면밀히 검토한 뒤, 데이터의 특성과 활용 목적을 고려하여 최적화된 맞춤형 데이터셋을 제공합니다. 고객사와의 긴밀한 협의를 통해 필요사항을 정확히 파악하여, 이에 맞춰 유연하게 대응합니다.

3
샘플 데이터셋을 먼저 받아볼 수 있나요?
+

네, 가능합니다. 고객사와 상담 후 프로젝트 및 고객의 니즈에 적합한 샘플 데이터셋을 제공함으로서 실적용 가능성을 사전에 검토하실 수 있도록 지원해드립니다.

에펜의 데이터셋, 무엇이 다를까요?

빠른 배포 속도

전처리 된 데이터셋으로 AI와 ML 프로젝트 프로세스를 단축합니다.

저비용 고효율

라이선스가 확보된 전처리된 데이터셋은 직접 데이터를 수집 및 가공하는 것보다 비용 효율적입니다.

전문가 지원

데이터셋 분야에서 20년 이상 활동해 온 전문가 팀이 함께 합니다.

모든 데이터 유형 지원

이미지, 동영상, 음성, 오디오, 텍스트 등 모든 종류의 데이터셋을 지원합니다.

대규모 데이터 제공

모델을 효율적으로 훈련할 수 있는 대량의 고품질 데이터를 제공합니다.

고품질 데이터 제공

정확하게 전처리 된 데이터를 통해 머신러닝 모델 품질을 개선하고 데이터 편향을 줄입니다.

AI 모델에 딱 맞춘 데이터셋을 제공합니다.

  • 원하는 언어, 도메인, 포맷으로 완벽하게 맞춤 제작 가능
  • 기업별 요구사항을 반영한 커스텀 데이터 서비스 제공
  • 전 세계 80개국에서 원하는 데이터 수집 & 가공 가능
맞춤형 데이터 요청하기

데이터 수집 및 가공은 에펜에서!

찾고 계시는 데이터셋이 있으신가요? 에펜은 모든 데이터 유형에 대한 맞춤형 데이터셋 서비스를 제공합니다. 지금 바로 문의하세요.

문의하기
@ 2024 APPEN LIMITED
개인정보처리방침
문의하기