Dataset

글로벌 시장 진출을 위한 AI 구축, 고품질 데이터셋으로 쉽고 빠르게 시작하세요

전처리 된 데이터셋

전처리 된 데이터셋으로 AI 구축 비용을 낮추고 작업 속도를 높이세요. 수동 작업을 최소화하여 합리적인 예산으로 인공지능 테스트와 프로젝트 품질 검증이 가능해집니다. 에펜은 모든 데이터 유형(이미지, 음성, 텍스트, 동영상 등)을 포함한 400개 이상의 데이터셋을 제공합니다.

음성 인식 데이터셋

  • 64개+ 언어로 된 음성 인식 데이터 5만 시간
  • 전화망, 스마트폰 마이크, 고성능 마이크 및 녹음 장비
  • 107개의 대화 데이터셋 1만 시간
  • 다양한 언어와 주제에 대한 48개의 자유 연설 데이터셋 5만 5천 시간
  • 20개의 자유 연설 데이터셋 2만 시간
  • 특별 데이터셋: 아기 울음소리 70시간, 개와 고양이 소리 70시간, 어린이 음성 등
데이터셋 받아보기

텍스트 데이터셋

  • 523만 항목의 98개 언어를 다루는 발음 사전
  • 326만 항목의 22개 언어를 다루는 품사 사전
  • 100만 개+ 항목을 8개 언어로 지원하는 NER 데이터셋
  • 3가지 언어를 지원하는 어휘 분석기 제공
데이터셋 받아보기

이미지 데이터셋

  • 사진 13,500장, 흑백 머그샷 1,000장
  • 한국어, 영어, 태국어, 힌디어, 스페인어, 핀란드어를 포함한 12,000장의 OCR 이미지
  • 2,196장의 멀티 라벨링 이미지 데이터베이스
  • 멀티 포즈와 다중 조명 인물 사진 680장
데이터셋 받아보기

동영상 데이터셋

  • 0~3세 영유아의 울음소리 100개(각 1분)
  • 한국어, 독일어, 태국어 자막이 있는 동영상
데이터셋 받아보기

음성 합성(TTS) 데이터셋

  • 다국어 데이터셋
  • 20개 이상의 각기 다른 언어를 사용하는 400명의 전문 성우 리소스
데이터셋 받아보기

자동 조종 장치 데이터셋

  • 자동차 및 자동차 번호판 이미지
  • 프랑스어, 네덜란드어, 스페인어, 이탈리아어, 영어, 러시아어 등으로 구성된 차량 내 ASR 데이터셋
데이터셋 받아보기

Use Cases

데이터셋 리스트

필요한 데이터셋을 검색해보세요.

"문의하기”를 클릭하시면 담당 전문가가 연락드립니다.

필터
Data Type
ASR
TTS
Dictionary
Image
Text
Video
Country/Area
South Korea
Asia
North America
South America
Ocreania
Multi-language
Europe
Africa
Use Case
ASR
Conversational AI
Chatbot
Smart Devices
Call center
Virtual assistant
OCR
LLM
Healthcare
Semantic Analysis
Multimodal
Education
TTS
Translation
Smart Cockpit
Autopilot
Image recognition
Language modeling
Speech analysis
지우기
Korean OCR
문의하기
Dataset ID
IMG_KOR_OCR_CN
Type
Image
Language
korea
Language/Region
Mobile phone/tablet/camera
Common application
Image recognition
Lead more
Dataset name :
Korean OCR
Dataset ID :
IMG_KOR_OCR_CN
Description :
Including annotation: Advertisement_2349 Board _119 Business Card/Menu _134 List 212 Map_444 Banner Slogans _106 Shop_47 Excluding annotations: Advertisement_225 Board _13 Business card/menue_21 Checklist_254 Map_106 Banner Slogans _78 Shop-6“
Type :
Image
Language :
korea
Country/Area :
Mobile phone/tablet/camera
Collection equipment :
Multiple lighting options
Collection environment :
Multiple lighting options
Unit :
3724images
With transcription/annotation or not :
Yes
Common application :
Image recognition
Download Sample
Korean NER news text
문의하기
Dataset ID
KOR_NER001
Type
Text
Language
korea
Language/Region
Common application
Language modeling, LLM
Lead more
Dataset name :
Korean NER news text
Dataset ID :
KOR_NER001
Description :
The directory KOR_NER001 contains: * 25 XML encoded files, each of which contains 1000 sentences annotated for named entities. * this file, "KOR_NER001.readme" * a Specifications document, "Appen_NamedEntitySpecifications_KOR_2016.pdf" <BODY> <SENT id="000001" inDocId="4" lastLine="false" lang="KOR"> Sentence Text </SENT> <SENT id="000002" ... ... </SENT> </BODY>
Type :
Text
Language :
korea
Country/Area :
Collection equipment :
Collection environment :
Unit :
25,830 sentences
With transcription/annotation or not :
No
Common application :
Language modeling, LLM
Download Sample
English (United States) conversational smartphone
문의하기
Dataset ID
USE_ASR003
Type
ASR
Language
English
Language/Region
America
Common application
Speech analysis, Virtual assistant, ASR
Lead more
Dataset name :
English (United States) conversational smartphone
Dataset ID :
USE_ASR003
Description :
This database contains voice data recorded during 928 sessions. Each pair of 928 unique speakers recorded an average of about 60 minutes of conversation. Each pair of speakers can record up to 14 conversations about different topics. Provided the speaker with a topic for each conversation.
Type :
ASR
Language :
English
Country/Area :
America
Collection equipment :
Mobile phone
Collection environment :
Low background noise (home/office)
Unit :
1000hours
With transcription/annotation or not :
Yes
Common application :
Speech analysis, Virtual assistant, ASR
Download Sample
Korean (South Korea) Pronunciation Dictionary
문의하기
Dataset ID
kor_KOR_PHON
Type
Dictionary
Language
korea
Language/Region
Common application
Language modeling, TTS, ASR
Lead more
Dataset name :
Korean (South Korea) Pronunciation Dictionary
Dataset ID :
kor_KOR_PHON
Description :
The file format of the lexicon is a plain TXT file encoded in UTF-8.The lexicon contains the following columns. Each column is separated by a<tab> character: 1.Word/Name 2.Transcription 3.Rank 4.Comment (Optional)
Type :
Dictionary
Language :
korea
Country/Area :
Collection equipment :
Collection environment :
Unit :
100,000words
With transcription/annotation or not :
No
Common application :
Language modeling, TTS, ASR
Download Sample
Korean (South Korea) Part of Speech Dictionary
문의하기
Dataset ID
kor_KOR_POS
Type
Dictionary
Language
korea
Language/Region
Common application
ASR, Language modeling, TTS
Lead more
Dataset name :
Korean (South Korea) Part of Speech Dictionary
Dataset ID :
kor_KOR_POS
Description :
The file format of the lexicon is a plain TXT file encoded in UTF-8.The lexicon contains the following columns. Each column is separated by a<tab> character: 1.Word/Name 2.Transcription 3.Rank 4.Comment (Optional)
Type :
Dictionary
Language :
korea
Country/Area :
Collection equipment :
Collection environment :
Unit :
100,000words
With transcription/annotation or not :
No
Common application :
ASR, Language modeling, TTS
Download Sample
Code Q&A Dataset
문의하기
Dataset ID
DM_CNRD,
Type
Text
Language
Language/Region
Common application
Language modeling
Lead more
Dataset name :
Code Q&A Dataset
Dataset ID :
DM_CNRD,
Description :
Code Q&A Dataset
Type :
Text
Language :
Country/Area :
Collection equipment :
Collection environment :
Unit :
12 million pairs
With transcription/annotation or not :
No
Common application :
Language modeling
Download Sample
Natural scene videos and descriptions
문의하기
Dataset ID
VED_ZR_CNRD,
Type
Video
Language
Language/Region
Common application
Multimodal
Lead more
Dataset name :
Natural scene videos and descriptions
Dataset ID :
VED_ZR_CNRD,
Description :
Natural scene videos and descriptions
Type :
Video
Language :
Country/Area :
Collection equipment :
Collection environment :
Unit :
400000
With transcription/annotation or not :
No
Common application :
Multimodal
Download Sample
Indonesian Dialogue Database
문의하기
Dataset ID
IND_DH_ASR001_CN
Type
ASR
Language
Indonesian
Language/Region
Indonesia
Common application
Speech analysis, Virtual assistant, ASR
Lead more
Dataset name :
Indonesian Dialogue Database
Dataset ID :
IND_DH_ASR001_CN
Description :
IND_DH_ASR001_CN is the recording of the conversation between Indonesian locals who speak Indonesian as their native language. Topics include: financial consumption, communication, social hot spots, tourism and shopping, sports and entertainment, digital time, local names, education and learning, medical COVID-19, and scientific and technological digital games. This database contains text transcription and labels have been added to the text.
Type :
ASR
Language :
Indonesian
Country/Area :
Indonesia
Collection equipment :
Mobile phone
Collection environment :
Low background noise (home/office)
Unit :
300hours
With transcription/annotation or not :
Yes
Common application :
Speech analysis, Virtual assistant, ASR
Download Sample
High quality graphics and text for databases
문의하기
Dataset ID
GIMG_CNRD
Type
Image
Language
Language/Region
CHN
Common application
Multimodal
Lead more
Dataset name :
High quality graphics and text for databases
Dataset ID :
GIMG_CNRD
Description :
High quality graphics and text for databases
Type :
Image
Language :
Country/Area :
CHN
Collection equipment :
Collection environment :
Unit :
4000000 images
With transcription/annotation or not :
Yes
Common application :
Multimodal
Download Sample
Arabic image database with annotation
문의하기
Dataset ID
IMG_OCR_ARU002_CN
Type
Image
Language
Arabic
Language/Region
Arab
Common application
Image recognition
Lead more
Dataset name :
Arabic image database with annotation
Dataset ID :
IMG_OCR_ARU002_CN
Description :
Mainly includes the following types of images: billboards, business memos, lists, maps, packaging, slogans, store signs, posters
Type :
Image
Language :
Arabic
Country/Area :
Arab
Collection equipment :
Mobile phone/tablet/camera
Collection environment :
Multiple lighting options
Unit :
15054images
With transcription/annotation or not :
Yes
Common application :
Image recognition
Download Sample
1 / 45

에펜의 고품질 데이터셋

에펜은 다양한 상용 데이터베이스와 700개가 넘는 데이터셋을 제공합니다. 음성 데이터베이스는 80개+ 언어와 방언을 지원하며, TTS나 ASR과 같은 AI 애플리케이션 시나리오에 유용하게 활용됩니다. 에펜의 고품질 데이터셋과 AI 라이프사이클 전 과정에 걸친 솔루션으로 AI 프로젝트를 쉽고 빠르게 시작하세요!

빠른 배포 속도

전처리 된 데이터셋으로 AI와 ML 프로젝트 프로세스를 단축합니다.

저비용 고효율

라이선스가 부여된 기성 데이터셋은 직접 데이터를 수집 및 가공하는 것보다 비용 효율적입니다.

전문가 지원

데이터 수집 및 데이터셋 분야에서 20년 이상 활동해 온 전문가 팀이 함께 합니다.

모든 데이터 유형 지원

이미지, 동영상, 음성, 오디오, 텍스트 등 모든 종류의 데이터셋을 지원합니다.

대규모 데이터 제공

모델을 효율적으로 훈련할 수 있는 대량의 고품질 데이터를 제공합니다.

고품질 데이터 제공

정확하게 전처리 된 데이터를 통해 머신러닝 모델 품질을 개선하고 데이터 편향을 줄입니다.

맞춤형 데이터 수집 및 가공

기업용 AI에 최적화된 맞춤형 데이터셋과 데이터 서비스를 제공합니다. 모든 데이터 유형을 지원하는 에펜의 글로벌 데이터 서비스로 효율적으로 대규모 데이터셋을 생성하세요.

문의하기

데이터 수집 및 가공은 에펜에서!

찾고 계시는 데이터가 있으신가요? 에펜은 모든 데이터 유형에 대한 맞춤형 데이터 수집과 데이터 라벨링 서비스를 제공합니다. 지금 바로 문의하세요.

문의하기
@ 2024 APPEN LIMITED
개인정보처리방침
문의하기