데이터세트 리스트

2024/12/18

전처리 된 데이터세트(off-the-shelf datasets)는 AI 프로젝트의 속도를 높일 수 있는 가장 좋은 방법입니다. 또한 고품질 데이터세트를 활용하면 빠르게 원하는 시장에 진입할 수 있으며, 예산이 제한적인 경우에도 높은 비용 효율성을 달성할 수 있습니다.

저희 에펜은 800개 이상의 데이터세트를 제공합니다. 여기에는 10만 시간의 음성 데이터, 50만 장 이미지 데이터, 1억 개 이상의 텍스트 데이터가 포함되며, 80개 이상의 언어와 방언을 지원합니다.

해당 분야의 전문가가 제공하는 대규모 고품질 데이터
빠른 개발 속도로 저비용, 고효율 지원
모든 유형의 데이터 지원

아래의 지원 가능한 데이터세트 리스트에서 필요로 하는 데이터를 찾아보세요.

ASR 데이터세트

에펜은 90개 이상의 언어를 아우르는 170개의 ASR(자동 음성 인식) 데이터를 보유하고 있으며, 총길이는 10만+ 시간에 달합니다. 이 ASR 시리즈는 소수 언어 및 방언 대화 및 읽기 데이터세트, 아기 울음소리, 개 짖는 소리, 고양이 울음소리, 방송 음성 등 특수 음성을 포함하고 있으며, 다양한 산업 분야 주제를 다룹니다.

70시간의 아기 울음 데이터세트
고양이 울음(35시간) 소리 데이터세트
개 짖는 소리(35시간) 데이터세트
독일어 대화 데이터세트
캐나다 프랑스어 대화 데이터세트
프랑스 프랑스어 대화 데이터세트
고품질 어린이 목소리의 웨이크업 단어 (차량 내/스마트홈)
중국어 회의 음성 데이터세트
태국어 전화 대화(1000시간) 데이터세트
스페인어 대화 데이터세트
이탈리아어 대화 데이터세트
힌디어 대화 데이터세트
인도네시아어 읽기(250시간) 데이터세트
인도네시아어 대화(300시간) 데이터세트
인도 영어 전화 녹음 말뭉치 데이터세트
영국 영어 전화 대화 데이터세트
미국 영어 전화 대화(1000시간) 데이터세트
미국 영어 대규모 라벨링 처리된 음성 데이터(1196시간)

이미지 데이터세트

에펜은 50만 개의 이미지 데이터세트를 보유하고 있습니다. 이 이미지 데이터는 소수 언어의 OCR (광학 문자 인식) 이미지 데이터세트를 포함하며, 광고판, 비즈니스 메뉴 등의 다양한 주제를 다룹니다. 또한 차량 후미등, 평면도, 모발 세분화 등을 포함한 특수 데이터세트와 56TB 규모의 50억 개 이미지-텍스트 데이터 쌍도 포함되어 있습니다.

차량 후미등 데이터세트
한국어 OCR 데이터세트
홍콩 및 마카오 OCR 데이터세트
아랍어 이미지 데이터세트
일본어 청구서 OCR 데이터세트
다중 모드 이미지-텍스트 쌍 데이터세트
베트남어 이미지 데이터세트
모발 세그먼테이션 데이터세트

텍스트 데이터세트

에펜은 180만 개 이상의 항목이 포함된 대규모 언어 모델 학습 데이터세트, 수백만 개의 다중 분야 논문 데이터세트, 수백만 개의 쌍이 포함된 병렬 코퍼스를 지원합니다.

영어-베트남어 병렬 말뭉치 데이터세트
중국어-영어 병렬 말뭉치 데이터세트
영어-버마어 병렬 말뭉치 데이터세트
영어-말레이어 병렬 말뭉치 데이터세트
영어-타갈로그어 병렬 말뭉치 데이터세트
영어-타밀어 병렬 말뭉치 데이터세트
금융 관련 영어 & 중국어 문서 데이터세트
대규모 언어 모델 금융 보고서 데이터세트
뉴스 블로그용 사전 학습 데이터세트
영어 의학 문서 데이터세트
인체 활동에 따른 에너지 소모량 데이터 수집
의학 분야 국제 병렬 말뭉치 데이터세트

사전 데이터세트

에펜이 자체 개발한 사전 데이터세트는 20개 이상의 언어를 포함하며, 다양한 발음을 다룹니다. 이 데이터세트는 명확한 사용 지침과 실제 프로젝트에서 검증된 품질로 높은 신뢰도를 자랑합니다.

덴마크어 발음 사전
영어(호주/영국/미국) 발음 사전
프랑스어 발음 사전
독일어 발음 사전
이탈리아어 발음 사전
일본어 발음 사전
한국어 발음 사전
노르웨이어 발음 사전
포르투갈어(브라질/포르투갈) 발음 사전
러시아어 발음 사전
스페인어 발음 사전
스웨덴어 발음 사전
터키어 발음 사전

TTS 데이터세트

에펜은 20개+ 국가에서 수집한 다양한 음색과 감정을 포함한 TTS(Text-to-Speech) 데이터세트를 제공합니다. 각 데이터세트는 고해상도 장비를 기반으로 제작되어 높은 품질을 보장합니다.

다양한 연령대 및 감정의 태국어 TTS 데이터세트
영어 노래 80곡 데이터세트
독일 및 미국 여성의 TTS 데이터세트
부드럽고 조용한 여성의 영어 음성 TTS 데이터세트
스페인어 녹음 말뭉치
이탈리아어 녹음 말뭉치
러시아 여성 음성 TTS 데이터세트
독일 여성 음성 TTS 데이터세트

동영상 데이터세트

에펜의 동영상 데이터세트는 여러 언어의 읽기 영상을 포함하며, 걷는 동작 데이터세트 및 애완동물 데이터세트와 같은 특수 데이터도 포함합니다.

걷는 사람 동영상 데이터세트
베트남어 읽기 데이터세트(1080P)
필리핀어 읽기 데이터세트(1080P)
태국어 읽기 데이터세트(1080P)
인도네시아어 읽기 데이터세트(1080P)
말레이어 읽기 데이터세트(1080P)
목젖 동영상 데이터세트
애완동물 및 아기 듀얼 모드 OMS 데이터세트

데이터세트, 에펜과 함께 하세요.

저희 에펜은 이미지, 텍스트, 음성, 오디오, 동영상 등 다양한 AI 학습 데이터를 제공하는 글로벌 기업으로 현재까지 15,000개의 글로벌 AI 개발 및 구축을 성공적으로 지원했습니다.

데이터셋 지원이 필요하신가요? 데이터 전문가에게 문의하세요.

문의하기