데이터세트 리스트
전처리 된 데이터세트(off-the-shelf datasets)는 AI 프로젝트의 속도를 높일 수 있는 가장 좋은 방법입니다. 또한 고품질 데이터세트를 활용하면 빠르게 원하는 시장에 진입할 수 있으며, 예산이 제한적인 경우에도 높은 비용 효율성을 달성할 수 있습니다.
저희 에펜은 800개 이상의 데이터세트를 제공합니다. 여기에는 10만 시간의 음성 데이터, 50만 장 이미지 데이터, 1억 개 이상의 텍스트 데이터가 포함되며, 80개 이상의 언어와 방언을 지원합니다.
- 해당 분야의 전문가가 제공하는 대규모 고품질 데이터
- 빠른 개발 속도로 저비용, 고효율 지원
- 모든 유형의 데이터 지원
아래의 지원 가능한 데이터세트 리스트에서 필요로 하는 데이터를 찾아보세요.
ASR 데이터세트
에펜은 90개 이상의 언어를 아우르는 170개의 ASR(자동 음성 인식) 데이터를 보유하고 있으며, 총길이는 10만+ 시간에 달합니다. 이 ASR 시리즈는 소수 언어 및 방언 대화 및 읽기 데이터세트, 아기 울음소리, 개 짖는 소리, 고양이 울음소리, 방송 음성 등 특수 음성을 포함하고 있으며, 다양한 산업 분야 주제를 다룹니다.
- 70시간의 아기 울음 데이터세트
- 고양이 울음(35시간) 소리 데이터세트
- 개 짖는 소리(35시간) 데이터세트
- 독일어 대화 데이터세트
- 캐나다 프랑스어 대화 데이터세트
- 프랑스 프랑스어 대화 데이터세트
- 고품질 어린이 목소리의 웨이크업 단어 (차량 내/스마트홈)
- 중국어 회의 음성 데이터세트
- 태국어 전화 대화(1000시간) 데이터세트
- 스페인어 대화 데이터세트
- 이탈리아어 대화 데이터세트
- 힌디어 대화 데이터세트
- 인도네시아어 읽기(250시간) 데이터세트
- 인도네시아어 대화(300시간) 데이터세트
- 인도 영어 전화 녹음 말뭉치 데이터세트
- 영국 영어 전화 대화 데이터세트
- 미국 영어 전화 대화(1000시간) 데이터세트
- 미국 영어 대규모 라벨링 처리된 음성 데이터(1196시간)
이미지 데이터세트
에펜은 50만 개의 이미지 데이터세트를 보유하고 있습니다. 이 이미지 데이터는 소수 언어의 OCR(광학 문자 인식) 이미지 데이터세트를 포함하며, 광고판, 비즈니스 메뉴 등의 다양한 주제를 다룹니다. 또한 차량 후미등, 평면도, 모발 세분화 등을 포함한 특수 데이터세트와 56TB 규모의 50억 개 이미지-텍스트 데이터 쌍도 포함되어 있습니다.
- 차량 후미등 데이터세트
- 한국어 OCR 데이터세트
- 홍콩 및 마카오 OCR 데이터세트
- 아랍어 이미지 데이터세트
- 일본어 청구서 OCR 데이터세트
- 다중 모드 이미지-텍스트 쌍 데이터세트
- 베트남어 이미지 데이터세트
- 모발 세그먼테이션 데이터세트
텍스트 데이터세트
에펜은 180만 개 이상의 항목이 포함된 대규모 언어 모델 학습 데이터세트, 수백만 개의 다중 분야 논문 데이터세트, 수백만 개의 쌍이 포함된 병렬 코퍼스를 지원합니다.
- 영어-베트남어 병렬 말뭉치 데이터세트
- 중국어-영어 병렬 말뭉치 데이터세트
- 영어-버마어 병렬 말뭉치 데이터세트
- 영어-말레이어 병렬 말뭉치 데이터세트
- 영어-타갈로그어 병렬 말뭉치 데이터세트
- 영어-타밀어 병렬 말뭉치 데이터세트
- 금융 관련 영어 & 중국어 문서 데이터세트
- 대규모 언어 모델 금융 보고서 데이터세트
- 뉴스 블로그용 사전 학습 데이터세트
- 영어 의학 문서 데이터세트
- 인체 활동에 따른 에너지 소모량 데이터 수집
- 의학 분야 국제 병렬 말뭉치 데이터세트
사전 데이터세트
에펜이 자체 개발한 사전 데이터세트는 20개 이상의 언어를 포함하며, 다양한 발음을 다룹니다. 이 데이터세트는 명확한 사용 지침과 실제 프로젝트에서 검증된 품질로 높은 신뢰도를 자랑합니다.
- 덴마크어 발음 사전
- 영어(호주/영국/미국) 발음 사전
- 프랑스어 발음 사전
- 독일어 발음 사전
- 이탈리아어 발음 사전
- 일본어 발음 사전
- 한국어 발음 사전
- 노르웨이어 발음 사전
- 포르투갈어(브라질/포르투갈) 발음 사전
- 러시아어 발음 사전
- 스페인어 발음 사전
- 스웨덴어 발음 사전
- 터키어 발음 사전
TTS 데이터세트
에펜은 20개+ 국가에서 수집한 다양한 음색과 감정을 포함한 TTS(Text-to-Speech) 데이터세트를 제공합니다. 각 데이터세트는 고해상도 장비를 기반으로 제작되어 높은 품질을 보장합니다.
- 다양한 연령대 및 감정의 태국어 TTS 데이터세트
- 영어 노래 80곡 데이터세트
- 독일 및 미국 여성의 TTS 데이터세트
- 부드럽고 조용한 여성의 영어 음성 TTS 데이터세트
- 스페인어 녹음 말뭉치
- 이탈리아어 녹음 말뭉치
- 러시아 여성 음성 TTS 데이터세트
- 독일 여성 음성 TTS 데이터세트
동영상 데이터세트
에펜의 동영상 데이터세트는 여러 언어의 읽기 영상을 포함하며, 걷는 동작 데이터세트 및 애완동물 데이터세트와 같은 특수 데이터도 포함합니다.
- 걷는 사람 동영상 데이터세트
- 베트남어 읽기 데이터세트(1080P)
- 필리핀어 읽기 데이터세트(1080P)
- 태국어 읽기 데이터세트(1080P)
- 인도네시아어 읽기 데이터세트(1080P)
- 말레이어 읽기 데이터세트(1080P)
- 목젖 동영상 데이터세트
- 애완동물 및 아기 듀얼 모드 OMS 데이터세트
데이터세트, 에펜과 함께 하세요.
저희 에펜은 이미지, 텍스트, 음성, 오디오, 동영상 등 다양한 AI 학습 데이터를 제공하는 글로벌 기업으로 현재까지 15,000개의 글로벌 AI 개발 및 구축을 성공적으로 지원했습니다.
데이터셋 지원이 필요하신가요? 데이터 전문가에게 문의하세요.