한국어 데이터셋

한국어 데이터셋

AI 및 음성 모델을 위한 고품질 한국 콜센터, 스크립트 독백 및 미디어(팟캐스트) 데이터 세트

회사 개요

제목(언어)

한국어 데이터세트

데이터 세트 유형

콜센터, 미디어 데이터, 스크립트 독백

국가

Korea

기술설명

이 데이터 세트에는 스크립트가 없는 합성 에이전트-고객 전화 대화(5~15분), 1~5명의 참가자가 있는 인터뷰 및 팟캐스트와 같은 라이선스가 가능한 퍼블릭 도메인 오디오/비디오 파일(15~60분), 음성 및 언어 모델 훈련을 위해 미리 정의된 콘텐츠를 전달하는 단일 화자가 등장하는 스크립트화된 독백이 포함됩니다.

적용 사례

ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링

데이터 세트 세부정보

데이터 세트 유형 샘플링 속도 스피커 채널 전체 시간 총 연사 수
센터에 문의 8 kHz 2연설자 이중의 102:27:55 1,244
미디어 데이터 16 kHz 여러 스피커 모노 203:46:54 397
스크립트 독백 24 kHz 단일 스피커 모노 500:00:00 (요청시)
스크립트 독백 48 kHz 단일 스피커 모노 1,955:00:00 (요청시)

주요 클라이언트

팀이 세계 최고의 AI 제품을 구축할 수 있도록 지원합니다.

아마존
구글
Microsoft
샤이프 연락처

찾고 있는 것을 찾을 수 없습니까?

모든 데이터 유형에 걸쳐 새로운 기성 데이터 세트가 수집되고 있습니다.

오디오/스피치 트레이닝 데이터 수집 걱정은 지금 바로 연락주세요.

  • 이 필드는 검증 목적이며 변하지 남아 있어야합니다.
  • 등록함으로써 Shaip에 동의합니다. 개인정보 처리방침 서비스약관 그리고 Shaip의 B2B 마케팅 커뮤니케이션 수신에 동의합니다.