지금 받기 50% 할인* 대화형 AI 기성 데이터 세트
챗봇, 음성 지원, 음성 지원 장치용 음성 및 오디오 데이터세트입니다.
*기간 한정 혜택
업계 리더의 신뢰
세부 정보 | 키워드 | 기성 언어 데이터세트 | 콜센터 대화 8khz* | 일반 대화 8khz* | 미디어 및 팟캐스트 16khz* | 발화/대본이 있는 독백 16khz* | 시간 단위의 총 볼륨 | 방언이 다뤄짐 | 오디오 형식 | 텍스트 전사 형식 | 적용 사례 | 출처 | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
아프리카 어 | 아프리칸스어 오디오 데이터세트 | 600 | 900 | 1500 | 아프리카에서 사용되는 아프리칸스어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
아랍어 | 아랍어 오디오 데이터세트 | 800 | 1500 | 2300 | 걸프 국가의 아랍어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
중국어 | 중국어 오디오 데이터세트 | 2000 | 2000 | 중국에서 온 중국인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
덴마크 말 | 덴마크어 오디오 데이터세트 | 400 | 600 | 2000 | 3000 | 덴마크 출신 덴마크인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
Dutch | 네덜란드 오디오 데이터세트 | 2000 | 2000 | 네덜란드 출신 네덜란드인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
영어 - AAVE 악센트 | 영어 - AAVE(African American Vernacular English) 오디오 데이터세트 | 500 | 500 | 1000 | 토속어의 다양성(AAVE라고도 하며 일반적으로 대다수의 노동자 및 중산층 아프리카계 미국인이 사용함)과 좀 더 표준적인 다양성(일반적으로 공식 및 공개 상황에서 중산층 아프리카계 미국인이 사용함)이 더 강조되어 있습니다. 우리말로. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
영어 - 보스턴/뉴욕 액센트 | 영어 - 보스턴/뉴욕 오디오 데이터세트 | 225 | 225 | 350 | 800 | 이것은 보스턴, 뉴욕, 필라델피아 도시 안팎에서 사용되는 여러 지역 억양의 모음입니다. 이러한 악센트는 현지인이 아닌 사람들과 유사하게 들릴 수 있지만 다른 미국 악센트와는 다릅니다. 영어권 세계의 다른 지역과 다른 일부 지역 어휘에도 불구하고 이러한 액센트는 다른 곳에서 사용되는 영어와 상호 이해할 수 있습니다. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
영어 - 중국어 악센트 | 영어 - 중국어 악센트 오디오 데이터세트 | 150 | 300 | 450 | 중국어를 모국어로 사용하고 XNUMX대/성인 때 미국으로 이주/이주했으며 영어를 제XNUMX외국어로 배운 화자입니다. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
영어 - 딥 사우스 액센트 | 영어 - Deep South 오디오 데이터세트 | 275 | 275 | 450 | 1000 | (i) 텍사스 출신의 연사; (ii) 노스캐롤라이나, 사우스캐롤라이나, 조지아; (iii) 뉴올리언스; (iv) 플로리다 팬핸들; (v) 테네시, 아칸소, 미시간. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
영어 - 히스패닉 악센트 | 영어 - 히스패닉 악센트 오디오 데이터세트 | 400 | 400 | 800 | 히스패닉 영어는 다양한 국가적 전통을 지닌 히스패닉계 미국인이 사용하는 다양한 미국 영어를 의미합니다. 주요 초점은 다양한 출신 국가(예: 멕시코, 푸에르토리코, 도미니카 공화국, 에콰도르, 쿠바 등)와 다양한 지역(예: 캘리포니아, 뉴욕, 플로리다) 출신의 멕시코계 미국인이었습니다. 포함된 연사 중에는 스페인어를 모국어로 사용하는 사람과 전통 언어를 사용하는 스페인어를 사용하는 히스패닉계 사용자도 포함되었습니다. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
영어 - 뉴질랜드 악센트 | 영어 - 뉴질랜드 오디오 데이터세트 | 250 | 750 | 1000 | 젊은 화자(40세 미만)와 나이 많은 화자(40세 이상)가 동일한 비율로 혼합된 두 섬의 화자입니다. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
영어 - 싱가포르 악센트 | 영어 - 싱가포르 오디오 데이터세트 | 400 | 600 | 1000 | 표준 싱가포르 영어와 구어체 싱가포르 영어가 모두 포함됩니다. 다양한 인종적 배경(예: 중국인, 말레이인, 인도인 등)과 다양한 교육 수준을 지닌 싱가포르인. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
영어 - 남아프리카 악센트 | 영어 - 남아프리카 오디오 데이터세트 | 400 | 600 | 1000 | 다양한 사회경제적 계층과 민족적 배경을 지닌 대표자들(예: 유럽, 아프리카, 인도계 남아프리카공화국인 또는 혼합 배경). | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
영어 - 아일랜드 악센트 | 영어 - 아일랜드어 오디오 데이터세트 | 500 | 500 | 아일랜드에서 사용되는 영어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
영어 - 스코틀랜드 악센트 | 영어 - 스코틀랜드 오디오 데이터세트 | 800 | 800 | 스코틀랜드인이 사용하는 영어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
영어 - 웨일스어 악센트 | 영어 - 웨일스어 오디오 데이터세트 | 800 | 800 | 웨일스 영어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
프랑스어 캐나다 | 프랑스어(캐나다) 오디오 데이터세트 | 1000 | 1000 | 캐나다 불어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
히브리어 | 히브리어 오디오 데이터세트 | 750 | 750 | 1500 | 이스라엘의 히브리어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
인도네시아 인 | 인도네시아어 오디오 데이터세트 | 1000 | 1000 | 2000 | 바하사 인도네시아어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
일본제 | 일본어 오디오 데이터세트 | 2000 | 2000 | 일본에서 온 일본인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
한국어 | 한국어 오디오 데이터세트 | 100 | 200 | 1500 | 1800 | 연사들은 한국 전역에 퍼졌습니다. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
Malay | 말레이어 오디오 데이터세트 | 500 | 500 | 1000 | 말레이시아의 말레이어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
멕시코 스페인어 | 멕시코 스페인어 오디오 데이터세트 | 1250 | 1250 | 멕시코에서 온 멕시코인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
광택 | 폴란드어 오디오 데이터세트 | 250 | 2000 | 2250 | 폴란드 출신 폴란드인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
러시아인 | 러시아어 오디오 데이터세트 | 2000 | 2000 | 러시아에서 온 러시아어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
스와힐리어 | 스와힐리어 오디오 데이터세트 | 350 | 650 | 1000 | 남아프리카공화국 및 케냐 스와힐리어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
스웨덴어 | 스웨덴어 오디오 데이터세트 | 350 | 650 | 1000 | 스웨덴의 스웨덴어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
대만 중국어 | 대만 중국어 오디오 데이터세트 | 1000 | 1000 | 대만 출신 중국인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
태국어 | 태국어 오디오 데이터세트 | 350 | 450 | 800 | 친구 사이에 사용되는 비공식 등록부, | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
터키의 | 터키어 오디오 데이터세트 | 2000 | 2000 | 터키 출신 터키인 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||||
베트남어 | 베트남어 오디오 데이터세트 | 600 | 400 | 1000 | 북부(예: 하노이), 중부 및 남부(예: 호치민시). | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
힌디 어 | 힌디어 오디오 데이터세트 | 800 | 2000 | 2800 | 인도, 특히 북부, 동부 및 서부 지역의 힌디어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
힝글 리쉬 | 인도 영어 오디오 데이터세트 | 300 | 500 | 800 | 경제적 기회 증가로 인해 인도의 금융 허브인 도시 인도 도시에서 수집되었습니다. 이러한 장소는 Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad 등이 될 수 있습니다. | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||
영어 | 영어 오디오 데이터세트 | 700 | 700 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | |||||
칸나다어 | 칸나다어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 인도 카르나타카주 칸나다어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
말라얄람어 | 말라얄람어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 케랄라, 락샤드위프, 푸두체리 출신 말라얄람어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
오리 야 | 오리야어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 오디샤(Odisha), 서벵골(West Bengal), 자르칸드(Jharkhand) 및 차티스가르(Chhattisgarh) 일부 지역의 오리야 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
펀 자브 | 펀자브어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 인도 펀자브 출신의 펀자브어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
타밀 사람 | 타밀어 오디오 데이터세트 | 60 | 100 | 240 | 400 | 인도 타밀나두 출신의 타밀어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
텔루구어 | 텔루구어 오디오 데이터세트 | 100 | 950 | 950 | 2000 | 인도 안드라프라데시주 텔루구어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
벵골어 | 벵골어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 인도 서벵골 출신의 벵골어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
구자라트어 | 구자라트어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 인도 구자라트 출신의 구자라트어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
마라타어 | 마라티어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 인도 마하라슈트라 출신의 마라티어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact | ||
아삼어 | 아삼어 오디오 데이터세트 | 60 | 100 | 40 | 200 | 인도 아삼 출신의 아삼어 | . WAV | .json | ASR, 가상 비서, 챗봇, 대화형 AI, 음성 분석, TTS, 언어 모델링 | 샤이프 | Contact Contact |
대화형 AI에 대한 깊은 전문성
대화형 AI 또는 챗봇 또는 가상/디지털 비서는 그 이면에 있는 기술 및 데이터만큼 똑똑합니다. Shaip에서는 AI에 생명을 불어넣을 수 있도록 실제 사람들과의 대화를 모방하는 자연어 처리(NLP)용 다양한 오디오 데이터 세트를 제공합니다. 깊은 이해를 바탕으로 전 세계의 여러 언어로 된 풍부하고 구조화된 데이터 세트를 사용하여 AI 지원 음성 모델을 최대한 정확하게 구축하고 현지화하도록 돕습니다. 요구 사항에 따라 다국어 오디오 수집, 오디오 녹취 및 오디오 주석 서비스를 제공하는 동시에 원하는 의도, 발화 및 인구 통계 분포를 완전히 사용자 정의합니다.
스크립트 음성 모음
자발성 모음
오디오 데이터 전사
데이터 레이블 지정 및 주석
Shaip을 사용하면 대화형 AI 플랫폼을 정확하게 교육하여 다음을 수행할 수 있습니다.
- 여러 채널에서 원활하게 대화, 텍스트 및 채팅을 할 수 있습니다.
- 채팅, 음성 기록, 거래 등의 형태로 기존 상호 작용에서 배우고 이러한 학습을 기반으로 제안 및 대화합니다.
- 인간의 말 뒤에 숨은 의도를 이해하고 인간 언어 이해의 모호성을 제거합니다.
- 일대일로 귀하와 상호 작용하고 사용자를 식별하고 과거 대화를 기억하도록 훈련받을 수 있습니다.
대화형 AI 교육 데이터의 세계적인 리더
100개 이상의 언어로 된 오디오 데이터 시간 - 출처, 필사 및 주석
음성 데이터 라이선스
콜 센터, 토론, 일반 대화, 연설, 팟캐스트 등 다양한 도메인의 20개 이상의 주제를 다루는 40개 이상의 언어 및 방언으로 된 55시간 이상의 음성 데이터.
음성 데이터 수집
AI 요구 사항에 맞게 맞춤화된 전 세계 2개 이상의 언어로 오디오 및 음성 데이터(독백, 100인 대화, 인간-봇 채팅)를 수집합니다.
음성 데이터 전사
TAT, 정확성 및 절감 효과가 보장된 30,000명의 강력한 협력자로 구성된 강력한 인력을 통해 비용 효율적인 오디오 전사 또는 오디오 주석 제공
샤이프의 장점
규모
우리는 귀하의 요구 사항에 따라 전 세계의 여러 언어 및 방언으로 오디오 데이터를 소싱, 확장 및 제공할 수 있습니다.
전문성
정확하고 편향되지 않은 데이터 수집, 전사 및 표준 주석에 관한 올바른 전문 지식을 보유하고 있습니다.
네트워크
AI 교육 모델 및 확장 서비스를 구축하기 위해 데이터 수집 작업을 신속하게 할당할 수 있는 30,000명 이상의 자격을 갖춘 기여자로 구성된 네트워크입니다.
Technology
우리는 24시간 연중무휴로 워크플로 관리를 활용할 수 있는 독점 도구 및 프로세스를 갖춘 완전한 AI 기반 플랫폼을 보유하고 있습니다.
민첩
우리는 고객 요구 사항의 변화에 매우 빠르게 적응하고 경쟁사보다 5~10배 빠른 고품질 음성 데이터로 AI 개발을 가속화하는 데 도움을 줍니다.
보안
우리는 데이터 보안 및 개인 정보 보호를 가장 중요하게 생각하며 규제가 엄격한 민감한 데이터를 처리할 수 있는 인증도 받았습니다.
우리가 가장 잘하는 일
훈련 데이터
짧은 시간 안에 최고 품질의 레이블이 지정된 데이터를 얻을 수 있습니다. 최고 수준의 성능을 달성하기 위해 AI 및 ML 모델을 훈련할 준비가 되어 있고 신뢰할 수 있는 최고의 표준입니다.
데이터 수집, 레이블 지정 및 주석
Shaip을 사용하면 양질의 데이터를 수집, 전사 및 주석 처리하는 15년 이상의 입증된 전문 지식을 얻을 수 있습니다. 당사의 글로벌 인력을 통해 전 세계에서 데이터를 수집한 다음 귀하의 데이터에 필요한 기술 수준과 전문 지식을 완벽하게 갖춘 라벨링 및 주석 서비스를 제공할 수 있습니다.
데이터 카탈로그 및 라이선스
수백만 개의 데이터 세트에 대한 방대한 인벤토리를 통해 필요에 따라 수집하고 구성할 수 있습니다. 그런 다음 특정 AI 및 ML 사용 요구 사항에 대해 해당 품질 데이터에 라이선스를 부여할 수 있습니다. 또한 이 데이터는 직접 생성하는 경우 적은 비용으로 사용할 수 있습니다.
나만의 데이터 세트를 구축하고 싶으신가요?
고유한 AI 솔루션을 위한 맞춤형 데이터 세트를 수집하는 방법을 알아보려면 지금 문의하십시오.