사례 연구: 발언 수집
7개 언어로 된 다국어 디지털 비서 구축을 위해 13백만 개 이상의 음성 전달
실제 세계 솔루션
글로벌 대화를 지원하는 데이터
모든 고객이 스크립트 형식으로 음성 비서와 상호 작용하거나 질문하는 동안 정확한 단어나 구문을 사용하는 것은 아니기 때문에 Utterance 교육이 필요합니다. 그렇기 때문에 특정 음성 응용 프로그램은 자발적인 음성 데이터에 대해 교육을 받아야 합니다. 예: "가장 가까운 병원이 어디에 있습니까?" "가까운 병원 찾기" 또는 "주변에 병원이 있나요?" 모두 동일한 검색 의도를 나타내지만 표현이 다릅니다.
문제
전 세계 언어에 대한 고객의 Digital Assistant 음성 로드맵을 실행하기 위해 팀은 음성 인식 AI 모델에 대한 대량의 교육 데이터를 수집해야 했습니다. 클라이언트의 중요한 요구 사항은 다음과 같습니다.
- 전 세계 3개 언어로 된 음성 인식 서비스를 위한 대용량 교육 데이터(단일 화자 발화 프롬프트 길이 30~13초 이내) 획득
- 각 언어에 대해 공급업체는 화자가 녹음할 텍스트 프롬프트를 생성합니다.
클라이언트 공급) 및 결과 오디오를 전사합니다. - 해당 JSON 파일과 함께 녹음된 발화의 오디오 데이터 및 전사 제공
모든 녹음에 대한 메타데이터를 포함합니다. - 연령, 성별, 교육 및 방언에 따라 다양한 화자 혼합 보장
- 사양에 따라 다양한 녹음 환경 혼합을 보장합니다.
- 각 오디오 녹음은 최소 16kHz이지만 바람직하게는 44kHz여야 합니다.
“많은 공급업체를 평가한 후 클라이언트는 대화형 AI 프로젝트에 대한 전문성 때문에 Shaip을 선택했습니다. 우리는 Shaip의 프로젝트 실행 능력, 엄격한 일정과 요구되는 품질 내에서 전문 언어학자로부터 13개 언어로 필요한 발언을 소싱, 필사 및 전달하는 전문 지식에 깊은 인상을 받았습니다.”
솔루션
대화형 AI에 대한 깊은 이해를 바탕으로 고객이 전문 언어학자 및 주석가 팀과 함께 데이터를 수집, 전사 및 주석 처리하여 AI 기반 음성 처리 다국어 음성 제품군을 훈련하도록 도왔습니다.
Shaip의 작업 범위에는 음성 인식을 위한 대량의 오디오 교육 데이터 획득, Tier 1 및 Tier 2 언어 로드맵의 모든 언어에 대해 여러 언어로 오디오 녹음을 전사하고 해당하는 JSON 메타데이터가 포함된 파일. Shaip은 복잡한 프로젝트를 위한 ML 모델을 교육하는 데 필요한 품질 수준을 원하는 수준으로 유지하면서 대규모로 3~30초의 발언을 수집했습니다.
- 오디오 수집, 필사 및 주석: 22,250 시간
- 지원되는 언어 : 13(덴마크어, 한국어, 사우디아라비아 아랍어, 네덜란드어, 본토 및 대만 중국어, 프랑스어 캐나다, 멕시코 스페인어, 터키어, 힌디어, 폴란드어, 일본어, 러시아어)
- 발언 횟수: 7M +
- 타임 라인 : 7-8 개월
16kHz에서 오디오 발화를 수집하면서 다양한 녹음 환경에서 연령, 성별, 학력 및 방언별로 화자의 건강한 혼합을 보장했습니다.
우리의 전문성
추천 자료
블로그
2021년 대화형 AI 현황
대화형 AI 2021 인포그래픽은 대화형 AI가 무엇인지, 진화, 유형, 지역별 대화형 AI 시장, 사용 사례, 과제 등에 대해 설명합니다.
블로그
대화 형 AI 진화의 3 가지 장애물
Shaip은 필요한 주석이 달린 오디오 데이터를 50개 이상의 언어로 제공함으로써 고객 참여 도구로서 대화형 AI의 진화를 가속화하고 있습니다.
다음 AI 이니셔티브를 지원하는 방법을 알려주세요.