사례 연구: 발언 수집

7개 언어로 된 다국어 디지털 비서 구축을 위해 13백만 개 이상의 음성 전달

발화 모음

실제 세계 솔루션

글로벌 대화를 지원하는 데이터

모든 고객이 스크립트 형식으로 음성 비서와 상호 작용하거나 질문하는 동안 정확한 단어나 구문을 사용하는 것은 아니기 때문에 Utterance 교육이 필요합니다. 그렇기 때문에 특정 음성 응용 프로그램은 자발적인 음성 데이터에 대해 교육을 받아야 합니다. 예: "가장 가까운 병원이 어디에 있습니까?" "가까운 병원 찾기" 또는 "주변에 병원이 있나요?" 모두 동일한 검색 의도를 나타내지만 표현이 다릅니다.

발화 모음1

문제

전 세계 언어에 대한 고객의 Digital Assistant 음성 로드맵을 실행하기 위해 팀은 음성 인식 AI 모델에 대한 대량의 교육 데이터를 수집해야 했습니다. 클라이언트의 중요한 요구 사항은 다음과 같습니다.

  • 전 세계 3개 언어로 된 음성 인식 서비스를 위한 대용량 교육 데이터(단일 화자 발화 프롬프트 길이 30~13초 이내) 획득
  • 각 언어에 대해 공급업체는 화자가 녹음할 텍스트 프롬프트를 생성합니다.
    클라이언트 공급) 및 결과 오디오를 전사합니다.
  • 해당 JSON 파일과 함께 녹음된 발화의 오디오 데이터 및 전사 제공
    모든 녹음에 대한 메타데이터를 포함합니다.
  • 연령, 성별, 교육 및 방언에 따라 다양한 화자 혼합 보장
  • 사양에 따라 다양한 녹음 환경 혼합을 보장합니다.
  • 각 오디오 녹음은 최소 16kHz이지만 바람직하게는 44kHz여야 합니다.

대화형 AI 가속화
100% 애플리케이션 개발

“많은 공급업체를 평가한 후 클라이언트는 대화형 AI 프로젝트에 대한 전문성 때문에 Shaip을 선택했습니다. 우리는 Shaip의 프로젝트 실행 능력, 엄격한 일정과 요구되는 품질 내에서 전문 언어학자로부터 13개 언어로 필요한 발언을 소싱, 필사 및 전달하는 전문 지식에 깊은 인상을 받았습니다.”

솔루션

대화형 AI에 대한 깊은 이해를 바탕으로 고객이 전문 언어학자 및 주석가 팀과 함께 데이터를 수집, 전사 및 주석 처리하여 AI 기반 음성 처리 다국어 음성 제품군을 훈련하도록 도왔습니다.

Shaip의 작업 범위에는 음성 인식을 위한 대량의 오디오 교육 데이터 획득, Tier 1 및 Tier 2 언어 로드맵의 모든 언어에 대해 여러 언어로 오디오 녹음을 전사하고 해당하는 JSON 메타데이터가 포함된 파일. Shaip은 복잡한 프로젝트를 위한 ML 모델을 교육하는 데 필요한 품질 수준을 원하는 수준으로 유지하면서 대규모로 3~30초의 발언을 수집했습니다.

  • 오디오 수집, 필사 및 주석: 22,250 시간
  • 지원되는 언어 : 13(덴마크어, 한국어, 사우디아라비아 아랍어, 네덜란드어, 본토 및 대만 중국어, 프랑스어 캐나다, 멕시코 스페인어, 터키어, 힌디어, 폴란드어, 일본어, 러시아어)
  • 발언 횟수: 7M +
  • 타임 라인 : 7-8 개월

16kHz에서 오디오 발화를 수집하면서 다양한 녹음 환경에서 연령, 성별, 학력 및 방언별로 화자의 건강한 혼합을 보장했습니다.

결과

전문 언어학자의 고품질 발화 오디오 데이터를 통해 고객이 정확하게 교육할 수 있습니다.
13개의 글로벌 계층 1 및 2 언어로 된 다국어 음성 인식 모델. 표준 교육 데이터 세트를 통해 고객은 미래의 실제 문제를 해결하기 위해 지능적이고 강력한 디지털 지원을 제공할 수 있습니다.

우리의 전문성

0 +
수집된 연설 시간
0
음성 데이터 수집기 ​​팀
0 %
PII 준수
0 +
멋진 번호
> 0
데이터 수용 및 정확성
0 +
포춘지 선정 500대 고객

다음 AI 이니셔티브를 지원하는 방법을 알려주세요.