사례 연구: 대화형 AI

3개 인도 언어로 ASR을 구축하기 위해 8시간 이상의 데이터 수집, 세분화 및 전사

발화수집
정부는 Bhashini 프로젝트를 통해 시민들이 모국어로 인터넷 및 디지털 서비스에 쉽게 액세스할 수 있도록 하는 것을 목표로 합니다.

인도의 AI 기반 언어 번역 플랫폼인 BHASHINI는 Digital India 이니셔티브의 중요한 부분입니다.

인공 지능(AI) 및 자연어 처리(NLP) 도구를 MSME, 신생 기업 및 독립 혁신가에게 제공하도록 설계된 Bhashini 플랫폼은 공공 리소스 역할을 합니다. 그 목표는 인도 시민들이 모국어로 국가의 디지털 이니셔티브와 상호 작용할 수 있도록 하여 디지털 포용을 촉진하는 것입니다.

또한 인도 언어로 된 인터넷 콘텐츠의 가용성을 크게 확장하는 것을 목표로 합니다. 이는 특히 거버넌스 및 정책, 과학 및 기술 등과 같은 공익 영역을 대상으로 합니다. 결과적으로 시민들이 자신의 언어로 인터넷을 사용하도록 장려하고 적극적인 참여를 촉진할 것입니다.

NLP를 활용하여 언어 장벽을 뛰어넘는 목적으로 기여자, 협력 단체 및 시민의 다양한 생태계를 활성화하여 디지털 포용 및 권한 부여를 보장합니다.

실제 세계 솔루션

데이터로 현지화의 힘 발휘

인도는 인도 언어로 디지털 서비스를 제공하기 위해 다국어 데이터 세트 및 AI 기반 언어 기술 솔루션 생성에 집중할 플랫폼이 필요했습니다. 이 이니셔티브를 시작하기 위해 Indian Institute of Technology, Madras(IIT Madras)는 Shaip과 협력하여 인도어 데이터 세트를 수집, 분할 및 기록하여 다국어 음성 모델을 구축했습니다.

도전

인도 언어에 대한 음성 기술 음성 로드맵으로 고객을 지원하기 위해 팀은 AI 모델을 구축하기 위해 대량의 교육 데이터를 수집, 분할 및 기록해야 했습니다. 클라이언트의 중요한 요구 사항은 다음과 같습니다.

데이터 수집

  • 언어당 3000개의 방언이 있는 8개의 인도 언어로 4시간의 학습 데이터를 수집합니다.
  • 각 언어에 대해 공급자는 즉석 연설을 수집하고
    18-60세 연령대의 대화 연설
  • 연령, 성별, 교육 및 방언에 따라 화자가 다양하게 혼합되도록 합니다.
  • 사양에 따라 다양한 녹음 환경 혼합을 보장합니다.
  • 각 오디오 녹음은 최소 16kHz이지만 바람직하게는 44kHz여야 합니다.

데이터 세분화

  • 15초의 음성 세그먼트를 생성하고 각 주어진 화자, 소리 유형(음성, 옹알이, 음악, 소음), 회전, 발화 및 구에 대해 오디오를 밀리초 단위로 타임스탬프합니다.
  • 시작 및 끝에서 200-400밀리초 패딩을 사용하여 대상 사운드 신호에 대한 각 세그먼트를 만듭니다.
  • 모든 세그먼트에 대해 시작 시간, 종료 시간, 세그먼트 ID, 음량 수준, 사운드 유형, 언어 코드, 스피커 ID 등의 개체를 채워야 합니다.

데이터 전사

  • 문자 및 특수 기호, 철자 및 문법, 대문자 사용, 약어, 축약형, 개별 음성 문자, 숫자, 구두점, 두문자어, Disfluent, 음성, 이해할 수 없는 음성, 비대상 언어, 비음성 등에 대한 자세한 전사 지침을 따르십시오.

품질 확인 및 피드백

  • 모든 녹음은 품질 평가 및 검증을 거쳐 검증된 음성만 전달됩니다.

해법

대화형 AI에 대한 깊은 이해를 바탕으로 고객이 전문 수집가, 언어학자 및 주석 작성자 팀과 함께 데이터를 수집, 분류 및 기록하여 8개의 인도 언어로 된 대규모 오디오 데이터 세트를 구축하도록 도왔습니다.

Shaip의 작업 범위에는 대량의 오디오 교육 데이터 수집, 오디오 녹음을 여러 개로 분할, 데이터 기록 및 메타데이터[SpeakerID, Age, Gender, Language, Dialect,
모국어, 자격, 직업, 도메인, 파일 형식, 주파수, 채널, 오디오 유형, 화자 수, 외국어 수, 사용 설정, 협대역 또는 광대역 오디오 등]. 

Shaip은 복잡한 프로젝트를 위한 음성 기술 교육에 필요한 품질 수준을 원하는 수준으로 유지하면서 3000시간 분량의 오디오 데이터를 대규모로 수집했습니다. 각 참여자로부터 명시적 동의 양식을 받았습니다.

1. 데이터 수집

2. 데이터 세분화

  • 수집된 오디오 데이터는 각각 15초의 음성 세그먼트로 더 분기되고 각 주어진 화자, 소리 유형, 회전, 발화 및 대화 문구에 대해 밀리초로 타임스탬프가 지정되었습니다.
  • 사운드 신호의 시작과 끝에서 200-400밀리초 패딩을 사용하여 대상 사운드 신호에 대한 각 세그먼트를 생성했습니다.
  • 모든 세그먼트에 대해 시작 시간, 종료 시간, 세그먼트 ID, 음량 수준(크게, 보통, 조용함), 기본 사운드 유형(음성, 옹알이, 음악, 소음, 겹침), 언어 코드 화자 ID, 필사 등의 객체가 존재하고 채워졌습니다.

3. 품질 확인 및 피드백

  • 모든 녹음은 품질에 대해 평가되었으며 WER이 90%이고 TER가 90%인 검증된 음성 녹음만 전달되었습니다.
  • 준수한 품질 체크리스트:
       » 최대 15초의 세그먼트 길이
       » 특정 도메인의 전사, 즉 날씨, 다양한 유형의 뉴스, 건강, 농업, 교육, 직업 또는 금융
       » 낮은 배경 소음
       » 오디오 클립 오프 없음 – 왜곡 없음
       » 전사를 위한 올바른 오디오 세분화

4. 데이터 전사
주저, 필러 단어, 잘못된 시작 및 기타 구두 틱을 포함한 모든 말은 필사본에 정확하게 캡처되었습니다. 또한 대문자와 소문자, 철자, 대문자 표시, 약어, 축약, 숫자,
구두점, 두문자어, 유창한 말, 비음성 소음 등. 또한 수집 및 전사를 위한 작업 흐름은 다음과 같습니다.

결과

전문 언어학자의 고품질 오디오 데이터를 통해 인도 공과대학교 – 마드라스는 규정된 시간에 서로 다른 방언을 사용하는 8개의 인도 언어로 다국어 음성 인식 모델을 정확하게 훈련하고 구축할 수 있습니다. 음성 인식 모델은 다음과 같은 용도로 사용할 수 있습니다.

  • 시민을 모국어로 이니셔티브에 연결하여 디지털 포용을 위한 언어 장벽을 극복합니다.
  • 디지털 거버넌스 촉진
  • 인도 언어로 서비스 및 제품 생태계를 형성하는 촉매제
  • 공익 영역, 특히 거버넌스 및 정책 분야에서 보다 현지화된 디지털 콘텐츠
골든-5성급

우리는 대화형 AI 공간에 대한 Shaip의 전문성에 깊은 인상을 받았습니다. 엄격한 일정 및 지침 내에서 8개 언어로 전문 언어학자로부터 필요한 교육 데이터를 소싱, 분할, 전사 및 전달하는 데 따른 전반적인 프로젝트 실행 역량 여전히 허용 가능한 품질 표준을 유지하면서.”

대화형 AI 가속화
100% 애플리케이션 개발

주요 클라이언트

팀이 세계 최고의 AI 제품을 구축할 수 있도록 지원합니다.