사례 연구: 대화형 AI
3개 인도 언어로 ASR을 구축하기 위해 8시간 이상의 데이터 수집, 세분화 및 전사
인도의 AI 기반 언어 번역 플랫폼인 BHASHINI는 Digital India 이니셔티브의 중요한 부분입니다.
인공 지능(AI) 및 자연어 처리(NLP) 도구를 MSME, 신생 기업 및 독립 혁신가에게 제공하도록 설계된 Bhashini 플랫폼은 공공 리소스 역할을 합니다. 그 목표는 인도 시민들이 모국어로 국가의 디지털 이니셔티브와 상호 작용할 수 있도록 하여 디지털 포용을 촉진하는 것입니다.
또한 인도 언어로 된 인터넷 콘텐츠의 가용성을 크게 확장하는 것을 목표로 합니다. 이는 특히 거버넌스 및 정책, 과학 및 기술 등과 같은 공익 영역을 대상으로 합니다. 결과적으로 시민들이 자신의 언어로 인터넷을 사용하도록 장려하고 적극적인 참여를 촉진할 것입니다.
NLP를 활용하여 언어 장벽을 뛰어넘는 목적으로 기여자, 협력 단체 및 시민의 다양한 생태계를 활성화하여 디지털 포용 및 권한 부여를 보장합니다.
실제 세계 솔루션
데이터로 현지화의 힘 발휘
인도는 인도 언어로 디지털 서비스를 제공하기 위해 다국어 데이터 세트 및 AI 기반 언어 기술 솔루션 생성에 집중할 플랫폼이 필요했습니다. 이 이니셔티브를 시작하기 위해 Indian Institute of Technology, Madras(IIT Madras)는 Shaip과 협력하여 인도어 데이터 세트를 수집, 분할 및 기록하여 다국어 음성 모델을 구축했습니다.
도전
인도 언어에 대한 음성 기술 음성 로드맵으로 고객을 지원하기 위해 팀은 AI 모델을 구축하기 위해 대량의 교육 데이터를 수집, 분할 및 기록해야 했습니다. 클라이언트의 중요한 요구 사항은 다음과 같습니다.
데이터 수집
- 언어당 3000개의 방언이 있는 8개의 인도 언어로 4시간의 학습 데이터를 수집합니다.
- 각 언어에 대해 공급자는 즉석 연설을 수집하고
18-60세 연령대의 대화 연설 - 연령, 성별, 교육 및 방언에 따라 화자가 다양하게 혼합되도록 합니다.
- 사양에 따라 다양한 녹음 환경 혼합을 보장합니다.
- 각 오디오 녹음은 최소 16kHz이지만 바람직하게는 44kHz여야 합니다.
데이터 세분화
- 15초의 음성 세그먼트를 생성하고 각 주어진 화자, 소리 유형(음성, 옹알이, 음악, 소음), 회전, 발화 및 구에 대해 오디오를 밀리초 단위로 타임스탬프합니다.
- 시작 및 끝에서 200-400밀리초 패딩을 사용하여 대상 사운드 신호에 대한 각 세그먼트를 만듭니다.
- 모든 세그먼트에 대해 시작 시간, 종료 시간, 세그먼트 ID, 음량 수준, 사운드 유형, 언어 코드, 스피커 ID 등의 개체를 채워야 합니다.
데이터 전사
- 문자 및 특수 기호, 철자 및 문법, 대문자 사용, 약어, 축약형, 개별 음성 문자, 숫자, 구두점, 두문자어, Disfluent, 음성, 이해할 수 없는 음성, 비대상 언어, 비음성 등에 대한 자세한 전사 지침을 따르십시오.
품질 확인 및 피드백
- 모든 녹음은 품질 평가 및 검증을 거쳐 검증된 음성만 전달됩니다.
해법
대화형 AI에 대한 깊은 이해를 바탕으로 고객이 전문 수집가, 언어학자 및 주석 작성자 팀과 함께 데이터를 수집, 분류 및 기록하여 8개의 인도 언어로 된 대규모 오디오 데이터 세트를 구축하도록 도왔습니다.
Shaip의 작업 범위에는 대량의 오디오 교육 데이터 수집, 오디오 녹음을 여러 개로 분할, 데이터 기록 및 메타데이터[SpeakerID, Age, Gender, Language, Dialect,
모국어, 자격, 직업, 도메인, 파일 형식, 주파수, 채널, 오디오 유형, 화자 수, 외국어 수, 사용 설정, 협대역 또는 광대역 오디오 등].
Shaip은 복잡한 프로젝트를 위한 음성 기술 교육에 필요한 품질 수준을 원하는 수준으로 유지하면서 3000시간 분량의 오디오 데이터를 대규모로 수집했습니다. 각 참여자로부터 명시적 동의 양식을 받았습니다.
1. 데이터 수집