인도처럼 문화적으로 다양하고 언어적으로 풍부한 나라에서 포용적인 AI 구축은 대표적이고 고품질의 데이터 세트를 수집하는 것에서 시작됩니다. 이것이 바로 우리의 비전입니다. 프로젝트 바니— 대규모 오픈 소스 이니셔티브가 주도합니다. 아트파크, IISc 벵갈루루글렌데일 구글모든 인도 언어와 방언에 발언권을 부여하는 것을 목표로 합니다.
야심찬 목표? 수집하는 것 150,000만 시간 이상의 연설 15,000시간 이상의 필사본 에 1 만 명 가로질러 773 지구 인도의.
이 국가적 사명의 핵심 공급업체 중 하나로서, 샤이프 자발적인 음성 데이터, 필사본, 메타데이터 수집을 큐레이팅하는 데 핵심적인 역할을 했습니다. 이를 통해 진정한 인도를 대표하는 공평한 음성 기술을 위한 토대를 마련했습니다.
프로젝트 Vaani의 비전
Project Vaani는 AI 포용 격차를 해소하기 위해 설계되었습니다. 가장 큰 다중 모드, 다국어, 오픈 소스 데이터 세트 인도에서. 이 데이터는 인도 모국어(글로벌 기술 생태계에서 제대로 활용되지 못하는 언어)를 위한 정확한 음성 인식, 번역 및 생성 AI 시스템을 개발하는 데 기반이 됩니다.
장기 비전은 다음과 같은 분야에서 영향력 있는 애플리케이션을 구동하는 것입니다.
- 의료 – 음성 기반 원격진료
- 교육 – 모국어 학습 플랫폼
- 거버넌스 – 시민 서비스를 위한 대화형 인터페이스
- 접근 용이성 – 장애인을 위한 음성 도구
- 재난 대응 – 지역 방언으로 실시간 소통
Shaip이 Project Vaani를 위해 인도 최대 규모의 오픈소스 음성 데이터 세트를 구축하는 데 도움을 준 방법
Shaip은 수집을 맡았습니다. 8,000시간의 자발적 연설 800시간 분량의 수동 검증된 필사본. 우리의 책임은 발표자 등록, 오디오 캡처, 메타데이터 태그 지정, 필사 조정 및 품질 관리에 걸쳐 이루어졌습니다.
8,000 시간 자발적인 오디오 데이터
녹음 지역당 400명 이상의 원어민 다양한 연령대, 성별, 방언을 대표합니다
80개 지구, 적용
이미지 기반 프롬프팅을 통해 보장 자연스럽고 상황에 맞는 말투
우리의 접근 방식이 독특한 이유는 다음과 같습니다.
지구 수준 다양성
비하르, 우타르프라데시, 카르나타카, 서벵골, 마하라슈트라 등 여러 주에 걸쳐 80개 구에서 녹음 자료를 수집했습니다. 각 구는 100시간 분량의 오디오 데이터를 제공하여 지역적 균형을 유지했습니다. 또한, 원어민과의 협업을 통해 주류 AI 데이터셋에서 간과되기 쉬운 지역 억양과 방언을 효과적으로 표현할 수 있도록 했습니다.
언어 및 인구 통계적 표현
비하르, 우타르프라데시, 카르나타카, 서벵골, 마하라슈트라 등 여러 주에 걸쳐 80개 구에서 녹음 자료를 수집했습니다. 각 구는 100시간 분량의 오디오 데이터를 제공하여 지역적 균형을 유지했습니다. 또한, 원어민과의 협업을 통해 주류 AI 데이터셋에서 간과되기 쉬운 지역 억양과 방언을 효과적으로 표현할 수 있도록 했습니다.
이미지 기반 음성
자발적이고 자연스러운 어휘 사용을 장려하기 위해, 참가자들에게 세션당 45~90개의 이미지를 보여주고 설명하도록 했습니다. 참가자들은 문화적 상징부터 일상 사물까지 다양한 이미지를 사용하여 모국어로 자연스럽고 자발적인 반응을 이끌어냈습니다. 이를 통해 녹음된 내용이 실제 상황과 맥락에 맞는 발화를 반영하도록 보장했으며, 이는 고급 NLP 시스템 훈련에 필수적입니다.
고품질 전사 표준
음성 데이터의 10%만 전사되었으며, 이는 총 800시간에 달합니다. 전사는 화자 반경 20~50km 이내의 지역 언어학자들이 수행하여 방언과 뉘앙스에 대한 이해를 높였습니다. 5차 검토를 통해 단어 오류율(WER)이 XNUMX% 미만으로 유지되었습니다.
엄격한 품질 보증
오디오 데이터는 배경 소음, 에코, 휴대폰 진동 또는 왜곡이 없어야 하는 높은 기준을 충족해야 했습니다. 오디오는 조용하고 에코가 없는 환경에서 녹음되었습니다. 파일은 음성 선명도, 소음 수준, 메타데이터 정확성 및 화자 검증 지침을 충족하기 위해 엄격한 검토를 거쳤습니다. 모든 파일에 걸쳐 메타데이터 태그는 정확해야 했으며, 모든 녹음 파일의 화자 및 위치 정렬을 확인했습니다.
우리가 해결한 과제
- 원격 물류 – 80개 지구에 걸쳐 팀 관리
- 스피커 다양성 – 원격 지역에서 32,000명 이상의 검증된 연사 온보딩
- 문화적 민감도 – 지역 관습과 방언을 존중합니다
- 데이터 무결성 – 품질 및 규정 준수 표준 충족
- 품질 관리 – 다양한 언어 및 문화적 맥락에서
우리의 성공은 꼼꼼한 계획, 기술 중심의 검증, 그리고 각 지역의 문화적 뉘앙스를 이해하는 현지 팀과의 파트너십 덕분에 가능했습니다.
영향 및 적용
샤이프의 기여는 프로젝트 바니(Project Vaani)의 진행을 가속화했을 뿐만 아니라 인도의 포용적 AI 기반을 마련했습니다. 큐레이션된 음성 데이터 세트는 이미 다음과 같은 AI 모델을 구축하고 미세 조정하는 데 사용되고 있습니다.
- 모국어 음성 지원
- 지역 번역 엔진
- 시각 장애인을 위한 접근 가능한 커뮤니케이션 도구
- 농촌 지역 학생들을 위한 AI 기반 에드테크 플랫폼
- 농촌 원격진료
- 음성 기반 시민 서비스
- 실시간 번역 및 필사
맺음말
Vaani 프로젝트는 포괄적이고 접근 가능한 AI를 향한 대담한 발걸음이며, 샤이프는 이 프로젝트의 기반이 되는 역할을 맡게 되어 영광입니다. 샤이프의 Project Vaani 작업은 다양성과 대표성을 기반으로 윤리적이고 포용적인 AI 시스템을 구축하려는 우리의 헌신을 재확인시켜 줍니다. 8,000시간 이상의 연설을 수집하고 800시간 이상의 필사본을 작성한 우리는 인도에서 가장 비전적인 디지털 포용 프로젝트 중 하나에 참여하게 되어 자랑스럽게 생각합니다.
Project Vaani가 150,000만 시간 이상의 데이터라는 더 큰 목표를 향해 계속 나아가면서, 우리는 모든 인도인에게 호소하는 AI 혁신의 다음 전선을 지원할 준비가 되어 있습니다.
실제 세계를 이해하는 AI를 구축하기 위해 저희와 협력하고 싶으신가요? www.shaip.com