대화형 AI: 자동 음성 인식

8시간 이상의 오디오 수집 시간, 다국어 음성 기술을 위해 800시간의 텍스트 변환

개요

인도에서는 인도어로 디지털 서비스를 제공하기 위해 다국어 데이터 세트와 AI 기반 언어 기술 솔루션을 만드는 데 집중하는 플랫폼이 필요했습니다. 이 이니셔티브를 시작하기 위해 클라이언트는 Shaip과 협력하여 인도어를 수집하고 복사하여 다국어 음성 모델을 구축했습니다.

음량

수집된 데이터 시간

주석이 달린 페이지 수

10 +

프로젝트 기간

< 1 개월

도전

인도어에 대한 음성 기술 음성 로드맵으로 고객을 지원하기 위해 팀은 AI 모델을 구축하기 위해 대량의 교육 데이터를 획득, 분할 및 복사해야 했습니다. 클라이언트의 중요한 요구 사항은 다음과 같습니다.

데이터 수집

인도의 원격 위치에서 8000시간의 교육 데이터 수집
20~70세 연령층의 자발적인 음성을 수집하는 공급업체
연령, 성별, 교육 및 방언을 기준으로 다양한 화자의 혼합을 보장합니다.
각 오디오 녹음은 샘플당 16비트로 최소 16kHz여야 합니다.

데이터 전사

문자 및 특수 기호, 철자법 및 문법, 대문자, 약어, 축약어, 개별 음성 문자, 숫자, 구두점, 두문자어 및 이니셜, 유창한 말, 이해할 수 없는 말, 비대상 언어, 비음성에 대한 세부 전사 지침을 따르십시오.

품질 확인 및 피드백

모든 녹음은 품질 평가 및 검증을 거쳐 검증된 음성 녹음만 제공됩니다.

해법

대화형 AI에 대한 깊은 이해를 바탕으로 우리는 고객이 전문 수집가, 언어학자 및 주석자로 구성된 팀과 함께 오디오 데이터를 수집하고 기록하여 인도의 외딴 지역에서 대규모 오디오 데이터 코퍼스를 구축하도록 도왔습니다.

Shaip의 작업 범위에는 대량의 오디오 교육 데이터를 수집하고, 데이터를 전사하고, [화자 및 전사자 모두를 위한 메타데이터가 포함된 해당 JSON 파일을 전달하는 것이 포함되었지만 이에 국한되지는 않았습니다. 각 화자에 대한 메타데이터에는 익명화된 화자 ID, 장치 세부 정보, 성별, 연령, 교육과 같은 인구통계 정보와 함께 핀코드, 사회 경제적 지위, 사용 언어 및 체류 기간 기록이 포함됩니다. 모든 전사자에 대해 데이터에는 익명화된 전사자 ID, 화자와 유사한 인구통계학적 세부정보, 전사 경험 기간, 읽고 쓰고 말할 수 있는 언어에 대한 철저한 분석이 포함됩니다.

샤이프 수집 8000 몇 시간 분량의 오디오 데이터/자발적인 음성을 대규모로 800시간 동안 기록하면서 복잡한 프로젝트를 위한 음성 기술을 교육하는 데 필요한 원하는 수준의 품질을 유지합니다. 각 참가자로부터 명시적 동의서를 받았습니다. 수집된 / 자발적인 음성은 대학에서 제공한 이미지를 기반으로 했습니다. 의 3500 이미지, 1000 일반적이고 2500 지역별 문화, 축제 등과 관련된 이미지입니다. 이미지는 기차역, 시장, 날씨 등과 같은 다양한 영역을 묘사합니다.

데이터 수집

주 정부	지구	오디오 시간	전사 (시간)
비하르	Saran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
우타르프라데시	데오리아, 바라나시, 고락푸르, 가지푸르, 무자아르나가르, 에타, 하미르푸르, 조티바 풀레 나가르, 부다운, 잘라운	1000	100
라자스탄	나가우르, 추루	200	20
우타 라칸	테리 가르왈, 우타르카시	200	20
차 티스 가르	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
웨스트 벵갈	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur	800	80
즈 하르 한드	Sahebganj, 잠타라	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
텔랑 가나 주	카림나가르, 날곤다	200	20
고아	북부+남부 고아	100	10
카르 나 타카	닥신 칸나다어, 굴바르가, 다르와드, 벨라리, 마이소르, 시모가, 비자푸르, 벨가움, 라이추르, 참라즈나가르	1000	100
마하라 슈트라	신두두르그, 둘레, 나그푸르, 푸네, 아우랑가바드, 찬드르푸르, 솔라푸르	700	70
금액		8000	800

일반 지침

형성

- 16kHz, 16비트/샘플의 오디오.
- 단일 채널.
- 트랜스코딩 없는 원시 오디오.

스타일

- 자발적인 연설.
- 대학에서 제공한 이미지를 바탕으로 한 문장입니다. 3500개의 이미지 중 1000개는 일반적인 이미지이고 2500개는 지역별 문화, 축제 등과 관련된 이미지입니다. 이미지는 기차역, 시장, 날씨 등과 같은 다양한 영역을 묘사합니다.

녹음 배경

- 조용하고 울림이 없는 환경에서 녹음되었습니다.
- 녹화 중에는 스마트폰 방해(진동 또는 알림)가 없습니다.
- 클리핑이나 원거리 효과와 같은 왜곡이 없습니다.
- 휴대폰의 진동은 허용되지 않습니다. 오디오가 깨끗하면 외부 진동은 견딜 수 있습니다.

스피커 사양

- 연령 범위는 20~70세이며 지역별 성별 분포가 균형을 이루고 있습니다.
- 각 지역마다 최소 400명의 원어민이 있습니다.
- 화자는 모국어/방언을 사용해야 합니다.
- 모든 참가자에게 동의서는 필수입니다.

품질 점검 및 중요 품질 보증

QA 프로세스에서는 오디오 녹음 및 전사에 대한 품질 보증을 우선시합니다. 오디오 표준은 정확한 무음, 세그먼트 지속 시간, 단일 화자의 선명도, 연령 및 사회 경제적 지위를 포함한 자세한 메타데이터에 중점을 둡니다. 전사 기준은 태그 정확성, 단어 진실성 및 올바른 세그먼트 세부 정보를 강조합니다. 승인 벤치마크에 따르면 오디오 배치의 20% 이상이 이러한 표준을 충족하지 못하면 거부됩니다. 불일치가 20% 미만인 경우 유사한 프로필로 대체 녹음이 필요합니다.

데이터 전사

전사 지침은 단어가 명확하고 이해 가능한 경우에만 정확성과 축어적 전사를 강조합니다. 불분명한 단어는 문제에 따라 [이해불가] 또는 [청취불가]로 표시됩니다. 긴 오디오의 문장 경계는 다음과 같이 표시됩니다. , 문법 오류를 다른 말로 표현하거나 수정하는 것은 허용되지 않습니다. 축어적 전사에서는 오류, 속어 및 반복을 다루지만 잘못된 시작, 필러 소리 및 끊김 현상은 생략합니다. 배경 및 전경 소음은 설명 태그로 기록되며 고유명사, 제목 및 숫자는 특정 기록 규칙을 따릅니다. 모든 문장에는 화자 라벨이 사용되며, 불완전한 문장은 으로 표시됩니다.

프로젝트 워크플로우

워크플로우는 오디오 전사 프로세스를 설명합니다. 이는 온보딩 및 참가자 교육으로 시작됩니다. QA 플랫폼에 업로드되는 앱을 사용하여 오디오를 녹음합니다. 이 오디오는 품질 검사와 자동 분할을 거칩니다. 그런 다음 기술팀은 전사할 세그먼트를 준비합니다. 수동 전사 후에는 품질 보증 단계가 있습니다. 전사본은 클라이언트에게 전달되며, 수락되면 전달이 완료된 것으로 간주됩니다. 그렇지 않은 경우 고객 피드백을 기반으로 수정이 이루어집니다.

결과

전문 언어학자의 고품질 오디오 데이터를 통해 고객은 규정된 시간에 다양한 방언을 사용하는 다양한 인도 언어로 다국어 음성 인식 모델을 정확하게 훈련하고 구축할 수 있습니다. 음성 인식 모델을 사용하여 다음을 수행할 수 있습니다.

시민을 모국어로 이니셔티브에 연결하여 디지털 포용을 위한 언어 장벽을 극복합니다.
디지털 거버넌스 촉진
인도 언어로 서비스 및 제품 생태계를 형성하는 촉매제
공익 영역, 특히 거버넌스 및 정책 분야에서 보다 현지화된 디지털 콘텐츠

우리는 대화형 AI 영역에서 Shaip의 전문성에 경외감을 느낍니다. 8000개의 다양한 구역에 걸쳐 800시간의 오디오 데이터와 80시간의 전사 작업을 처리하는 작업은 아무리 말해도 기념비적이었습니다. 이렇게 도전적인 프로젝트를 성공적으로 수행할 수 있었던 것은 이 영역의 복잡한 세부 사항과 뉘앙스에 대한 Shaip의 깊은 이해 덕분이었습니다. 최고 수준의 품질을 보장하면서 이 방대한 양의 데이터의 복잡성을 원활하게 관리하고 탐색하는 능력은 정말 칭찬할 만합니다.

대화형 AI 가속화
100% 애플리케이션 개발

대화형 AI: 자동 음성 인식

8시간 이상의 오디오 수집 시간, 다국어 음성 기술을 위해 800시간의 텍스트 변환

개요

음량

도전

데이터 수집

데이터 전사

품질 확인 및 피드백

해법

일반 지침

품질 점검 및 중요 품질 보증

데이터 전사

프로젝트 워크플로우

결과

AI 데이터 서비스

전문

산업별

제품

기업 정보

자료

문의하기

당신에 대해 더 많이 알려주세요!