2022 년 3 월 15 일

음성 인식 훈련 데이터 – 유형, 데이터 수집 및 응용

Siri, Alexa, Cortana, Amazon Echo 또는 기타를 일상 생활의 일부로 사용하는 경우 음성 인식 우리 삶의 유비쿼터스 부분이되었습니다. 이것들 인공 지능 기반 음성 도우미는 사용자의 구두 질문을 텍스트로 변환하고 사용자가 말하는 내용을 해석 및 이해하여 적절한 응답을 제공합니다.

신뢰할 수 있는 음성 인식 모델을 개발하기 위해서는 양질의 데이터 수집이 필요합니다. 하지만, 발전하는 음성 인식 소프트웨어 리듬, 억양, 음높이, 명료도와 같은 복잡한 인간의 말을 전사하는 것이 어렵기 때문입니다. 그리고 이 복잡한 믹스에 감정을 추가하면 문제가 됩니다.

음성 인식이란 무엇입니까?

음성 인식은 인식하고 처리하는 소프트웨어의 능력입니다. 인간의 말 텍스트로. 음성 인식과 음성 인식의 차이는 많은 사람들에게 주관적으로 보일 수 있지만 둘 사이에는 몇 가지 근본적인 차이점이 있습니다.

음성 및 음성 인식은 모두 음성 지원 기술의 일부를 구성하지만 두 가지 다른 기능을 수행합니다. 음성 인식은 사람의 말과 명령을 텍스트로 자동 변환하는 반면 음성 인식은 화자의 음성만 인식합니다.

음성 인식 유형

우리가 뛰어 들기 전에 음성 인식 유형, 음성 인식 데이터에 대해 간단히 살펴보겠습니다.

음성 인식 데이터는 기계 학습 시스템을 훈련하는 데 도움이 되는 인간의 음성 오디오 녹음 및 텍스트 전사 모음입니다. 음성 인식.

오디오 녹음 및 전사는 ML 시스템에 입력되어 알고리즘이 말의 뉘앙스를 인식하고 그 의미를 이해하도록 훈련될 수 있습니다.

무료로 사전 패키징된 데이터 세트를 얻을 수 있는 곳이 많이 있지만, 다운로드하는 것이 가장 좋습니다. 맞춤형 데이터세트 당신의 프로젝트를 위해. 사용자 지정 데이터 세트를 사용하여 컬렉션 크기, 오디오 및 스피커 요구 사항, 언어를 선택할 수 있습니다.

음성 데이터 스펙트럼

음성 데이터 스펙트럼은 자연스러운 것부터 부자연스러운 것까지 다양한 음성의 품질과 음조를 식별합니다.

스크립트 음성 인식 데이터
이름에서 알 수 있듯이 스크립트 음성은 제어된 데이터 형식입니다. 연사는 준비된 텍스트에서 특정 문구를 녹음합니다. 이들은 일반적으로 명령을 전달하는 데 사용되며, 단어 또는 구 말하는 것보다 말하는 것입니다.
스크립트 음성 인식은 다양한 화자 억양을 사용하여 발행된 명령을 선택해야 하는 음성 도우미를 개발할 때 사용할 수 있습니다.
시나리오 기반 음성 인식
시나리오 기반 연설에서 화자는 특정 시나리오를 상상하고 문제를 제기하도록 요청받습니다. 음성 명령 시나리오를 기반으로 합니다. 이렇게 하면 스크립트로 작성되지 않았지만 제어되는 음성 명령 모음이 생성됩니다.
시나리오 기반 음성 데이터는 다양한 뉘앙스가 있는 일상적인 음성을 이해하는 장치를 개발하려는 개발자에게 필요합니다. 예를 들어, 다양한 질문을 사용하여 가장 가까운 피자헛으로 가는 길을 묻는다.
자연스러운 음성 인식
음성 스펙트럼의 바로 끝에는 자발적이고 자연스러우며 어떤 식으로든 제어되지 않는 음성이 있습니다. 화자는 자연스러운 대화 어조, 언어, 높낮이 및 테너를 사용하여 자유롭게 말합니다.
다중 화자 음성 인식에 대해 ML 기반 응용 프로그램을 훈련하려는 경우 스크립팅되지 않은 또는 대화 연설 데이터셋이 유용합니다.

음성 프로젝트를 위한 데이터 수집 구성 요소

음성 데이터 수집과 관련된 일련의 단계는 수집된 데이터의 품질을 보장하고 고품질 AI 기반 모델을 훈련하는 데 도움이 됩니다.

필요한 사용자 응답 이해

모델에 필요한 사용자 응답을 이해하는 것으로 시작하십시오. 음성 인식 모델을 개발하려면 필요한 콘텐츠를 밀접하게 나타내는 데이터를 수집해야 합니다. 실제 상호 작용에서 데이터를 수집하여 사용자 상호 작용 및 응답을 이해합니다. AI 기반 채팅 도우미를 구축하는 경우 채팅 로그, 통화 녹음, 채팅 대화 상자 응답을 확인하여 데이터 세트를 만듭니다.

도메인별 언어 조사

음성 인식 데이터세트에는 일반 콘텐츠와 도메인별 콘텐츠가 모두 필요합니다. 일반적인 음성 데이터를 수집했으면 데이터를 살펴보고 일반적인 것과 특정적인 것을 분리해야 합니다.

예를 들어, 고객은 안과 센터에서 녹내장을 확인하기 위해 예약을 요청하기 위해 전화를 걸 수 있습니다. 예약을 요청하는 것은 매우 일반적인 용어이지만 녹내장은 도메인에 따라 다릅니다.

또한 음성 인식 ML 모델을 교육할 때 개별적으로가 아니라 구문을 식별하도록 교육해야 합니다. 인식 단어.

사람의 말을 녹음

이전 두 단계에서 데이터를 수집한 후 다음 단계는 수집된 진술을 기록하도록 사람을 만드는 것입니다.

스크립트의 이상적인 길이를 유지하는 것이 중요합니다. 사람들에게 15분 이상의 텍스트를 읽도록 요청하는 것은 역효과를 낼 수 있습니다. 녹음된 각 진술 사이에 최소 2~3초의 간격을 유지하십시오.

동적 녹음 허용

다양한 사람, 말하는 억양, 다양한 상황, 장치 및 환경에서 녹음된 스타일의 음성 저장소를 구축합니다. 향후 사용자의 대다수가 유선 전화를 사용할 예정이라면 음성 수집 데이터베이스에 해당 요구 사항과 일치하는 중요한 표현이 있어야 합니다.

음성 녹음의 가변성 유도

대상 환경이 설정되면 데이터 수집 주체에게 유사한 환경에서 준비된 스크립트를 읽어달라고 요청합니다. 주제가 실수에 대해 걱정하지 않도록 하고 가능한 한 자연스러운 표현을 유지하도록 합니다. 아이디어는 동일한 환경에서 대본을 녹음하는 많은 사람들이 있는 것입니다.

연설을 글로 옮기다

여러 주제(실수 포함)를 사용하여 스크립트를 녹음한 후에는 필사를 진행해야 합니다. 실수를 그대로 유지하면 수집된 데이터의 역동성과 다양성을 달성하는 데 도움이 됩니다.

사람이 전체 텍스트를 단어 단위로 전사하도록 하는 대신 음성-텍스트 엔진을 사용하여 전사를 수행할 수 있습니다. 그러나 실수를 수정하기 위해 인간 필사자를 고용할 것을 제안합니다.

테스트 세트 개발

테스트 세트를 개발하는 것은 테스트의 선두주자이기 때문에 매우 중요합니다. 언어 모델.

음성과 해당 텍스트의 쌍을 만들고 세그먼트로 만듭니다.

수집된 요소를 수집한 후 20%의 샘플링을 추출하여 테스트 세트를 구성합니다. 훈련 세트는 아니지만 이 추출된 데이터는 훈련된 모델이 훈련되지 않은 오디오를 변환하는지 알려줍니다.

언어 교육 모델 구축 및 측정

이제 도메인별 명령문과 필요한 경우 추가 변형을 사용하여 음성 인식 언어 모델을 빌드합니다. 모델을 훈련시킨 후에는 측정을 시작해야 합니다.

훈련 모델(80% 선택된 오디오 세그먼트 포함)을 가져오고 테스트 세트(추출된 20% 데이터 세트)에 대해 테스트하여 예측 및 신뢰성을 확인합니다. 실수, 패턴을 확인하고 고칠 수 있는 환경적 요인에 중점을 둡니다.

가능한 사용 사례 또는 애플리케이션

음성 응용 프로그램, 스마트 가전 제품, 음성을 텍스트로 변환, 고객 지원, 콘텐츠 받아쓰기, 보안 응용 프로그램, 자율 주행 차량, 건강 관리를 위한 메모.

음성 인식은 가능성의 세계를 열었고 음성 응용 프로그램의 사용자 채택은 수년에 걸쳐 증가했습니다.

의 일반적인 응용 프로그램 중 일부 음성 인식 기술 과 같습니다 :

음성 검색 애플리케이션
구글에 따르면 약 20 % Google 앱에서 수행된 검색 중 음성입니다. XNUMX억 인구 2023년까지 음성 비서를 사용할 것으로 예상되며, 이는 6.4년 예측된 2022억에서 급격히 증가한 수치입니다.
음성 검색 채택은 수년에 걸쳐 크게 증가했으며 이러한 추세는 계속될 것으로 예상됩니다. 소비자는 음성 검색에 의존하여 검색어를 검색하고, 제품을 구매하고, 업체를 찾고, 지역 업체를 찾는 등의 작업을 수행합니다.
가정용 기기/스마트 가전
음성 인식 기술은 TV, 조명 및 기타 가전 제품과 같은 홈 스마트 장치에 음성 명령을 제공하는 데 사용됩니다. 소비자의 66 % 영국, 미국, 독일에서는 스마트 기기와 스피커를 사용할 때 음성 비서를 사용한다고 밝혔습니다.
텍스트에 음성
음성을 텍스트로 변환하는 애플리케이션은 이메일, 문서, 보고서 등을 입력할 때 무료 컴퓨팅을 지원하는 데 사용됩니다. 텍스트에 음성 문서를 입력하고, 책과 메일을 작성하고, 비디오 자막을 만들고, 텍스트를 번역하는 시간을 없애줍니다.
고객센터
음성 인식 애플리케이션은 주로 고객 서비스 및 지원에 사용됩니다. 음성 인식 시스템은 제한된 수의 담당자와 함께 저렴한 비용으로 연중무휴 고객 서비스 솔루션을 제공하는 데 도움이 됩니다.
콘텐츠 받아쓰기
내용 받아쓰기는 또 다른 음성 인식 사용 사례 이는 학생과 학자가 짧은 시간에 광범위한 콘텐츠를 작성하는 데 도움이 됩니다. 실명이나 시력 문제로 불리한 상황에 있는 학생들에게 꽤 도움이 됩니다.
보안 응용
음성 인식은 고유한 음성 특성을 식별하여 보안 및 인증 목적으로 광범위하게 사용됩니다. 개인 정보를 도난당하거나 오용하여 개인을 식별하도록 하는 대신 음성 생체 인식은 보안을 강화합니다.
또한 보안을 위한 음성 인식은 로그인 과정의 연장과 자격증명 중복을 없애 고객 만족도를 높였습니다.
차량용 음성 명령
차량, 주로 자동차는 이제 운전 안전을 강화하기 위한 공통 음성 인식 기능을 갖습니다. 라디오 방송국 선택, 전화 걸기, 볼륨 줄이기와 같은 간단한 음성 명령을 받아 운전자가 운전에 집중할 수 있도록 도와줍니다.
건강 관리를 위한 메모
음성 인식 알고리즘을 사용하여 구축된 의료 기록 소프트웨어는 의사의 음성 메모, 명령, 진단 및 증상을 쉽게 캡처합니다. 의료 메모 작성은 의료 산업의 질과 긴급성을 높입니다.

비즈니스를 혁신할 수 있는 음성 인식 프로젝트를 염두에 두고 계십니까? 맞춤형 음성 인식 데이터세트만 있으면 됩니다.

AI 기반 음성 인식 소프트웨어는 구문, 문법, 문장 구조, 감정 및 인간 언어의 뉘앙스를 통합하기 위해 기계 학습 알고리즘의 신뢰할 수 있는 데이터 세트에 대해 교육을 받아야 합니다. 가장 중요한 것은 소프트웨어가 지속적으로 학습하고 응답해야 하며 모든 상호 작용과 함께 성장해야 한다는 것입니다.

Shaip에서는 다양한 기계 학습 프로젝트를 위한 완전 맞춤형 음성 인식 데이터 세트를 제공합니다. Shaip을 사용하면 다음에 액세스할 수 있습니다. 최고 품질의 맞춤형 훈련 데이터 신뢰할 수 있는 음성 인식 시스템을 구축하고 판매하는 데 사용할 수 있습니다. 당사 제품에 대한 포괄적인 이해를 위해 당사 전문가에게 문의하십시오.

[또한 읽기: 대화형 AI에 대한 완전한 가이드]

사회 공유하기

문의하기

이름*
성*
이메일*
연락처 *
기업 정보*
국가*
국가
코멘트*
등록함으로써 Shaip에 동의합니다. 개인 정보 보호 정책 과 서비스약관 그리고 Shaip의 B2B 마케팅 커뮤니케이션 수신에 동의합니다.
보안문자

무료 도서 다운로드

당신은 또한 같은 수 있습니다

음성 인식 훈련 데이터 – 유형, 데이터 수집 및 응용

음성 인식이란 무엇입니까?

음성 인식 유형

음성 데이터 스펙트럼

스크립트 음성 인식 데이터

시나리오 기반 음성 인식

자연스러운 음성 인식

음성 프로젝트를 위한 데이터 수집 구성 요소

필요한 사용자 응답 이해

도메인별 언어 조사

사람의 말을 녹음

동적 녹음 허용

음성 녹음의 가변성 유도

연설을 글로 옮기다

테스트 세트 개발

언어 교육 모델 구축 및 측정

가능한 사용 사례 또는 애플리케이션

음성 검색 애플리케이션

가정용 기기/스마트 가전

텍스트에 음성

고객센터

콘텐츠 받아쓰기

보안 응용

차량용 음성 명령

건강 관리를 위한 메모

사회 공유하기

문의하기

의료 품질 향상을 위한 AI 기반 음성 비서의 부상

더 나은 성장과 성공을 위한 생성 AI 구현

대화 형 AI 진화의 3 가지 장애물

AI 데이터 서비스

전문

산업별

제품

기업 정보

자료

Rescale Cloud HPC 전문가에게 문의하기