정의
오디오 필사는 구어를 문자 텍스트로 변환하는 과정입니다. 원시 음성 녹음으로부터 구조화된 텍스트 데이터를 생성합니다.
목적
이 기술의 목적은 음성을 검색, 분석 및 자연어 처리 작업에 활용할 수 있도록 하는 것입니다. 접근성, 미디어, 비즈니스 분석 분야에서 널리 사용됩니다.
중요성
- 자막 및 접근성 서비스를 활성화합니다.
- NLP 모델을 훈련하기 위한 텍스트 입력을 제공합니다.
- 품질은 음성-텍스트 변환의 정확도에 따라 달라집니다.
- 배경 소음, 악센트, 녹음 품질에 민감합니다.
작동 원리
- 오디오 파일을 녹음하거나 가져옵니다.
- 말을 더 작은 단위로 나눕니다.
- 자동 음성 인식(ASR)이나 수동 필사 기능을 적용합니다.
- 정확성을 위해 텍스트를 수정하고 검증합니다.
- 필요한 경우 타임스탬프나 메타데이터를 첨부하여 사본을 저장합니다.
예시(실제 세계)
- Rev: 미디어 및 비즈니스를 위한 필사 서비스.
- Otter.ai: AI 기반 실시간 회의 내용 기록.
- YouTube: ASR 모델을 사용하여 자막을 생성합니다.
참고문헌 / 추가 자료
- 자동 음성 인식 - NIST.
- ISO/IEC 15938-4: 멀티미디어 콘텐츠 설명 - ISO.
- 음성 및 언어 처리 — Jurafsky & Martin, Stanford.