음악 AI 사례 연구

노래하는 목소리 데이터 수집

EQ 및 압축 알고리즘 교육을 위한 음성 기반 노래 오디오 컬렉션: 언어적 및 음악적 다양성 포착

음성 기반 노래 오디오 모음

사업 개요

Shaip은 선도적인 기술 회사와 협력하여 중국어, 아랍어, 스페인어, 러시아어 등 4개 우선 언어로 다양한 노래 오디오 녹음을 수집했습니다. 이 프로젝트는 자동화된 오디오 처리를 개선하는 데 필수적인 AI 기반 EQ 및 압축 알고리즘을 훈련하기 위한 고품질 데이터를 제공하는 것을 목표로 했습니다.

이 컬렉션에는 다양한 장르의 40명(언어당 10명)의 참가자가 참여했으며, 다양한 마이크와 환경을 사용하여 스튜디오 품질의 녹음에 중점을 두었습니다.

노래 오디오 모음

주요 통계

4 언어 : 중국어, 아랍어, 스페인어, 러시아어

10명의 가수
언어 (총 40개)

20 시간 of
노래하는 오디오

오디오 형식 : 48kHz PCM, 모노, WAV

오디오 트랜스크립션 모국어로

프로젝트 기간 :
18의 주

프로젝트 범위

데이터 수집

범위에는 여러 음악 장르에 걸쳐 실제 아티스트가 녹음한 4개 대상 언어로 된 노래 오디오 컬렉션이 포함되었습니다. 스튜디오 환경을 사용하여 AI 모델을 훈련하는 데 적합한 고품질 녹음을 보장했습니다.

핵심 요구 사항

  • 대상 : 각 언어당 10명의 가수가 있으며, 성별 분포는 균형 잡혔습니다(남성 50%, 여성 50%).
  • 장르 : 아티스트가 직접 지정한 다양한 장르를 일관성 있게 검증했습니다.
  • 녹음 환경: 다양한 마이크 설정(다이나믹, 콘덴서)을 갖춘 스튜디오 품질입니다.
  • 오디오 형식 : 48kHz PCM, 모노, WAV 파일(압축, EQ, 리버브 등 처리 없음).
  • 성적 증명서 : 노래는 부르는 언어로 편곡해야 하며, 이중 언어로 된 노래의 경우 특별 규칙이 적용됩니다.
  • 언어 : 중국어, 아랍어, 스페인어, 러시아어
  • 전사
    • 필사본은 녹음 언어로 제공해야 합니다(예: 데바나가리로 된 힌디어 대사 다음에 영어 대사).
    • 명확성과 정확성을 위해 각 세그먼트가 15초를 넘지 않도록 하세요.
  • 오디오 녹음 요구 사항
    • 녹음 세션당 최소 3개의 마이크 설정이 필요합니다.
    • 한 곡당 3분, 한 곡당 3번의 테이크를 통해 참가자 각자의 다양한 마이크 녹음이 가능합니다.
    • 배경 소음이 없는 스튜디오 수준의 음향 환경입니다.

도전

참여자 다양성

성별, 음색/음정, 음악 장르에 따라 가수를 균형 있게 분포시키는 것은 복잡한 과제였습니다.

데이터 일관성

여러 언어로 다양한 보컬 공연을 포착하는 동시에 일관된 마이크 설정과 환경을 유지합니다.

오디오 품질 제어

외부 소음 없이 스튜디오 품질의 오디오와 여러 언어로 정확한 필사를 보장합니다.

해법

샤이프는 다음을 통해 프로젝트 요구 사항을 충족하는 포괄적인 솔루션을 제공했습니다.

  • 40개 언어에 걸쳐 XNUMX명의 가수를 모집하고 성별, 음높이, 음악 스타일에서 다양한 대표성을 보장합니다.
  • 다양한 마이크 유형(다이나믹, 콘덴서)을 사용하여 스튜디오 품질의 녹음을 수행하여 광범위한 오디오 데이터를 수집합니다.
  • 특정 이중 언어 노래에 대한 규칙에 따라, 사용된 언어로 녹음을 정확하게 필사합니다.
  • 동의: 녹음에 앞서 모든 참가자로부터 동의서를 수집합니다.

결과

수집된 다양한 노래 오디오 데이터를 통해 클라이언트는 자동화된 EQ 및 압축 알고리즘을 위한 강력한 훈련 세트를 개발하여 오디오 처리 품질을 향상시킬 수 있었습니다. 고품질 녹음 및 자세한 메타데이터 덕분에 AI 모델이 다양한 음악 장르와 언어적 복잡성을 처리할 수 있었습니다. 주요 결과:

  • AI 시스템 훈련을 위한 고품질의 다양한 오디오 데이터.
  • 분석을 위한 정확한 필사본과 메타데이터.
  • AI 기반 오디오 처리 도구를 위한 더욱 강력한 기반.

산출물

  • 20시간 분량의 스튜디오 품질 오디오 녹음(48kHz PCM, 모노 WAV 파일).
  • 녹음 언어로 된 필사본입니다.
  • 메타데이터: 마이크 제조사/모델, DAC/오디오 인터페이스, 가수 프로필, 장르 정보.
  • 메타데이터를 포함한 전사를 위한 JSON 형식입니다.

Shaip의 음악적 재능과 언어적 풍부함의 다양성을 포착하는 능력은 EQ와 압축 알고리즘 개발에 매우 ​​귀중했습니다. 그들의 팀은 아티스트 모집에서 녹음 품질에 이르기까지 모든 측면이 정밀하게 처리되도록 보장했으며, 이는 자동화된 오디오 처리 시스템을 개선하는 데 필수적인 단계입니다.

우리는 Shaip이 프로세스 전반에 걸쳐 보여준 신뢰와 협력에 진심으로 감사드립니다. 우리의 엄격하고 도전적인 기술 요구 사항에도 불구하고, 그들의 헌신, 노고, 세부 사항에 대한 주의는 뛰어났습니다. 우수성을 제공하기 위해 헌신하는 팀과 함께 일하게 되어 기뻤습니다.

골든 5스타