음성 감정 및 감정 분석

AI 기반 통찰력으로 보다 스마트한 콜센터 구축

샤이프의 오디오 데이터 수집 및 주석 분야 전문 지식을 활용하여 실시간 감정 및 감정 감지 기능을 강화하고 고객 서비스를 개선합니다.

음성 감정 및 감정 분석

자동화된 음성 감정 및 감정 분석

클라이언트는 Shaip과 협력하여 콜센터를 위한 자동화된 음성 감정 및 정서 분석 모델을 개발했습니다. 이 프로젝트는 미국, 영국, 호주, 인도의 250개 영어 방언에 걸쳐 XNUMX시간 분량의 콜센터 오디오 데이터를 수집하고 주석을 달았습니다. 이를 통해 클라이언트는 실시간 고객 상호작용에서 Happy, Neutral, Angry와 같은 감정과 Dissatisfied, Satisfied와 같은 정서를 감지하기 위한 AI 모델을 개선할 수 있었습니다.

이 프로젝트는 냉소적 표현 감지, 오디오 길이 변화, 불만을 나타내는 미묘한 언어적 신호 등의 과제를 극복하여 정확하고 확장 가능한 결과를 제공했습니다.

자동화된 음성 감정 및 감정 분석

주요 통계

4개 영어 방언에 걸쳐 수집 및 주석이 달린 콜센터 오디오 데이터

250의 시간

언어 수

미국 영어, 영국 영어, 호주 영어 및 인도 영어

고객 사례

자동화된 음성 감정 및 감정 분석

프로젝트 범위

영어의 250개 방언으로 된 XNUMX시간 분량의 콜센터 오디오 데이터를 수집하고 주석을 달았습니다.

  • 미국 영어 (30%)
  • 영국 영어 (30%)
  • 호주 영어 (20%)
  • 인도 영어 (20%)

범위 내

이 프로젝트는 세 부분으로 구성되어 있습니다.

  • 메타데이터를 포함한 특정 엔터티가 있는 오디오 데이터.
  • 분할 및 타임스탬프 세부 정보가 포함된 해당 필사 파일입니다.
  • 감정 및 정서 주석:
    • 오디오 감정: 행복, 중립, 화남
    • 전사 감정: 매우 불만족, 불만족, 보통, 만족, 매우 만족

도전

방언의 다양성

오디오 데이터가 지정된 방언(미국, 영국, 호주, 인도)을 정확하게 나타내는지 확인하는 것은 어려울 수 있습니다. 이러한 범주 내의 다른 지역은 다양한 어휘, 악센트 및 발음을 사용할 수 있습니다.

전문 지식 요구 사항

감정과 감상에 대한 오디오와 필사본에 주석을 달기 위해서는 각 방언의 문화적 뉘앙스와 언어적 미묘한 차이에 익숙한 숙련된 주석자가 필요합니다.

감정과 정서의 복잡성

오디오 감정과 필사 감정은 항상 일치하지는 않습니다. 예를 들어, 어떤 사람은 화가 난 것처럼 들리지만 실제로는 만족감을 표현할 수 있습니다. 예를 들어, "오, 멋지네요. 제 문제를 해결할 수 없는 또 다른 사람이네요"와 같은 냉소적인 문구로 냉소적인 대화를 다루는 경우 감정과 감정에 대해 올바르게 주석을 달아야 합니다.

오디오 품질

오디오 녹음의 품질은 다양할 수 있으며, 이는 필사 정확도와 감정 감지에 영향을 미칩니다. 배경 소음, 겹치는 대화, 다양한 녹음 장비는 상당한 어려움을 초래할 수 있습니다.

정확하게 포착

심한 숨을 내쉬는 것과 같은 언어적 신호나 다른 좌절의 신호를 통해 불만을 표현합니다.

해법

고급 자연어 처리(NLP) 기술을 활용하여 다음 솔루션이 구현되었습니다.

데이터 수집

  • 250시간 분량의 오디오 데이터가 방언별로 할당되었습니다.
    • 미국 영어(30% 또는 75시간)
    • 영국 영어(30% 또는 75시간)
    • 호주 영어(20% 또는 50시간)
    • 인도 영어(20% 또는 50시간)
  • 미국, 영국, 호주, 인도의 원어민 악센트 사용자.
  • 다양한 톤이 포함된 음성 샘플로, 특히 음성 감정이 '분노'이고 텍스트 감정이 '불만' 또는 '극도로 불만족'인 경우에 초점을 맞췄습니다.

텍스트 분류/주석

텍스트 분류

  • 특정 범주에 따른 감정 및 감정에 대한 주석:
    • 오디오 감정: 행복, 중립, 화남.
    • 전사 감정: 매우 불만족, 불만족, 보통, 만족, 매우 만족.
  • 각 오디오 세그먼트에는 주된 감정이 하나만 들어있습니다.
  • 대화 내에 다양한 지연 구간(2~30초)이 적용됩니다.
  • 전사 형식은 좌우 화자 정보, 감정 태그, 최종 세그먼트 감정을 포함한 JSON 출력을 따랐습니다.

 

품질 보증:

품질 보증:
전사 정확도:

  • 최소한 다음과 같은 250시간 분량의 오디오가 전달되도록 보장:
    • 90% 전사 오류율(TER) 정확도.
    • 단어 인식률(WER) 정확도는 95%입니다.

QA 프로세스:

  • 데이터 세트에서 무작위로 선택한 샘플에 대한 정기 감사가 수행되었습니다.
    • 자동화 도구를 사용하여 데이터 세트 전체에서 TER과 WER을 측정했습니다.
    • 플래그가 지정된 섹션을 수동으로 검토하여 정확도 임계값이 충족되었는지 확인했습니다.

결과

훈련 데이터는 자동화된 감정 및 정서 감지 모델의 개발을 지원하여 다음을 제공합니다.

  • 콜센터 상호작용에서 실시간 감정 감지.
  • 냉소적 표현이나 불만 등 복잡한 사례를 더 효과적으로 처리합니다.
  • 향후 프로젝트를 위한 확장성이 뛰어나며, 늘어나는 데이터 양과 더 많은 언어에 쉽게 적응할 수 있습니다.

산출물

  • 250시간 오디오 파일(8kHz PCM WAV 형식, 모노)
  • (세그먼트화, 감정 태그, 화자 식별자가 포함된) 필사 파일
  • 메타데이터(오디오 길이, 발표자 세부 정보 등)

Shaip과 콜센터 데이터 프로젝트를 위해 협력한 것은 AI 솔루션을 발전시키는 데 중요한 순간이었습니다. Shaip 팀은 미국, 영국, 호주, 인도의 250개 주요 영어 방언에 걸쳐 XNUMX시간 분량의 오디오 데이터를 전문적으로 수집하고 주석을 달아 최고의 품질과 정밀성을 보장했습니다. 이러한 지역의 언어적 뉘앙스에 대한 주의는 음성 인식 모델의 정확도를 크게 개선했습니다. 또한 복잡한 데이터 주석 프로젝트를 처리하는 Shaip의 전문성은 규모에 맞게 안정적이고 규정을 준수하는 모델을 구축하는 데 도움이 되었습니다.

골든 5스타