대화형 AI를 위한 데이터 수집

대화형 AI를 위한 데이터 수집에 접근하는 방법

오늘날 우리는 가정, 자동차 시스템, 휴대용 장치, 홈 자동화 솔루션 등에 챗봇, 가상 비서 등으로 말하는 로봇을 가지고 있습니다. 이러한 장치는 우리가 말하는 내용과 우리가 말하는 방법을 정확하게 듣고 결과를 검색하거나 특정 작업을 실행하는 방법을 듣고 있습니다. .

다음과 같은 어시스턴트를 사용했다면 시리 또는 알렉사, 당신은 또한 그들이 날이 갈수록 기발해지고 있다는 것을 깨닫게 될 것입니다. 그들의 대답은 재치 있고, 반박하고, 무시하고, 칭찬을 아끼지 않고, 당신이 아는 동료들보다 더 인간다운 행동을 합니다. 농담이 아니다. PwC에 따르면, 최근 고객 서비스 직원과 상호 작용한 사용자의 27%는 자신이 사람과 대화하는지 챗봇과 대화하는지 몰랐습니다.

이러한 복잡한 대화 시스템 및 장치를 개발하는 것은 매우 복잡하고 어려운 일입니다. 독특한 개발 방식을 사용하는 완전히 다른 볼 게임입니다. 그래서 더 쉽게 이해할 수 있도록 분해해야 한다고 생각했습니다. 따라서 대화형 AI 엔진이나 가상 비서를 개발하려는 경우 이 가이드가 명확성을 높이는 데 도움이 될 것입니다.

대화형 AI의 중요성

기술이 더 새로운 장치와 시스템의 형태로 우리 삶의 필수적인 측면이 됨에 따라 장벽을 허물고, 관습을 깨고, 그들과 상호 작용할 새로운 방법을 고안해야 할 필요성이 생겨났습니다. 단순히 마우스, 키보드 등 연결된 주변기기를 사용하던 것에서, 보다 편리하게 사용할 수 있는 마우스 패드로 전환했습니다. 그런 다음 입력을 제공하고 작업을 실행하는 데 더 많은 편의를 제공하는 터치스크린으로 마이그레이션했습니다.

장치가 우리 자신의 확장이 되면서 우리는 이제 음성을 통해 명령하는 새로운 매체의 잠금을 해제하고 있습니다. 우리는 그것을 작동시키기 위해 장치 근처에 있을 필요조차 없습니다. 우리가 해야 할 일은 음성을 사용하여 잠금을 해제하고 입력을 명령하는 것입니다. 가까운 방에서 운전 중 다른 기기를 동시에 사용하면서 대화형 AI가 의도한 작업을 원활하게 수행합니다. 그렇다면 어디서부터 시작해야 할까요? ML 모델을 훈련하기 위한 고품질 음성 데이터로 모든 것이 시작됩니다.

스피치 트레이닝 데이터 수집의 기초

대화형 AI를 위한 AI 교육 데이터 수집 및 주석 달기는 매우 다릅니다.. 인간의 명령에는 수많은 복잡성이 관련되어 있으며 영향력 있는 결과를 위해 모든 측면이 수용되도록 다양한 조치를 구현해야 합니다. 음성 데이터의 몇 가지 기본 사항이 무엇인지 살펴보겠습니다.

자연어 이해 (NLU)

챗봇과 가상 비서가 문자나 명령을 이해하고 응답할 수 있도록 하는 프로세스 NLU 구현됩니다. 그것은 자연어 이해 다양한 입력 유형을 해석하고 처리하기 위한 세 가지 기술 개념이 포함됩니다.

  • 의지

    모든 것은 의도에서 시작됩니다. 특정 사용자가 명령을 통해 전달, 통신 또는 달성하려는 것은 무엇입니까? 사용자가 정보를 찾고 있습니까? 그들은 행동에 대한 업데이트를 기다리고 있습니까? 그들은 시스템이 실행할 명령을 내리고 있습니까? 그들은 그것을 어떻게 명령하고 있습니까? 질문을 통해서인가, 요청을 통해서인가? 이러한 모든 측면은 기계가 의도와 목적을 이해하고 분류하여 각각 밀폐된 응답을 제공하는 데 도움이 됩니다.

  • 발화 모음

    "가장 가까운 ATM이 어디에 있습니까?"라는 명령에는 차이가 있습니다. "가까운 ATM을 찾아주세요." 이제 인간은 둘 다 같은 것을 의미하지만 기계는 이 차이로 설명해야 한다는 것을 인정할 것입니다. 그것들은 의도 측면에서 동일하지만 의도가 어떻게 형성되었는지 완전히 다릅니다.

    발화 수집은 작업 및 응답의 정확한 실행을 위한 특정 목표를 위해 다양한 발화 및 구를 정의하고 매핑하는 것입니다. 기술적으로 데이터 주석 전문가는 기계가 이를 구별할 수 있도록 음성 데이터 또는 텍스트 데이터에 대해 작업합니다.

  • 항목 추출

    모든 문장에는 가중치를 강조하는 특정 단어나 구가 있으며, 이 강조가 문맥과 목적의 해석으로 이어집니다. 기계는 단단한 시스템과 마찬가지로 그러한 개체를 숟가락으로 먹여야 합니다. 예를 들어, "6번가 근처에서 내 기타의 현을 어디에서 찾을 수 있나요?"

    문장을 다듬으면 find는 엔터티 6, 현은 4, 기타는 XNUMX, XNUMXth avenue는 XNUMX입니다. 이러한 엔터티는 적절한 결과를 검색하기 위해 기계에 의해 함께 뭉쳐지고 이를 위해 전문가가 백엔드에서 작업합니다.

대화형 AI 모델을 더 빠르게 훈련시키기 위한 상용 음성/음성/오디오 데이터 세트

대화형 AI를 위한 대화 디자인하기

AI의 목표는 주로 제스처, 행동 및 반응을 통해 인간 행동을 복제하는 것이었습니다. 의식이 있는 인간의 마음은 맥락, 의도, 어조, 감정 및 기타 요소를 이해하고 그에 따라 대응하는 타고난 능력을 가지고 있습니다. 그러나 기계는 이러한 측면을 어떻게 구별할 수 있습니까? 

대화 디자인하기 대화 형 AI 매우 복잡하고 더 중요하게는 보편적인 모델을 출시하는 것이 매우 불가능합니다. 각 개인은 생각하고 말하고 반응하는 방식이 다릅니다. 응답에서도 우리 모두는 자신의 생각을 독특하게 표현합니다. 따라서 기계는 듣고 그에 따라 응답해야 합니다. 

그러나 이 역시 순탄하지 않다. 사람이 말을 하면 억양, 발음, 민족, 언어 등의 요인이 겹친다. 특정 단어는 인디언, 영국인, 미국인, 멕시코인이 받아쓰기를 할 때 무수히 많은 방법으로 기계가 이해할 수 있습니다. 수많은 언어 장벽이 작용하며 응답 시스템을 만드는 가장 실용적인 방법은 순서도 기반의 시각적 프로그래밍을 사용하는 것입니다. 

전용 블록을 통해 제스처, 반응 및 트리거, 작가와 전문가는 기계가 캐릭터를 개발하도록 도울 수 있습니다.. 이것은 알고리즘 기계가 올바른 응답을 내놓는 데 사용할 수 있는 것과 비슷합니다. 입력이 입력되면 정보는 해당 요소를 통해 흐르고 기계가 전달할 올바른 응답으로 이어집니다. 

다양성을 위한 다이얼 D

앞서 언급했듯이 인간의 상호 작용은 매우 독특합니다. 전 세계의 사람들은 다양한 삶의 방식, 배경, 국적, 인구 통계, 민족성, 억양, 딕션, 발음 등을 가지고 있습니다. 

대화형 봇이나 시스템이 보편적으로 작동하려면 가능한 한 다양한 훈련 데이터로 훈련해야 합니다. 예를 들어 모델이 특정 언어나 민족의 음성 데이터로만 훈련된 경우 새로운 억양이 시스템을 혼란스럽게 만들고 잘못된 결과를 제공하도록 합니다. 이는 사업주 뿐만 아니라 이용자들에게도 모욕적인 일이다. 

그렇기 때문에 개발 단계에는 가능한 모든 배경을 가진 사람들로 구성된 다양한 데이터 세트의 풍부한 풀에서 AI 교육 데이터가 포함되어야 합니다. 시스템이 이해하는 억양과 민족이 많을수록 더 보편적입니다. 게다가 사용자를 더 짜증나게 하는 것은 잘못된 정보 검색이 아니라 처음부터 입력 내용을 이해하지 못하는 것입니다. 

편향을 제거하는 것이 핵심 우선순위가 되어야 하며 기업이 이를 수행할 수 있는 한 가지 방법은 크라우드소싱 데이터를 선택하는 것입니다. 음성 데이터 또는 텍스트 데이터를 크라우드소싱하면 전 세계의 사람들이 요구 사항에 기여할 수 있으므로 데이터 풀만 건전할 수 있습니다. 블로그 데이터를 크라우드소싱 작업자에게 아웃소싱하는 것의 이점과 함정을 이해합니다. 이제 모델이 다양한 억양과 발음을 이해하고 그에 따라 반응합니다. 

앞으로 길

대화형 AI를 개발하는 것은 아기를 키우는 것만큼 어렵습니다. 유일한 차이점은 유아가 결국 사물을 이해하고 자율적으로 의사 소통하는 데 더 잘 자라게 된다는 것입니다. 지속적으로 밀어야 하는 것은 기계입니다. 현재 이 분야에는 몇 가지 도전 과제가 있으며 이러한 도전 과제에도 불구하고 가장 혁신적인 대화형 AI 시스템이 몇 가지 있다는 사실을 인정해야 합니다. 우리의 친근한 이웃 챗봇과 가상 비서의 미래가 어떻게 될지 기다려 봅시다. 한편 Google Home과 같은 대화형 AI를 비즈니스용으로 개발하려는 경우 AI 교육 데이터 및 주석 요구 사항에 대해 문의하십시오..

사회 공유하기