데이터 라벨링

수동 및 자동 데이터 레이블링의 차이점 이해

AI 솔루션을 개발하는 경우 제품의 시장 출시 시간은 교육 목적을 위한 고품질 데이터 세트의 적시 가용성에 크게 의존합니다. 모델 교육 프로세스를 시작하는 데 필요한 데이터 세트가 있는 경우에만 결과를 최적화하고 출시를 위해 솔루션을 준비하십시오.

품질 데이터 세트를 적시에 가져오는 것은 규모와 규모에 관계없이 모든 비즈니스에서 어려운 과제입니다. 미숙한 분들은 가까운 기업의 19% AI 솔루션을 채택하지 못하도록 제한하는 것은 데이터 가용성의 부족임을 드러냅니다.

또한 관련성 있고 상황에 맞는 데이터를 생성하더라도 데이터 주석 그 자체로 도전이다. 시간이 많이 걸리고 뛰어난 숙달과 세부 사항에 대한 관심이 필요합니다. AI 개발 시간의 약 80%가 데이터 세트에 주석을 추가하는 데 소요됩니다.

이제 AI 교육의 핵심인 데이터 주석 프로세스를 시스템에서 완전히 제거할 수는 없습니다. 손에 주석이 달린 데이터가 없으면 모델이 결과를 제공하지 못할 것입니다(품질 결과는 고사함). 지금까지 데이터 기반 문제, 주석 기술 등에 대한 수많은 주제에 대해 논의했습니다. 오늘 우리는 데이터 라벨링 자체와 관련된 또 다른 중요한 측면에 대해 논의할 것입니다.

이 포스트에서 우리는 스펙트럼에서 사용되는 두 가지 유형의 주석 방법을 살펴볼 것입니다.

  • 수동 데이터 레이블 지정
  • 그리고 자동 데이터 라벨링

우리는 둘 사이의 차이점, 수동 개입이 중요한 이유, 자동 개입과 ​​관련된 위험에 대해 밝힐 것입니다. 데이터 라벨링.

수동 데이터 레이블 지정

이름에서 알 수 있듯이 수동 데이터 레이블 지정에는 사람이 포함됩니다. 데이터 주석 전문가는 데이터 세트의 요소에 태그 지정을 담당합니다. 전문가란 주석을 달아야 할 대상을 정확히 알고 있는 SME 및 도메인 당국을 의미합니다. 수동 프로세스는 주석을 위한 원시 데이터 세트를 주석가에게 제공하는 것으로 시작됩니다. 데이터 세트는 이미지, 비디오 파일, 오디오 녹음 또는 스크립트, 텍스트 또는 이들의 조합일 수 있습니다.

프로젝트, 필요한 결과 및 사양을 기반으로 애노테이터는 관련 요소에 애노테이션을 작성합니다. 전문가는 특정 데이터 세트 및 목적에 가장 적합한 기술을 알고 있습니다. 그들은 프로젝트에 적합한 기술을 사용하고 훈련 가능한 데이터 세트를 적시에 제공합니다.

수동 데이터 레이블 지정 수동 레이블 지정은 시간이 많이 소요되며 데이터 세트당 평균 주석 시간은 사용된 도구, 주석을 추가할 요소 수, 데이터 품질 등과 같은 여러 요인에 따라 달라집니다. 예를 들어 전문가가 이미지당 1500개의 주석으로 100,000개에 가까운 이미지에 레이블을 지정하는 데 최대 5시간이 걸릴 수 있습니다.

수동 레이블 지정은 프로세스의 한 부분일 뿐이지만 주석 워크플로에는 품질 검사 및 감사라는 두 번째 단계가 있습니다. 여기에서 주석이 달린 데이터 세트의 진위성과 정확성이 검증됩니다. 이를 위해 회사는 만장일치 결과를 위해 동일한 데이터 세트에서 여러 주석이 작동하는 합의 방법을 채택합니다. 의견 및 신고의 경우에도 불일치가 해결됩니다. 주석 프로세스와 비교할 때 품질 검사 단계는 덜 힘들고 시간이 많이 걸립니다.

오늘 AI 교육 데이터 요구 사항에 대해 논의해 보겠습니다.

자동 데이터 라벨링

이제 데이터 레이블 지정에 얼마나 많은 수작업이 들어가는지 이해하게 되었습니다. 의료, 정밀도 및 세부 사항에 대한 관심과 같은 분야에서 사용되는 솔루션의 경우 더욱 중요해집니다. 더 빠른 데이터 레이블 지정 및 주석이 있는 데이터 전달을 위한 기반을 마련하기 위해 자동 데이터 레이블 지정 모델이 점차 유명해지고 있습니다.

이 방법에서 AI 시스템은 데이터 주석을 처리합니다. 이것은 휴리스틱 방법이나 기계 학습 모델 또는 둘 모두의 도움으로 달성됩니다. 발견적 방법에서 단일 데이터 세트는 일련의 사전 정의된 규칙 또는 조건을 통해 전달되어 특정 레이블의 유효성을 검사합니다. 조건은 인간이 정한다.

이 방법은 효율적이지만 데이터 구조가 자주 변경되면 실패합니다. 또한 시스템이 정보에 입각한 결정을 내리도록 조건을 설정하는 것이 복잡해집니다. 인간은 아이스크림과 레모네이드를 구별할 수 있지만, 우리는 뇌가 그 차이를 알아내기 위해 취하는 접근 방식을 모릅니다. 이것을 복제하는 것은 기계에서 인간적으로 불가능합니다.

이는 AI 시스템의 결과 품질과 관련하여 여러 가지 우려를 야기합니다. 자동화가 시작되지만 데이터 레이블을 확인하고 수정하려면 사람(또는 많은 사람)이 필요합니다. 그리고 이것은 우리의 다음 섹션에 대한 훌륭한 후속편입니다.

AI 지원 주석: 지능에는 두뇌가 필요합니다(하이브리드 접근 방식)

최상의 결과를 얻으려면 하이브리드 접근 방식이 필요합니다. AI 시스템은 더 빠른 라벨링을 처리할 수 있지만 인간은 결과를 검증하고 최적화할 수 있습니다. 데이터 주석의 전체 프로세스를 기계의 손에 맡기는 것은 좋지 않은 생각일 수 있으며 이것이 인간을 루프에 참여시키는 것이 완전히 합리적인 이유입니다.

AI 지원 주석 일단 훈련되면 기계는 가장 기본적인 요소를 정확하게 분할하고 주석을 달 수 있습니다. 수동 개입이 필요한 것은 복잡한 작업일 뿐입니다. 이러한 경우 수동 데이터 레이블 지정만큼 시간이 많이 걸리지 않고 자동 데이터 레이블 지정만큼 위험하지 않습니다.

균형이 확립되어 있고 프로세스도 비용 효율적인 방식으로 발생할 수 있습니다. 전문가는 기계가 더 나은 라벨을 생산할 수 있도록 최적화된 피드백 루프를 제시하여 궁극적으로 관련된 수동 작업의 필요성을 줄일 수 있습니다. 기계 신뢰도 점수가 크게 증가하면 레이블이 지정된 데이터의 품질도 향상될 수 있습니다.

최대 포장

완전 자율 데이터 라벨링 메커니즘은 결코 작동하지 않을 것입니다. 적어도 지금은 그렇습니다. 우리에게 필요한 것은 지루한 작업을 수행하는 사람과 기계의 조화입니다. 이는 또한 기업이 AI 교육 단계를 원활하게 시작할 수 있는 주석이 달린 데이터 세트의 제공 시간을 증가시킵니다. AI 모델을 위한 고품질 데이터 세트를 찾고 있다면, 오늘 우리에게 연락하십시오.

사회 공유하기