NER (Named Entity Recognition)

NER(Named Entity Recognition) – 개념, 유형 및 응용 프로그램

우리는 단어를 듣거나 텍스트를 읽을 때마다 그 단어를 식별하고 사람, 장소, 위치, 가치 등으로 분류하는 자연스러운 능력을 가지고 있습니다. 인간은 단어를 빠르게 인식하고 분류하고 문맥을 이해할 수 있습니다. 예를 들어 '스티브 잡스'라는 단어를 들으면 즉시 적어도 XNUMX~XNUMX개의 속성이 생각나서 엔터티를 범주로 분리할 수 있습니다.

  • 사람: 스티브 잡스
  • 회사: Apple
  • 국가: 캘리포니아

컴퓨터는 이러한 타고난 능력이 없기 때문에 단어나 텍스트를 식별하고 분류하려면 우리의 도움이 필요합니다. 그것은 어디 명명 된 개체 인식 (네르) 놀이로 제공됩니다.

NER와 NLP와의 관계에 대해 간략히 알아보겠습니다.

명명 된 개체 인식이란 무엇입니까?

명명된 엔터티 인식은 자연어 처리의 일부입니다. 의 주요 목표 NER 처리하는 것입니다 정형 및 비정형 데이터 이러한 명명된 엔터티를 미리 정의된 범주로 분류합니다. 일부 일반적인 범주에는 이름, 위치, 회사, 시간, 금전적 가치, 이벤트 등이 포함됩니다.

간단히 말해서 NER는 다음을 처리합니다.

  • 명명된 엔터티 인식/탐지 – 문서에서 단어 또는 일련의 단어를 식별합니다.
  • 명명된 엔터티 분류 – 감지된 모든 엔터티를 미리 정의된 범주로 분류합니다.

그러나 NER는 NLP와 어떤 관련이 있습니까?

자연어 처리는 음성과 텍스트에서 의미를 추출할 수 있는 지능형 기계를 개발하는 데 도움이 됩니다. 머신 러닝은 이러한 지능형 시스템이 많은 양의 자연어에 대한 교육을 통해 학습을 계속할 수 있도록 지원합니다. 데이터 세트.

일반적으로 NLP는 세 가지 주요 범주로 구성됩니다.

  • 언어의 구조와 규칙 이해 - 통사론
  • 단어, 텍스트 및 연설의 의미를 도출하고 이들의 관계를 식별 - 의미론
  • 음성 단어를 식별하고 인식하여 텍스트로 변환 – 연설

NER는 다음의 의미론적 부분을 돕습니다. NLP, 단어의 의미를 추출하고 관계를 기반으로 단어를 식별하고 찾습니다.

NER의 일반적인 예

미리 결정된 몇 가지 일반적인 예 엔티티 분류 위치 :

Ner의 일반적인 예 사람: 마이클 잭슨, 오프라 윈프리, 버락 오바마, 수잔 서랜든

국가: 캐나다, 호놀룰루, 방콕, 브라질, 케임브리지

조직 : 삼성, 디즈니, 예일대학교, 구글

시간: 15.35시 12분, 오후 XNUMX시,

기타 범주에는 숫자 값, 표현식, 전자 메일 주소 및 기능이 포함됩니다.

명명된 엔터티 인식의 모호성

용어가 속하는 범주는 인간에게 직관적으로 매우 명확합니다. 그러나 컴퓨터의 경우는 그렇지 않습니다. 분류 문제가 발생합니다. 예를 들어:

맨체스터시 (조직) 프리미어 리그 트로피를 획득한 반면 다음 문장에서는 조직이 다르게 사용됩니다. 맨체스터시 (촬영장소 대여)는 섬유 및 산업 강국이었습니다.

NER 모델에 필요한 사항 훈련 데이터 정확한 수행 엔티티 추출 그리고 분류. 셰익스피어 영어로 모델을 훈련하는 경우 말할 필요도 없이 Instagram을 해독할 수 없습니다.

다양한 NER 접근 방식

의 주요 목표 네르 모델 텍스트 문서의 엔터티에 레이블을 지정하고 분류하는 것입니다. 이를 위해 일반적으로 다음 세 가지 접근 방식이 사용됩니다. 그러나 하나 이상의 방법을 결합하도록 선택할 수도 있습니다.

오늘 AI 교육 데이터 요구 사항에 대해 논의해 보겠습니다.

NER 시스템을 만드는 다양한 접근 방식은 다음과 같습니다.

  • 사전 기반 시스템

    사전 기반 시스템은 아마도 가장 간단하고 기본적인 NER 접근 방식일 것입니다. 많은 단어, 동의어 및 어휘 모음이 있는 사전을 사용합니다. 시스템은 텍스트에 있는 특정 엔터티가 어휘에서도 사용 가능한지 여부를 확인합니다. 문자열 일치 알고리즘을 사용하여 엔터티의 교차 검사가 수행됩니다.

    이 접근 방식을 사용할 때의 한 가지 단점은 NER 모델의 효과적인 기능을 위해 어휘 데이터 세트를 지속적으로 업그레이드해야 한다는 것입니다.

  • 규칙 기반 시스템

    이 접근 방식에서는 미리 설정된 규칙 집합을 기반으로 정보를 추출합니다. 사용되는 두 가지 기본 규칙 집합이 있습니다.

    패턴 기반 규칙 – 이름에서 알 수 있듯이 패턴 기반 규칙은 문서에 사용된 형태학적 패턴 또는 단어 문자열을 따릅니다.

    컨텍스트 기반 규칙 – 컨텍스트 기반 규칙은 문서에 있는 단어의 의미 또는 컨텍스트에 따라 다릅니다.

  • 머신 러닝 기반 시스템

    기계 학습 기반 시스템에서 통계 모델링은 엔터티를 감지하는 데 사용됩니다. 이 접근 방식에서는 텍스트 문서의 기능 기반 표현이 사용됩니다. 모델이 엔티티 유형 철자의 약간의 변형에도 불구하고.

NER의 응용

NER는 자연어 처리 및 학습 데이터 세트 생성과 관련된 많은 분야에서 여러 사용 사례를 가지고 있습니다. 기계 학습 깊은 학습 솔루션. NER의 일부 응용 프로그램은 다음과 같습니다.

  • 간소화된 고객 지원

    NER 시스템은 제품 이름, 사양, 지점 위치 등과 같은 중요한 정보를 기반으로 관련 고객 불만, 쿼리 및 피드백을 쉽게 찾아낼 수 있습니다. 불만 사항이나 피드백은 우선 순위 키워드를 필터링하여 적절하게 분류되고 올바른 부서로 전달됩니다.

  • 효율적인 인적 자원

    NER는 인적 자원 팀이 지원자의 이력서를 신속하게 요약하여 채용 프로세스를 개선하고 일정을 줄이는 데 도움이 됩니다. NER 도구는 이력서를 스캔하고 이름, 나이, 주소, 자격, 대학 등 관련 정보를 추출할 수 있습니다.

    또한 HR 부서는 NER 도구를 사용하여 직원 불만을 필터링하고 관련 부서장에게 전달하여 내부 워크플로를 간소화할 수도 있습니다.

  • 간소화된 콘텐츠 분류

    콘텐츠 분류는 뉴스 제공자에게 엄청난 작업입니다. 콘텐츠를 다양한 범주로 분류하면 더 쉽게 발견하고, 통찰력을 얻고, 추세를 식별하고, 주제를 이해할 수 있습니다. 명명된 엔티티 인식 이 도구는 뉴스 제공자에게 유용할 수 있습니다. 많은 기사를 스캔하고, 우선 순위 키워드를 식별하고, 사람, 조직, 위치 등을 기반으로 정보를 추출할 수 있습니다.

  • 검색 엔진 최적화

    검색 엔진 마케팅 (SEO) NER 검색 결과의 속도와 관련성을 단순화하고 개선하는 데 도움이 됩니다. 수천 개의 기사에 대해 검색 쿼리를 실행하는 대신 NER 모델은 쿼리를 한 번 실행하고 결과를 저장할 수 있습니다. 따라서 검색어의 태그를 기반으로 검색어와 관련된 기사를 빠르게 선택할 수 있습니다.

  • 정확한 콘텐츠 추천

    몇 가지 최신 애플리케이션은 최적화되고 맞춤화된 고객 경험을 제공하기 위해 NER 도구에 의존합니다. 예를 들어 Netflix는 명명된 엔터티 인식을 사용하여 사용자의 검색 및 시청 기록을 기반으로 개인화된 추천을 제공합니다.

Named Entity Recognition은 기계 학습 모델을 보다 효율적이고 신뢰할 수 있습니다. 그러나 모델이 최적의 수준에서 작동하고 의도한 목표를 달성하려면 양질의 교육 데이터 세트가 필요합니다. 필요한 것은 바로 사용할 수 있는 고품질 데이터 세트를 제공할 수 있는 경험 많은 서비스 파트너입니다. 그렇다면 Shaip이 최선의 선택입니다. AI 모델을 위한 효율적이고 고급 ML 솔루션을 개발하는 데 도움이 되는 포괄적인 NER 데이터 세트에 대해 문의하십시오.P

사회 공유하기

당신은 또한 같은 수 있습니다