NER (Named Entity Recognition)

NER(Named Entity Recognition) – 개념, 유형 및 응용 프로그램

우리는 단어를 듣거나 텍스트를 읽을 때마다 그 단어를 식별하고 사람, 장소, 위치, 가치 등으로 분류하는 자연스러운 능력을 가지고 있습니다. 인간은 단어를 빠르게 인식하고 분류하고 문맥을 이해할 수 있습니다. 예를 들어 '스티브 잡스'라는 단어를 들으면 즉시 적어도 XNUMX~XNUMX개의 속성이 생각나서 엔터티를 범주로 분리할 수 있습니다.

  • 사람: 스티브 잡스
  • 회사: Apple
  • 위치: 캘리포니아

컴퓨터는 이러한 타고난 능력이 없기 때문에 단어나 텍스트를 식별하고 분류하려면 우리의 도움이 필요합니다. 그것은 어디 명명 된 개체 인식 (네르) 놀이로 제공됩니다.

NER와 NLP와의 관계에 대해 간략히 알아보겠습니다.

명명 된 개체 인식이란 무엇입니까?

명명된 엔터티 인식은 자연어 처리의 일부입니다. 의 주요 목표 NER 처리하는 것입니다 정형 및 비정형 데이터 이러한 명명된 엔터티를 미리 정의된 범주로 분류합니다. 일부 일반적인 범주에는 이름, 위치, 회사, 시간, 금전적 가치, 이벤트 등이 포함됩니다.

간단히 말해서 NER는 다음을 처리합니다.

  • 명명된 엔터티 인식/탐지 – 문서에서 단어 또는 일련의 단어를 식별합니다.
  • 명명된 엔터티 분류 – 감지된 모든 엔터티를 미리 정의된 범주로 분류합니다.

그러나 NER는 NLP와 어떤 관련이 있습니까?

자연어 처리는 음성과 텍스트에서 의미를 추출할 수 있는 지능형 기계를 개발하는 데 도움이 됩니다. 머신 러닝은 이러한 지능형 시스템이 많은 양의 자연어에 대한 교육을 통해 학습을 계속할 수 있도록 지원합니다. 데이터 세트.

일반적으로 NLP는 세 가지 주요 범주로 구성됩니다.

  • 언어의 구조와 규칙 이해 - 통사론
  • 단어, 텍스트 및 연설의 의미를 도출하고 이들의 관계를 식별 - 의미론
  • 음성 단어를 식별하고 인식하여 텍스트로 변환 – 연설

NER는 NLP의 의미 부분을 도와 단어의 의미를 추출하고 관계를 기반으로 단어를 식별하고 찾습니다.

NER의 일반적인 예

미리 결정된 몇 가지 일반적인 예 엔티티 분류 위치 :

너의 예시
너의 예시

사람: 마이클 잭슨, 오프라 윈프리, 버락 오바마, 수잔 서랜든

위치: 캐나다, 호놀룰루, 방콕, 브라질, 케임브리지

조직 : 삼성, 디즈니, 예일대학교, 구글

시간: 15.35시 12분, 오후 XNUMX시,

기타 범주에는 숫자 값, 표현식, 전자 메일 주소 및 기능이 포함됩니다.

명명된 엔터티 인식의 모호성

용어가 속하는 범주는 인간에게 직관적으로 매우 명확합니다. 그러나 컴퓨터의 경우는 그렇지 않습니다. 분류 문제가 발생합니다. 예를 들어:

맨체스터시 (회사조직) 프리미어 리그 트로피를 획득한 반면 다음 문장에서는 조직이 다르게 사용됩니다. 맨체스터시 (장소)는 섬유 및 산업 강국이었습니다.

NER 모델에 필요한 사항 훈련 데이터 정확한 수행 엔티티 추출 그리고 분류. 셰익스피어 영어로 모델을 훈련하는 경우 말할 필요도 없이 Instagram을 해독할 수 없습니다.

다양한 NER 접근 방식

의 주요 목표 네르 모델 텍스트 문서의 엔터티에 레이블을 지정하고 분류하는 것입니다. 이를 위해 일반적으로 다음 세 가지 접근 방식이 사용됩니다. 그러나 하나 이상의 방법을 결합하도록 선택할 수도 있습니다.

오늘 AI 교육 데이터 요구 사항에 대해 논의해 보겠습니다.

NER 시스템을 만드는 다양한 접근 방식은 다음과 같습니다.

  • 사전 기반 시스템

    사전 기반 시스템은 아마도 가장 간단하고 기본적인 NER 접근 방식일 것입니다. 많은 단어, 동의어 및 어휘 모음이 있는 사전을 사용합니다. 시스템은 텍스트에 있는 특정 엔터티가 어휘에서도 사용 가능한지 여부를 확인합니다. 문자열 일치 알고리즘을 사용하여 엔터티의 교차 검사가 수행됩니다.

    이 접근 방식을 사용할 때의 한 가지 단점은 NER 모델의 효과적인 기능을 위해 어휘 데이터 세트를 지속적으로 업그레이드해야 한다는 것입니다.

  • 규칙 기반 시스템

    이 접근 방식에서는 미리 설정된 규칙 집합을 기반으로 정보를 추출합니다. 사용되는 두 가지 기본 규칙 집합이 있습니다.

    패턴 기반 규칙 – 이름에서 알 수 있듯이 패턴 기반 규칙은 문서에 사용된 형태학적 패턴 또는 단어 문자열을 따릅니다.

    컨텍스트 기반 규칙 – 컨텍스트 기반 규칙은 문서에 있는 단어의 의미 또는 컨텍스트에 따라 다릅니다.

  • 머신 러닝 기반 시스템

    기계 학습 기반 시스템에서 통계 모델링은 엔터티를 감지하는 데 사용됩니다. 이 접근 방식에서는 텍스트 문서의 기능 기반 표현이 사용됩니다. 모델이 엔티티 유형 철자의 약간의 변형에도 불구하고.

명명된 엔터티 인식의 사용 사례 및 예?

명명된 엔터티 인식(NER)의 다양성 공개:

  1. 챗봇 : NER는 OpenAI의 ChatGPT와 같은 챗봇이 주요 엔터티를 식별하여 사용자 쿼리를 이해하는 데 도움을 줍니다.
  2. 고객 지원: 고객 피드백을 제품 이름별로 정리하여 응답 시간을 단축합니다.
  3. 금융 : NER는 재무 보고서에서 중요한 데이터를 추출하여 추세 분석 및 위험 평가를 지원합니다.
  4. 건강 관리: 임상 기록에서 필수 정보를 가져와 보다 빠른 데이터 분석을 촉진합니다.
  5. HR : 지원자 프로필을 요약하고 직원 피드백을 전달하여 채용을 간소화합니다.
  6. 뉴스 제공자: NER는 콘텐츠를 관련 정보와 동향으로 분류하여 보고 속도를 높입니다.
  7. 추천 엔진: Netflix와 같은 회사는 NER를 사용하여 사용자 행동에 따라 추천을 개인화합니다.
  8. 검색 엔진: NER는 웹 콘텐츠를 분류함으로써 검색 결과의 정확성을 높입니다.
  9. 감정 분석: NER는 리뷰에서 브랜드 언급을 추출하여 감정 분석 도구를 강화합니다.

NER의 응용

NER는 자연어 처리 및 교육 데이터 세트 생성과 관련된 다양한 분야에서 여러 가지 사용 사례를 보유하고 있습니다. 기계 학습 깊은 학습 솔루션. NER의 일부 응용 프로그램은 다음과 같습니다.

  • 간소화된 고객 지원

    NER 시스템은 제품 이름, 사양, 지점 위치 등과 같은 중요한 정보를 기반으로 관련 고객 불만 사항, 쿼리 및 피드백을 쉽게 찾아낼 수 있습니다. 불만사항이나 피드백은 우선순위 키워드를 필터링하여 적절하게 분류되어 해당 부서로 전달됩니다.

  • 효율적인 인적 자원

    NER는 지원자의 이력서를 신속하게 요약하여 인사팀이 채용 프로세스를 개선하고 일정을 단축하도록 돕습니다. NER 도구는 이력서를 스캔하고 이름, 나이, 주소, 자격, 대학 등 관련 정보를 추출할 수 있습니다.

    또한 HR 부서는 NER 도구를 사용하여 직원 불만을 필터링하고 관련 부서장에게 전달하여 내부 워크플로를 간소화할 수도 있습니다.

  • 간소화된 콘텐츠 분류

    콘텐츠 분류는 뉴스 제공자에게 엄청난 작업입니다. 콘텐츠를 다양한 범주로 분류하면 더 쉽게 발견하고, 통찰력을 얻고, 추세를 식별하고, 주제를 이해할 수 있습니다. 명명된 엔티티 인식 이 도구는 뉴스 제공자에게 유용할 수 있습니다. 많은 기사를 스캔하고, 우선 순위 키워드를 식별하고, 사람, 조직, 위치 등을 기반으로 정보를 추출할 수 있습니다.

  • 검색 엔진 최적화

    검색 엔진 최적화 NER 검색 결과의 속도와 관련성을 단순화하고 개선하는 데 도움이 됩니다. 수천 개의 기사에 대해 검색 쿼리를 실행하는 대신 NER 모델은 쿼리를 한 번 실행하고 결과를 저장할 수 있습니다. 따라서 검색어의 태그를 기반으로 검색어와 관련된 기사를 빠르게 선택할 수 있습니다.

     

  • 정확한 콘텐츠 추천

    여러 최신 애플리케이션은 NER 도구를 사용하여 최적화되고 맞춤화된 고객 경험을 제공합니다. 예를 들어 Netflix는 명명된 엔터티 인식을 사용하여 사용자의 검색 및 보기 기록을 기반으로 개인화된 추천을 제공합니다.

Named Entity Recognition은 기계 학습 보다 효율적이고 안정적인 모델을 제공합니다. 그러나 모델이 최적의 수준에서 작동하고 의도한 목표를 달성하려면 고품질 교육 데이터 세트가 필요합니다. 바로 사용할 수 있는 고품질 데이터 세트를 제공할 수 있는 숙련된 서비스 파트너만 있으면 됩니다. 그렇다면 Shaip이 최선의 선택입니다. AI 모델을 위한 효율적인 고급 ML 솔루션을 개발하는 데 도움이 되는 포괄적인 NER 데이터 세트를 얻으려면 당사에 문의하세요.

[또한 읽기: 사례 연구: 임상 NLP를 위한 명명된 개체 인식(NER)]

명명된 엔터티 인식은 어떻게 작동합니까?

명명된 엔터티 인식(NER) 영역을 탐구하면 여러 단계로 구성된 체계적인 여정이 공개됩니다.

  • 토큰 화

    처음에 텍스트 데이터는 단어에서 문장에 이르기까지 토큰이라는 더 작은 단위로 분할됩니다. 예를 들어, "Barack Obama was the President of the USA"라는 진술은 "Barack", "Obama", "was", "the", "president", "of", "the" 및 "와 같은 토큰으로 분할됩니다. 미국".

  • 엔티티 감지

    언어학적 지침과 통계적 방법론을 결합하여 잠재적인 명명된 개체에 주목합니다. 이 단계에서는 이름의 대문자 사용(“Barack Obama”) 또는 고유한 형식(예: 날짜)과 같은 패턴을 인식하는 것이 중요합니다.

  • 엔터티 분류

    감지 후 엔터티는 "사람", "조직" 또는 "위치"와 같은 사전 정의된 범주로 정렬됩니다. 레이블이 지정된 데이터세트를 기반으로 육성된 기계 학습 모델이 이러한 분류를 주도하는 경우가 많습니다. 여기서 "Barack Obama"는 "Person"으로 태그되고 "USA"는 "Location"으로 태그됩니다.

  • 상황에 따른 평가

    NER 시스템의 성능은 주변 상황을 평가함으로써 증폭되는 경우가 많습니다. 예를 들어, "워싱턴은 역사적 사건을 목격했습니다"라는 문구에서 문맥은 "워싱턴"을 사람의 이름이 아닌 위치로 식별하는 데 도움이 됩니다.

  • 평가 후 개선

    초기 식별 및 분류 후에는 결과를 다듬기 위한 사후 평가 개선이 이어질 수 있습니다. 이 단계에서는 모호성을 해결하거나, 멀티 토큰 엔터티를 융합하거나, 지식 기반을 활용하여 엔터티 데이터를 늘릴 수 있습니다.

이러한 상세한 접근 방식은 NER의 핵심을 이해할 수 있을 뿐만 아니라 검색 엔진의 콘텐츠를 최적화하여 NER가 구현하는 복잡한 프로세스의 가시성을 향상시킵니다.

NER 혜택 및 과제?

혜택 :

  1. 정보 추출: NER는 핵심 데이터를 식별하여 정보 검색을 돕습니다.
  2. 콘텐츠 구성: 콘텐츠를 분류하는 데 도움이 되며 데이터베이스 및 검색 엔진에 유용합니다.
  3. 향상된 사용자 경험: NER는 검색 결과를 세분화하고 추천을 개인화합니다.
  4. 통찰력 있는 분석: 정서 분석 및 추세 감지를 용이하게 합니다.
  5. 자동화 된 워크 플로우: NER는 자동화를 촉진하여 시간과 자원을 절약합니다.

한계/도전:

  1. 모호성 해결: 유사한 개체를 구별하는 데 어려움을 겪습니다.
  2. 도메인별 적응: 다양한 도메인에 걸쳐 리소스 집약적입니다.
  3. 언어 의존성: 언어에 따라 효과가 다릅니다.
  4. 라벨링된 데이터의 부족: 훈련을 위해 대규모 레이블이 지정된 데이터세트가 필요합니다.
  5. 비정형 데이터 처리: 고급 기술이 필요합니다.
  6. 성능 측정: 정확한 평가는 복잡합니다.
  7. 실시간 처리: 속도와 정확성의 균형을 맞추는 것이 어렵습니다.

사회 공유하기

당신은 또한 같은 수 있습니다