정의
명명된 엔터티 인식(NER)은 사람, 조직, 위치, 날짜 또는 제품 등 텍스트에서 엔터티를 식별하고 분류하는 NLP 작업입니다.
목적
비정형 텍스트를 핵심 엔티티를 추출하여 구조화하는 것이 목적입니다. 검색, 정보 추출, 지식 그래프 구축을 지원합니다.
중요성
- 정보 검색 및 NLP 파이프라인의 기본입니다.
- 오류는 다운스트림 애플리케이션으로 전파됩니다.
- 도메인별 NER(예: 의료, 법률)에는 사용자 지정 데이터 세트가 필요합니다.
- 엔터티 연결 및 관계 추출과 같은 작업과 관련이 있습니다.
작동 원리
- 텍스트를 수집하고 사전 처리합니다.
- 엔터티 카테고리로 데이터 세트에 주석을 추가합니다.
- 레이블이 지정된 예제(CRF, 변환기)에 대한 모델을 학습합니다.
- 보이지 않는 텍스트에서 엔티티를 예측합니다.
- 테스트 데이터로 정확성을 검증합니다.
예시(실제 세계)
- spaCy: NER이 내장된 오픈소스 NLP 라이브러리.
- Stanford CoreNLP: 명명된 엔터티 인식 도구를 제공합니다.
- 재무 NLP: 보고서에서 회사 이름을 추출합니다.
참고문헌 / 추가 자료
- 주라프스키 & 마틴. 음성 및 언어 처리. 스탠퍼드.
- Lample 외. "명명된 개체 인식을 위한 신경망 구조." ACL.
- 허깅 페이스 트랜스포머 NER 모델.
- 명명된 엔터티 인식(NER)이란 무엇입니까?