데이터 주석 – NER

Clinical NLP에 대한 NER(Named Entity Recognition) 주석

네르 주석

Healthcare API의 다음 버전을 구축하기 위해 임상 NLP를 교육/개발하기 위한 잘 주석 처리된 골드 표준 임상 텍스트 데이터

임상적 자연어 처리(NLP)의 중요성은 지난 몇 년간 점점 더 인식되어 왔으며 혁신적인 발전을 가져왔습니다. 임상 NLP를 통해 컴퓨터는 환자에 대한 의사의 서면 분석 뒤에 숨어 있는 풍부한 의미를 이해할 수 있습니다. 임상 NLP는 인구 건강 분석부터 임상 문서 개선, 음성 인식, 임상 시험 매칭 등에 이르기까지 다양한 사용 사례를 가질 수 있습니다.

임상 NLP 모델을 개발하고 훈련하려면 막대한 양의 정확하고 편견이 없으며 주석이 잘 달린 데이터 세트가 필요합니다. Gold Standard와 다양한 데이터는 NLP 엔진의 정밀도와 재현율을 높이는 데 도움이 됩니다.

음량

주석이 달린 문서 수
10
주석이 달린 페이지 수
10 +
프로젝트 기간
< 1 개월

도전

클라이언트는 새로운 엔터티 유형으로 자연어 처리(NLP) 플랫폼을 교육 및 개발하고 다양한 유형 간의 관계를 식별하기를 기대하고 있었습니다. 또한 그들은 높은 정확성을 제공하고 현지 법률을 준수하며 대규모 데이터 세트에 주석을 추가하는 데 필요한 의학 지식을 갖춘 공급업체를 평가하고 있었습니다.

작업은 입원환자 및 외래환자 전자 건강 기록(EHR) 데이터의 최대 20,000개 레이블 기록과 필사된 의료 구술의 최대 15,000개 레이블 기록을 포함하여 최대 5,000개의 레이블 기록에 레이블을 지정하고 주석을 달고 (1) 지리적 출처 및 ( 2) 이용 가능한 의료 전문 분야.

따라서 과제를 요약하면 다음과 같습니다.

  • NLP 플랫폼 학습을 위한 이기종 임상 데이터 정리
  • 중요한 정보를 도출하기 위해 다양한 엔터티 간의 관계를 식별합니다.
  • 광범위한 복잡한 임상 문서에 라벨을 붙이고 주석을 달 수 있는 능력과 전문성
  • 규정된 시간 내에 임상 NLP를 교육하기 위해 대량의 데이터에 라벨을 지정하고 주석을 달기 위한 비용을 통제합니다.
  • 75% EHR 및 25% 받아쓰기 기록으로 구성된 임상 데이터세트의 엔터티에 주석을 답니다.
  • 배송 시 데이터 비식별화

자연어 이해의 다른 과제

모호

단어는 고유하지만 문맥에 따라 다른 의미를 가질 수 있어 어휘, 구문, 의미 수준이 모호해집니다.

동의

동의어이기도 한 다른 용어로 동일한 아이디어를 표현할 수 있습니다. 물체를 설명할 때 크고 큰 것은 같은 의미입니다.

공동 참조

텍스트에서 동일한 엔터티를 참조하는 모든 표현을 찾는 과정을 상호참조 해결이라고 합니다.

성격, 의도, 감정

같은 생각이라도 말하는 사람의 성격이나 의도, 감정에 따라 다르게 표현될 수 있습니다.

해법

많은 양의 의료 데이터와 지식이 의료 문서 형태로 존재하지만, 대부분은 구조화되지 않은 형식입니다. 의료 개체 주석/NER(Named Entity Recognition) 주석을 통해 Shaip은 다양한 유형의 임상 기록에서 유용한 정보에 주석을 추가하여 구조화되지 않은 데이터를 구조화된 형식으로 변환할 수 있었습니다. 엔터티가 식별되면 중요한 정보를 식별하기 위해 엔터티 간의 관계도 매핑되었습니다.

업무 범위: 의료 기관 언급 주석

9 엔터티 유형

  • 건강 상태
  • 의료 절차
  • 해부학 적 구조
  • 의학
  • 의료 기기
  • 신체 측정
  • 약물 남용
  • 실험실 데이터
  • 신체 기능

17 수정자

  • 약물 수정자: 강도, 단위, 복용량, 시작, 빈도, 경로, 기간, 상태
  • 신체 측정 수정자: 값, 단위, 결과
  • 프로시저 수정자: 방법
    • 실험실 데이터 수정자: 실험실 값, 실험실 단위, 실험실 결과
  • 심각도
  • 절차 결과

27 관계 및 환자 상태

결과

주석이 달린 데이터는 고객의 의료 API의 다음 버전에 통합될 고객의 임상 NLP 플랫폼을 개발하고 교육하는 데 사용됩니다. 클라이언트가 얻은 이점은 다음과 같습니다.

  • 라벨링/주석 처리된 데이터는 고객의 표준 데이터 주석 지침을 충족했습니다.
  • 정확도를 높이기 위해 이기종 데이터 세트를 사용하여 NLP 플랫폼을 교육했습니다.
  • 다양한 개체 간의 관계, 즉 해부학적 신체 구조 <> 의료 기기, 질병 <> 의료 기기, 질병 <> 약물, 질병 <> 절차를 식별하여 중요한 의료 정보를 추출했습니다.
  • 라벨이 지정되거나 주석이 달린 광범위한 데이터 세트도 전달 시 식별되지 않았습니다.

Shaip과의 협력은 의료 분야의 주변 기술 및 대화형 AI 프로젝트를 크게 발전시켰습니다. 합성 의료 대화 작성 및 복사에 대한 전문 지식은 규제 문제를 극복하는 데 있어 합성 데이터의 잠재력을 보여주는 탄탄한 기반을 제공했습니다. Shaip을 통해 우리는 이러한 장애물을 극복했으며 이제 직관적인 의료 솔루션에 대한 비전 실현에 한 걸음 더 다가섰습니다.

골든-5성급

대화형 AI 가속화
100% 애플리케이션 개발