데이터 주석 – NER
Clinical NLP에 대한 NER(Named Entity Recognition) 주석
Healthcare API의 다음 버전을 구축하기 위해 임상 NLP를 교육/개발하기 위한 잘 주석 처리된 골드 표준 임상 텍스트 데이터
임상적 자연어 처리(NLP)의 중요성은 지난 몇 년간 점점 더 인식되어 왔으며 혁신적인 발전을 가져왔습니다. 임상 NLP를 통해 컴퓨터는 환자에 대한 의사의 서면 분석 뒤에 숨어 있는 풍부한 의미를 이해할 수 있습니다. 임상 NLP는 인구 건강 분석부터 임상 문서 개선, 음성 인식, 임상 시험 매칭 등에 이르기까지 다양한 사용 사례를 가질 수 있습니다.
임상 NLP 모델을 개발하고 훈련하려면 막대한 양의 정확하고 편견이 없으며 주석이 잘 달린 데이터 세트가 필요합니다. Gold Standard와 다양한 데이터는 NLP 엔진의 정밀도와 재현율을 높이는 데 도움이 됩니다.
음량
도전
클라이언트는 새로운 엔터티 유형으로 자연어 처리(NLP) 플랫폼을 교육 및 개발하고 다양한 유형 간의 관계를 식별하기를 기대하고 있었습니다. 또한 그들은 높은 정확성을 제공하고 현지 법률을 준수하며 대규모 데이터 세트에 주석을 추가하는 데 필요한 의학 지식을 갖춘 공급업체를 평가하고 있었습니다.
작업은 입원환자 및 외래환자 전자 건강 기록(EHR) 데이터의 최대 20,000개 레이블 기록과 필사된 의료 구술의 최대 15,000개 레이블 기록을 포함하여 최대 5,000개의 레이블 기록에 레이블을 지정하고 주석을 달고 (1) 지리적 출처 및 ( 2) 이용 가능한 의료 전문 분야.
따라서 과제를 요약하면 다음과 같습니다.
- NLP 플랫폼 학습을 위한 이기종 임상 데이터 정리
- 중요한 정보를 도출하기 위해 다양한 엔터티 간의 관계를 식별합니다.
- 광범위한 복잡한 임상 문서에 라벨을 붙이고 주석을 달 수 있는 능력과 전문성
- 규정된 시간 내에 임상 NLP를 교육하기 위해 대량의 데이터에 라벨을 지정하고 주석을 달기 위한 비용을 통제합니다.
- 75% EHR 및 25% 받아쓰기 기록으로 구성된 임상 데이터세트의 엔터티에 주석을 답니다.
- 배송 시 데이터 비식별화
자연어 이해의 다른 과제
단어는 고유하지만 문맥에 따라 다른 의미를 가질 수 있어 어휘, 구문, 의미 수준이 모호해집니다.
동의어이기도 한 다른 용어로 동일한 아이디어를 표현할 수 있습니다. 물체를 설명할 때 크고 큰 것은 같은 의미입니다.
텍스트에서 동일한 엔터티를 참조하는 모든 표현을 찾는 과정을 상호참조 해결이라고 합니다.
같은 생각이라도 말하는 사람의 성격이나 의도, 감정에 따라 다르게 표현될 수 있습니다.
해법
많은 양의 의료 데이터와 지식이 의료 문서 형태로 존재하지만, 대부분은 구조화되지 않은 형식입니다. 의료 개체 주석/NER(Named Entity Recognition) 주석을 통해 Shaip은 다양한 유형의 임상 기록에서 유용한 정보에 주석을 추가하여 구조화되지 않은 데이터를 구조화된 형식으로 변환할 수 있었습니다. 엔터티가 식별되면 중요한 정보를 식별하기 위해 엔터티 간의 관계도 매핑되었습니다.
업무 범위: 의료 기관 언급 주석
9 엔터티 유형
- 건강 상태
- 의료 절차
- 해부학 적 구조
- 의학
- 의료 기기
- 신체 측정
- 약물 남용
- 실험실 데이터
- 신체 기능
17 수정자
- 약물 수정자: 강도, 단위, 복용량, 시작, 빈도, 경로, 기간, 상태
- 신체 측정 수정자: 값, 단위, 결과
- 프로시저 수정자: 방법
• 실험실 데이터 수정자: 실험실 값, 실험실 단위, 실험실 결과 - 심각도
- 절차 결과
27 관계 및 환자 상태
결과
주석이 달린 데이터는 고객의 의료 API의 다음 버전에 통합될 고객의 임상 NLP 플랫폼을 개발하고 교육하는 데 사용됩니다. 클라이언트가 얻은 이점은 다음과 같습니다.
- 라벨링/주석 처리된 데이터는 고객의 표준 데이터 주석 지침을 충족했습니다.
- 정확도를 높이기 위해 이기종 데이터 세트를 사용하여 NLP 플랫폼을 교육했습니다.
- 다양한 개체 간의 관계, 즉 해부학적 신체 구조 <> 의료 기기, 질병 <> 의료 기기, 질병 <> 약물, 질병 <> 절차를 식별하여 중요한 의료 정보를 추출했습니다.
- 라벨이 지정되거나 주석이 달린 광범위한 데이터 세트도 전달 시 식별되지 않았습니다.
Shaip과의 협력은 의료 분야의 주변 기술 및 대화형 AI 프로젝트를 크게 발전시켰습니다. 합성 의료 대화 작성 및 복사에 대한 전문 지식은 규제 문제를 극복하는 데 있어 합성 데이터의 잠재력을 보여주는 탄탄한 기반을 제공했습니다. Shaip을 통해 우리는 이러한 장애물을 극복했으며 이제 직관적인 의료 솔루션에 대한 비전 실현에 한 걸음 더 다가섰습니다.