데이터 주석 – NER

Clinical NLP에 대한 NER(Named Entity Recognition) 주석

Healthcare API의 다음 버전을 구축하기 위해 임상 NLP를 교육/개발하기 위한 잘 주석 처리된 골드 표준 임상 텍스트 데이터

임상적 자연어 처리(NLP)의 중요성은 지난 몇 년간 점점 더 인식되어 왔으며 혁신적인 발전을 가져왔습니다. 임상 NLP를 통해 컴퓨터는 환자에 대한 의사의 서면 분석 뒤에 숨어 있는 풍부한 의미를 이해할 수 있습니다. 임상 NLP는 인구 건강 분석부터 임상 문서 개선, 음성 인식, 임상 시험 매칭 등에 이르기까지 다양한 사용 사례를 가질 수 있습니다.

임상 NLP 모델을 개발하고 훈련하려면 막대한 양의 정확하고 편견이 없으며 주석이 잘 달린 데이터 세트가 필요합니다. Gold Standard와 다양한 데이터는 NLP 엔진의 정밀도와 재현율을 높이는 데 도움이 됩니다.

음량

주석이 달린 문서 수

주석이 달린 페이지 수

10 +

프로젝트 기간

< 1 개월

도전

클라이언트는 새로운 엔터티 유형으로 자연어 처리(NLP) 플랫폼을 교육 및 개발하고 다양한 유형 간의 관계를 식별하기를 기대하고 있었습니다. 또한 그들은 높은 정확성을 제공하고 현지 법률을 준수하며 대규모 데이터 세트에 주석을 추가하는 데 필요한 의학 지식을 갖춘 공급업체를 평가하고 있었습니다.

작업은 입원환자 및 외래환자 전자 건강 기록(EHR) 데이터의 최대 20,000개 레이블 기록과 필사된 의료 구술의 최대 15,000개 레이블 기록을 포함하여 최대 5,000개의 레이블 기록에 레이블을 지정하고 주석을 달고 (1) 지리적 출처 및 ( 2) 이용 가능한 의료 전문 분야.

따라서 과제를 요약하면 다음과 같습니다.

NLP 플랫폼 학습을 위한 이기종 임상 데이터 정리
중요한 정보를 도출하기 위해 다양한 엔터티 간의 관계를 식별합니다.
광범위한 복잡한 임상 문서에 라벨을 붙이고 주석을 달 수 있는 능력과 전문성
규정된 시간 내에 임상 NLP를 교육하기 위해 대량의 데이터에 라벨을 지정하고 주석을 달기 위한 비용을 통제합니다.
75% EHR 및 25% 받아쓰기 기록으로 구성된 임상 데이터세트의 엔터티에 주석을 답니다.
배송 시 데이터 비식별화

자연어 이해의 다른 과제

모호

단어는 고유하지만 문맥에 따라 다른 의미를 가질 수 있어 어휘, 구문, 의미 수준이 모호해집니다.

동의

동의어이기도 한 다른 용어로 동일한 아이디어를 표현할 수 있습니다. 물체를 설명할 때 크고 큰 것은 같은 의미입니다.

공동 참조

텍스트에서 동일한 엔터티를 참조하는 모든 표현을 찾는 과정을 상호참조 해결이라고 합니다.

성격, 의도, 감정

같은 생각이라도 말하는 사람의 성격이나 의도, 감정에 따라 다르게 표현될 수 있습니다.

해법

많은 양의 의료 데이터와 지식이 의료 문서 형태로 존재하지만, 대부분은 구조화되지 않은 형식입니다. 의료 개체 주석/NER(Named Entity Recognition) 주석을 통해 Shaip은 다양한 유형의 임상 기록에서 유용한 정보에 주석을 추가하여 구조화되지 않은 데이터를 구조화된 형식으로 변환할 수 있었습니다. 엔터티가 식별되면 중요한 정보를 식별하기 위해 엔터티 간의 관계도 매핑되었습니다.

업무 범위: 의료 기관 언급 주석

9 엔터티 유형

건강 상태
의료 절차
해부학 적 구조
의학
의료 기기
신체 측정
약물 남용
실험실 데이터
신체 기능

17 수정자

약물 수정자: 강도, 단위, 복용량, 시작, 빈도, 경로, 기간, 상태
신체 측정 수정자: 값, 단위, 결과
프로시저 수정자: 방법
• 실험실 데이터 수정자: 실험실 값, 실험실 단위, 실험실 결과
심각도
절차 결과

27 관계 및 환자 상태

결과

주석이 달린 데이터는 고객의 의료 API의 다음 버전에 통합될 고객의 임상 NLP 플랫폼을 개발하고 교육하는 데 사용됩니다. 클라이언트가 얻은 이점은 다음과 같습니다.

라벨링/주석 처리된 데이터는 고객의 표준 데이터 주석 지침을 충족했습니다.
정확도를 높이기 위해 이기종 데이터 세트를 사용하여 NLP 플랫폼을 교육했습니다.
다양한 개체 간의 관계, 즉 해부학적 신체 구조 <> 의료 기기, 질병 <> 의료 기기, 질병 <> 약물, 질병 <> 절차를 식별하여 중요한 의료 정보를 추출했습니다.
라벨이 지정되거나 주석이 달린 광범위한 데이터 세트도 전달 시 식별되지 않았습니다.

Shaip과의 협력은 의료 분야의 주변 기술 및 대화형 AI 프로젝트를 크게 발전시켰습니다. 합성 의료 대화 작성 및 복사에 대한 전문 지식은 규제 문제를 극복하는 데 있어 합성 데이터의 잠재력을 보여주는 탄탄한 기반을 제공했습니다. Shaip을 통해 우리는 이러한 장애물을 극복했으며 이제 직관적인 의료 솔루션에 대한 비전 실현에 한 걸음 더 다가섰습니다.

대화형 AI 가속화
100% 애플리케이션 개발

데이터 주석 – NER

Clinical NLP에 대한 NER(Named Entity Recognition) 주석

Healthcare API의 다음 버전을 구축하기 위해 임상 NLP를 교육/개발하기 위한 잘 주석 처리된 골드 표준 임상 텍스트 데이터

음량

도전

해법

9 엔터티 유형

17 수정자

27 관계 및 환자 상태

결과

AI 데이터 서비스

전문

산업별

제품

기업 정보

자료

문의하기

당신에 대해 더 많이 알려주세요!