사례 연구: 의료 데이터 세트 라이선싱

정밀 데이터 큐레이션 및 주석 교육을 통해 소아과 및 산부인과 치료 혁신

의료 데이터의 잠재력 활용: 포괄적인 데이터 큐레이션, 익명화, ICD-10 CM 및 주석을 통한 탁월한 AI 모델 훈련.

의료 데이터 세트 라이선싱

사업 개요

Shaip은 선도적인 의료 AI 회사와 협력하여 고급 NLP 모델을 훈련하기 위해 고품질의 익명화된 의료 데이터 세트를 큐레이션하고 주석을 달았습니다. 이 프로젝트는 소아과 및 산부인과 전문 분야에 초점을 맞춰 강력한 API 프레임워크를 통해 ICD-10 CM 코드로 주석이 달린 외래 환자 기록을 제공했습니다.

이 데이터 세트는 실제 의료 문서에 대한 AI 훈련을 용이하게 하도록 구성되어 임상적 서술을 이해하는 모델 역량을 향상시킵니다.

의료 데이터 세트 라이선싱

주요 통계

750 페이지 / 약 300건의 외래 환자 기록

375페이지 소아과

375페이지 산부인과

ICD-10 CM 2023 의료 코드 주석

프로젝트 범위

데이터 세트 유형 스페셜티 음량 메타데이터 캡처됨 노트
의료 기록 소아과 375페이지 (약 150개 항목) 파일 이름, 전문 분야,
문서 유형, 환자 분류(외래)
평가/계획 섹션 포함
산부인과 375페이지 (약 150개 항목)
주석 ICD-10 CM(2023) 전체 데이터 세트 API를 통한 코드 매핑 코더의 코드 검증은 범위를 벗어납니다.

도전

이 프로젝트는 세심한 계획과 실행이 필요한 몇 가지 중요한 과제를 제시했습니다.

1. 전문 분야별 데이터 수집

소아과 및 산부인과 전문의에서만 고품질 외래 환자 기록을 소싱하는 것은 어려운 일이었습니다. 각 문서에는 정확한 주석을 뒷받침하기 위해 평가 및 계획과 같은 주요 임상 섹션이 포함되어야 했습니다.

2. 포괄적인 PHI 익명화

HIPAA 준수를 위해서는 의료적 맥락을 유지하면서 모든 개인 식별 정보(PII)를 완전히 제거하는 것이 필수적이었습니다. 이를 위해서는 개인정보 침해를 방지하기 위한 자세한 검토가 필요했습니다.

3. 복잡한 ICD-10 CM 주석

API를 통해 정확한 ICD-10 CM(2023) 코드를 적용하는 것은 다양한 내러티브 스타일과 의학 용어로 인해 복잡했습니다. 코딩의 일관성과 정확성은 신뢰할 수 있는 AI 모델 교육을 보장하는 데 중요했습니다.

4. 메타데이터 정확성 및 일관성

불일치 없이 전문 분야, 문서 유형, 환자 클래스와 같은 메타데이터를 캡처하고 검증하는 것이 중요했습니다. 불일치는 모델 학습과 데이터 사용성에 영향을 미칠 수 있습니다.

5. 엄격한 외래환자 필터링

모든 기록을 엄격히 외래 환자 기록으로만 한정하면 복잡성이 더해집니다. 많은 임상 문서에 환자 분류가 섞여 있거나 섹션이 불완전할 수 있기 때문입니다.

6. 품질 보증 및 정확도 표준

90%의 정확도 임계값을 충족하려면 중복을 제거하고, 전문 분야의 정렬을 검증하고, 필요한 경우 재작업을 위한 조항을 포함하여 익명화를 보장하기 위한 다단계 검토가 필요했습니다.

해법

포괄적인 데이터 라이선싱 및 주석

  • 허가받은 소아과 및 산부인과 외래 환자 기록
  • 중요 섹션 포함 보장: 주요 불만, 병력, ROS, 평가, 계획
  • API 기반 ICD-10 CM 주석(2023년 버전)

익명화 및 규정 준수

  • PHI를 플레이스홀더(PERSON_NAME, DATE, LOCATION 등)로 교체했습니다.
  • 의료 데이터 개인정보 보호 표준 준수 보장

메타데이터 태그 지정

  • 파일별로 캡처된 자세한 메타데이터:
    • 사진이름
    • 전문과 (소아과 또는 산부인과)
    • 문서 유형(후속 조치, H&P, 협의)
    • 환자 클래스 (외래 환자 전용)

품질 관리

  • 엄격한 품질 평가:
    • 중복된 레코드 없음
    • 특수매치 검증
    • 외래환자 전용 검사
    • 메타데이터 일관성 검사
  • 정확도 임계값이 90% 미만인 기록의 교체 또는 수정

결과

Shaip은 클라이언트가 다음을 수행할 수 있도록 구조화되고 주석이 달린 의료 기록 데이터 세트를 제공했습니다.

  • 정확한 ICD-10 CM 코드 예측을 위한 AI 모델 학습
  • 실제 의료 시나리오에서 NLP 기능 강화
  • 개인정보 보호 및 규제 표준 준수 유지
  • 소아과 및 산부인과 도메인 전반에 걸쳐 의료 AI 모델 확장

Shaip의 데이터 세트 큐레이션 및 주석에 대한 구조화된 접근 방식은 우리의 기대를 뛰어넘었습니다. 정확성, 익명화 및 메타데이터 정밀도는 AI 모델 교육 파이프라인을 상당히 강화했습니다.

골든 5스타