의료 데이터 세트

기계 학습 프로젝트를 위한 최고의 오픈 소스 의료 데이터 세트

  • 글로벌 의료 시스템은 매일 방대한 양의 의료 데이터를 생성하며, 이는 기계 학습 애플리케이션에 활용될 가능성이 있습니다. 모든 산업 분야에서 데이터는 기업이 경쟁력을 확보할 수 있는 귀중한 자산으로 여겨지며, 헬스케어 분야도 다르지 않습니다.

이 기사에서는 의료 데이터를 다룰 때 직면하는 장애물을 간략하게 설명하고 공개적으로 접근 가능한 의료 데이터 세트에 대한 요약을 제공합니다.

의료 데이터세트의 중요성

의료 데이터 세트의 중요성

의료 데이터 세트는 의료 기록, 진단, 치료, 유전 데이터, 생활 방식 세부 정보 등 환자 정보의 모음입니다. 이는 AI가 점점 더 많이 사용되는 오늘날 세계에서 매우 중요합니다. 이유는 다음과 같습니다.

환자 건강 이해:

의료 데이터 세트는 의사에게 환자의 건강에 대한 전체적인 그림을 제공합니다. 예를 들어, 환자의 병력, 약물, 생활 방식에 대한 데이터는 만성 질환에 걸릴지 여부를 예측하는 데 도움이 될 수 있습니다. 이를 통해 의사는 조기에 개입하여 해당 환자를 위한 치료 계획을 세울 수 있습니다.

의학 연구 지원:

의료 연구자들은 의료 데이터 세트를 연구함으로써 암 환자가 어떻게 치료되고 회복되는지 확인할 수 있습니다. 그들은 현실 세계에서 가장 효과적인 치료법을 찾을 수 있습니다. 예를 들어, 바이오뱅크의 종양 샘플과 환자 치료 기록을 살펴봄으로써 연구자들은 특정 돌연변이와 암 단백질이 다양한 치료법에 어떻게 반응하는지 알아볼 수 있습니다. 이 데이터 기반 접근 방식은 더 나은 환자 결과로 이어지는 추세를 찾는 데 도움이 됩니다.

더 나은 진단 및 치료:

의사는 AI 도구를 사용하여 의료 데이터 세트를 살펴보고 중요한 패턴을 찾습니다. 이는 질병을 더 잘 진단하고 치료하는 데 도움이 됩니다. 방사선학에서 AI는 인간보다 더 빠르고 정확하게 스캔 문제를 찾을 수 있습니다. 이는 의사가 질병을 더 빨리 발견하고 올바른 치료를 더 일찍 시작할 수 있음을 의미합니다. 의료 영상에 주석을 추가하면 더 빠르고 정확한 진단이 가능해 환자의 건강이 향상됩니다.

공중 보건 이니셔티브 지원:

의료 전문가가 데이터세트를 사용하여 독감 발병을 추적하는 작은 마을을 상상해 보세요. 그들은 패턴을 살펴보고 영향을 받은 영역을 찾았습니다. 이 데이터를 바탕으로 그들은 표적 예방 접종 운동과 건강 교육 캠페인을 시작했습니다. 이러한 데이터 기반 접근 방식은 독감을 억제하는 데 도움이 되었습니다. 이는 의료 데이터 세트가 어떻게 공중 보건 이니셔티브를 적극적으로 안내하고 개선할 수 있는지 보여줍니다.

기계 학습을 위한 오픈 소스 의료 데이터 세트

모든 머신러닝 모델이 제대로 작동하려면 공개 데이터세트가 필수적입니다. 머신러닝은 이미 생명과학, 헬스케어, 의학 분야에서 활용되고 있으며 좋은 성과를 보이고 있습니다. 이는 질병을 예측하고 질병이 어떻게 퍼지는지 이해하는 데 도움이 됩니다. 기계 학습은 또한 지역 사회에서 아픈 사람, 노인, 몸이 불편한 사람들을 적절하게 돌볼 수 있는 방법에 대한 아이디어를 제공합니다. 좋은 데이터 세트가 없으면 이러한 기계 학습 모델은 불가능합니다.

일반 및 공중 보건:

  • data.gov: 다중 매개변수를 이용하여 쉽게 검색할 수 있는 미국 중심의 헬스케어 데이터에 중점을 둡니다. 데이터 세트는 미국에 거주하는 개인의 복지를 향상하도록 설계되었습니다. 그러나 이 정보는 연구 또는 추가 공중 보건 영역의 다른 교육 세트에도 도움이 될 수 있습니다.
  • 누구: 글로벌 보건 우선순위를 중심으로 한 데이터세트를 제공합니다. 이 플랫폼은 사용자 친화적인 검색 기능을 통합하고 현재 주제에 대한 포괄적인 이해를 위해 데이터 세트와 함께 귀중한 통찰력을 제공합니다.
  • Re3데이터: 2,000개 이상의 연구 주제를 여러 분야로 분류하여 데이터를 제공합니다. 모든 데이터세트에 자유롭게 접근할 수 있는 것은 아니지만 플랫폼은 구조를 명확하게 표시하고 수수료, 멤버십 요구 사항, 저작권 제한과 같은 요소를 기반으로 쉽게 검색할 수 있도록 해줍니다.
  • 인간 사망률 데이터베이스 35개국의 사망률, 인구 수치, 다양한 건강 및 인구통계 통계에 대한 데이터에 대한 액세스를 제공합니다.
  • CHDS: 아동 건강 및 발달 연구 데이터 세트는 질병과 건강의 세대 간 전염을 조사하는 것을 목표로 합니다. 이는 게놈 발현뿐만 아니라 사회적, 환경적, 문화적 요인이 질병과 건강에 미치는 영향을 연구하기 위한 데이터세트를 포함합니다.
  • 머크 분자 활동 챌린지: 다양한 분자 조합 간의 잠재적인 상호 작용을 시뮬레이션하여 약물 발견에 기계 학습 적용을 촉진하도록 설계된 데이터 세트를 제시합니다.
  • 1000 게놈 프로젝트: 2,500개 모집단의 26명의 개인으로부터 얻은 시퀀싱 데이터를 포함하고 있어 접근 가능한 최대 규모의 게놈 저장소 중 하나입니다. 이러한 국제 협업은 AWS를 통해 액세스할 수 있습니다. (게놈 프로젝트에는 보조금이 제공됩니다.)

생명 과학, 의료 및 의학용 이미지 데이터 세트:

  • 오픈 뉴로: OpenNeuro는 무료 개방형 플랫폼으로 MRI, MEG, EEG, iEEG, ECoG, ASL, PET 데이터를 포함한 다양한 의료 영상을 공유합니다. 563명의 참가자를 대상으로 하는 19,187개의 의료 데이터 세트를 통해 연구원과 의료 전문가에게 귀중한 리소스 역할을 합니다.
  • 오아시스: OASIS(Open Access Series of Imaging Studies)에서 시작된 이 데이터세트는 과학계의 이익을 위해 대중에게 신경영상 데이터를 무료로 제공하기 위해 노력하고 있습니다. 이는 1,098개의 MR 세션과 2,168개의 PET 세션에 걸쳐 1,608개의 주제를 포함하며 연구자에게 풍부한 정보를 제공합니다.
  • 알츠하이머병 신경영상 이니셔티브: ADNI(Alzheimer's Disease Neuroimaging Initiative)는 알츠하이머병의 진행을 정의하는 데 전념하는 전 세계 연구자들이 수집한 데이터를 전시합니다. 데이터 세트에는 MRI 및 PET 이미지, 유전 정보, 인지 테스트, CSF 및 혈액 바이오마커의 포괄적인 컬렉션이 포함되어 있어 이 복잡한 상태를 이해하기 위한 다각적인 접근 방식을 촉진합니다.

병원 데이터세트:

  • 공급자 데이터 카탈로그: 투석 시설, 의사 진료, 가정 건강 서비스, 호스피스 치료, 병원, 입원환자 재활, 장기 요양 병원, 재활 서비스를 제공하는 요양원, 의사 사무실 방문 비용, 공급업체 디렉토리 등을 포함한 분야의 포괄적인 제공업체 데이터세트에 액세스하고 다운로드합니다.
  • 의료 비용 및 활용 프로젝트(HCUP): 이 포괄적인 전국 데이터베이스는 의료 이용, 접근, 비용, 품질 및 결과에 대한 국가 동향을 식별, 추적 및 분석하기 위해 만들어졌습니다. HCUP 내의 각 의료 데이터 세트에는 미국 병원의 모든 환자 체류, 응급실 방문 및 외래 수술에 대한 접대비 정보가 포함되어 있어 연구원과 정책 입안자에게 풍부한 데이터를 제공합니다.
  • MIMIC 중환자 데이터베이스: 전산 생리학을 목적으로 MIT에서 개발한 이 공개 의료 데이터세트는 40,000명이 넘는 중환자의 신원이 확인되지 않은 건강 데이터로 구성됩니다. MIMIC 데이터 세트는 중환자 치료를 연구하고 새로운 계산 방법을 개발하는 연구자에게 귀중한 리소스 역할을 합니다.

암 데이터세트:

  • CT 의료 이미지: CT 이미지 데이터의 추세를 조사하기 위한 대체 방법을 용이하게 하기 위해 설계된 이 데이터세트는 대비, 양상, 환자 연령과 같은 요소에 초점을 맞춘 암 환자의 CT 스캔을 특징으로 합니다. 연구자들은 이 데이터를 활용하여 새로운 영상 기술을 개발하고 암 진단 및 치료의 패턴을 분석할 수 있습니다.
  • 암 보고에 관한 국제 협력(ICCR)): ICCR 내의 의료 데이터 세트는 전 세계적으로 암 보고에 대한 증거 기반 접근 방식을 촉진하기 위해 개발 및 제공되었습니다. ICCR은 암 보고를 표준화함으로써 기관과 국가 전반에 걸쳐 암 데이터의 품질과 비교 가능성을 향상시키는 것을 목표로 합니다.
  • SEER 암 발생률: 미국 정부에서 제공하는 암 데이터를 인종, 성별, 연령 등 기본적인 인구통계학적 구분을 바탕으로 세분화했습니다. SEER 데이터세트를 통해 연구자들은 다양한 인구 하위 그룹의 암 발병률과 생존율을 조사하고 공중 보건 계획과 연구 우선순위에 대해 알 수 있습니다.
  • 폐암 데이터 세트: 이 무료 데이터 세트에는 1995년 이후의 폐암 사례에 대한 정보가 포함되어 있습니다. 연구자는 이 데이터를 사용하여 폐암 발생률, 치료 및 결과의 장기적인 추세를 연구하고 새로운 진단 및 예후 도구를 개발할 수 있습니다.

의료 데이터에 대한 추가 리소스:

  • 카글: 다목적 데이터 세트 저장소 – Kaggle은 의료 부문에 국한되지 않고 다양한 데이터 세트를 위한 뛰어난 플랫폼으로 남아 있습니다. 다양한 주제로 확장하거나 모델 교육을 위한 다양한 데이터 세트가 필요한 사람들에게 이상적인 Kaggle은 유용한 리소스입니다.
  • 서브 레딧: 커뮤니티 중심의 보물창고 – 올바른 하위 레딧 토론은 공개 데이터세트의 금광이 될 수 있습니다. 공개 데이터 세트에서 처리되지 않는 틈새 또는 특정 쿼리의 경우 Reddit 커뮤니티에서 답변을 얻을 수 있습니다.

즉시 사용 가능한 Shaip의 프리미엄 의료 데이터 세트로 의료 AI 프로젝트를 가속화하세요

의사와 환자의 대화 데이터세트

우리의 데이터 세트에는 건강 및 치료 계획에 관해 의사와 환자 간의 대화 오디오 파일이 있습니다. 파일에는 31가지의 다양한 의료 전문 분야가 포함되어 있습니다.

무엇이 포함되어 있습니까?

  • 의료 음성 모델 훈련을 위한 257,977시간의 실제 의사 받아쓰기 오디오
  • 전화, 디지털 녹음기, 음성 마이크, 스마트폰 등 다양한 장치의 오디오
  • 개인 정보 보호법을 준수하기 위해 개인 정보가 제거된 오디오 및 스크립트

CT SCAN 이미지 데이터세트

우리는 연구 및 의료 진단을 위한 최고의 CT 스캔 이미지 데이터 세트를 제공합니다. 우리는 최신 기술을 사용하여 처리된 실제 환자의 고품질 이미지 수천 장을 보유하고 있습니다. 우리의 데이터 세트는 의사와 연구자가 암, 뇌 장애, 심장 질환과 같은 다양한 건강 문제를 더 잘 이해하는 데 도움이 됩니다.

데이터에 따르면 가장 일반적인 CT 스캔은 가슴(6000)과 머리(4350)이며 복부, 골반 및 기타 신체 부위에 대해서도 상당한 수의 스캔이 수행됩니다. 이 표는 또한 CT 코로나 HRCT 및 혈관 폐동맥과 같은 특정 특수 스캔이 주로 인도, 아시아, 유럽 및 기타 지역에서 수행된다는 것을 보여줍니다.

전자 건강 기록(EHR) 데이터세트

전자 건강 기록(EHR)은 환자 의료 기록의 디지털 버전입니다. 여기에는 진단, 약물 치료, 치료 계획, 예방접종 날짜, 알레르기, 의료 이미지(예: CT 스캔, MRI, 엑스레이), 실험실 테스트 등과 같은 정보가 포함됩니다.

즉시 사용 가능한 EHR 데이터 세트 기능:

  • 5.1개 의료 전문 분야에 걸친 31만 개 이상의 기록과 의사 오디오 파일
  • 임상 NLP 및 기타 Document AI 모델 교육에 이상적인 실제 의료 기록
  • 익명화된 MRN, 입원 및 퇴원 날짜, 입원 기간, 성별, 환자 등급, 지불인, 재정 등급, 상태, 퇴원 처분, 연령, DRG, DRG 설명, 상환, AMLOS, GMLOS, 사망 위험, 질병의 심각도, 그루퍼 및 병원 우편번호
  • 모든 환자 등급을 다루는 기록: 입원환자, 외래환자(임상, 재활, 재발, 외과 당일 진료) 및 응급
  • HIPAA 세이프 하버(Safe Harbor) 지침을 준수하여 개인 식별 정보(PII)가 수정된 문서

MRI 이미지 데이터 세트

우리는 의료 연구 및 진단을 지원하기 위해 프리미엄 MRI 이미지 데이터 세트를 제공합니다. 우리의 광범위한 컬렉션에는 실제 환자의 수천 장의 고해상도 이미지가 포함되어 있으며 모두 최첨단 방법을 사용하여 처리되었습니다. 우리의 데이터 세트를 활용함으로써 의료 전문가와 연구자는 광범위한 의료 상태에 대한 이해를 심화하고 궁극적으로 환자 결과를 향상시킬 수 있습니다.

다양한 신체 부위의 MRI 이미지 데이터세트로, 척추와 뇌의 수가 각각 5000으로 가장 높습니다. 데이터는 인도, 중앙아시아 및 유럽, 중앙아시아 지역에 분산되어 있습니다.

X선 이미지 데이터 세트

연구 및 의료 진단을 위한 최고 품질의 X-Ray 이미지 데이터세트입니다. 우리는 최신 기술을 사용하여 처리된 실제 환자의 고해상도 이미지 수천 장을 보유하고 있습니다. Shaip을 사용하면 신뢰할 수 있는 의료 데이터에 액세스하여 연구 및 환자 결과를 개선할 수 있습니다.

다양한 신체 부위에 X선 데이터 세트가 분포되어 있으며 중앙아시아에서 가슴 부위가 1000으로 가장 높습니다. 하지와 상지는 각각 총 850개이며 중앙아시아와 중앙아시아 및 유럽 지역에 분포합니다.

사회 공유하기