데이터세트 열기
ML 모델을 학습시키는 데 도움이 되는 오픈 소스 데이터 세트 알아보기
AI/ML 모델 시작을 위한 오픈 소스 데이터 세트
AI 및 ML 모델의 출력은 학습에 사용하는 데이터만큼만 우수하므로 데이터 집계와 해당 데이터의 태그 지정 및 식별에 적용하는 정밀도가 중요합니다!
따라서 새로운 AI/ML 이니셔티브를 시작하고 고품질 데이터 세트가 AI/ML ML 엔진이 실행 중입니다. 미래의 AI/ML 모델을 무료로 사용하고 교육할 수 있는 공개 데이터 세트 목록을 축적했습니다.
전문화 | 데이터 형식 | 데이터 세트 이름 | 산업/부서 | 주석/사용 사례 | 상품 설명 | (링크) |
---|---|---|---|---|---|---|
NLP | 본문 | Amazon 리뷰 | 전자 상거래 | 감정 분석 | 사용자 및 제품 세부 정보가 포함된 일반 텍스트로 된 지난 35년 동안의 18만 개의 리뷰 및 평가 세트. | (링크) |
NLP | 본문 | 위키피디아 링크 데이터 | 일반 | 4백만원 이상 1.9억을 포함하는 물품. 단어와 구 및 단락으로 구성된 단어. | (링크) | |
NLP | 본문 | 스탠포드 센티먼트 트리뱅크 | 엔터테인먼트 | 감정 분석 | HTML 파일 형식의 Rotten Tomatoes 리뷰 10,000개 이상에 대한 감정 주석 데이터 세트 | (링크) |
NLP | 본문 | 트위터 US Airline Sentiment | 항공 회사 | 감정 분석 | 2015년 US Airlines에 대한 트윗은 긍정적, 부정적, 중립적 어조로 분기됨 | (링크) |
CV | 영상 | 야생에서 레이블이 지정된 얼굴 | 일반 | 얼굴 인식 | 얼굴 인식 훈련을 위해 13,000개의 다른 사진과 함께 XNUMX개 이상의 잘린 얼굴을 포함하는 데이터 세트. | (링크) |
CV | 비디오, 이미지 | UMDfaces 데이터세트 | 일반 | 얼굴 인식 | 스틸 및 비디오 이미지를 포함하는 367,000개 이상의 주제에서 8,000개 이상의 얼굴을 포함하는 주석이 달린 데이터세트. | (링크) |
CV | 영상 | 이미지넷 | 일반 | 14 Mn 이상의 데이터 세트. WordNet 계층 구조에 따라 구성된 다양한 파일 형식의 이미지. | (링크) | |
CV | 영상 | 구글의 오픈 이미지 | 일반 | 9만 6,000개 이상의 카테고리에서 공개 이미지를 분류하는 URL. | (링크) | |
NLP | 본문 | MIMIC 중환자 데이터베이스 | 의료 | 40,000명의 중환자의 비식별화된 데이터가 포함된 전산 생리학 데이터 세트. 데이터 세트에는 인구 통계, 활력 징후, 약물 등과 같은 정보가 포함됩니다. | (링크) | |
CV | 영상 | 미국 국립 여행 및 관광청 | 관광 여행 | 인바운드 및 아웃바운드 여행 및 국제 관광 정보와 같은 주제를 다루는 신뢰할 수 있는 데이터베이스와 함께 관광 산업의 광범위한 사진을 제공합니다. | (링크) | |
NLP | 본문 | 교통학과 | 관광 여행 | 국립공원, 운전자 등록부, 교량 및 철도 정보 등이 포함된 관광 데이터 세트 | (링크) | |
NLP | 오디오 | Flickr 오디오 캡션 코퍼스 | 일반 | 감독되지 않은 음성 패턴을 위해 설계된 40개의 사진에서 8,000개 이상의 음성 캡션 | (링크) | |
NLP | 오디오 | 음성 명령 데이터세트 | 일반 | 음성 인식, 오디오 주석 | 기본 음성 인터페이스를 구축하기 위해 수천 명의 개인이 1초 동안 발화합니다. | (링크) |
NLP | 오디오 | 환경 오디오 데이터 세트 | 일반 | 이벤트 테이블 및 음향 장면 테이블의 사운드를 포함하는 환경 오디오 데이터 세트. | (링크) | |
NLP | 본문 | COVID-19 공개 리서치 데이터 셋 | 의료 | 의료 AI | COVID-45,000 및 코로나바이러스 계열 바이러스에 대한 19개의 학술 논문으로 구성된 연구 데이터 세트입니다. | (링크) |
CV | 영상 | 웨이 모 오픈 데이터 셋 | 자동차 | Waymo에서 출시한 가장 다양한 자율주행 데이터 세트 | (링크) | |
CV | 영상 | 비주얼 게놈 | 일반 | 이미지 캡션 | 100개 이상의 이미지에 대한 자세한 캡션이 포함된 시각적 지식 기반 | (링크) |
CV | 영상 | 라벨미 | 공공 정부 | Labelme Matlab을 통해 액세스할 수 있는 대규모 주석 이미지 세트 | (링크) | |
CV | 영상 | 코일 100 | 일반 | 다양한 각도(즉, 100도)에서 촬영한 360가지 이상의 다양한 개체 | (링크) | |
CV | 영상 | 스탠포드 개 데이터 세트 | 일반 | 20,500개 이상의 이미지가 120개의 다른 견종의 이미지 세트로 분류됨 | (링크) | |
CV | 영상 | 실내 장면 인식 | 일반 | 장면 인식 | 장면 인식 모델을 구축하기 위해 15620개의 실내 카테고리에서 67개의 이미지로 구성된 특정 데이터 세트 | (링크) |
CV | 영상 | 비주얼QA | 일반 | 265,016장의 사진과 관련된 개방형 질문이 포함된 데이터세트로, 응답하려면 시각 및 언어 이해력에 대한 이해가 필요합니다. | (링크) | |
NLP | 본문 | 다중 도메인 감정 분석 데이터 세트 | 전자 상거래 | 감정 분석 | Amazon의 제품 리뷰가 포함된 데이터 세트 | (링크) |
NLP | 본문 | IMDB 리뷰 | 엔터테인먼트 | 감정 분석 | 감정 분석을 위한 25000개의 영화 리뷰가 포함된 데이터세트 | (링크) |
NLP | 본문 | 감정 140 | 일반 | 감정 분석 | 정확도를 높이기 위해 이모티콘이 사전 제거된 160,000개의 트윗이 포함된 데이터 세트 | (링크) |
NLP | 본문 | 블로거 코퍼스 | 일반 | 키프레이즈 분석 | 광범위하게 사용되는 영어 단어의 최소 681,288회 발생으로 구성된 blogger.com의 200개 블로그 게시물을 포함하는 데이터 세트. | (링크) |
NLP | 본문 | 위험 | 일반 | 챗봇 교육 | 지능적으로 자동 응답하도록 기계 학습 모델을 훈련하는 데 사용할 수 있는 200,000개 이상의 질문이 있는 데이터 세트 | (링크) |
NLP | 본문 | 영어로 된 SMS 스팸 수집 | 통신 | 스팸 인식 | 5,574개의 영문 SMS로 구성된 스팸 메시지 데이터 세트 | (링크) |
NLP | 본문 | Yelp 리뷰 | 일반 | 감정 분석 | Yelp에서 게시한 5백만 개 이상의 리뷰가 있는 데이터 세트 | (링크) |
NLP | 본문 | UCI의 스팸베이스 | Enterprise | 스팸 인식 | 스팸 필터링에 유용한 대규모 스팸 이메일 데이터 세트입니다. | (링크) |
CV | 비디오, 이미지 | 버클리 딥드라이브 BDD100k | 자동차 | 자치 차량 | 자율주행 AI를 위한 가장 큰 데이터 세트 중 하나로서 뉴욕과 샌프란시스코 지역에서 하루 중 서로 다른 시간의 1,100개 이상의 비디오에 100,000시간의 운전 경험이 포함되어 있습니다. | (링크) |
CV | Video | 쉼표.ai | 자동차 | 자치 차량 | 자동차의 속도, 가속도, 조향각 및 GPS 좌표에 대한 정보로 구성된 7시간 고속도로 주행 데이터 세트 | (링크) |
CV | 비디오, 이미지 | 도시경관 데이터세트 | 자동차 | 자율주행차용 시맨틱 라벨 | 5,000개의 다른 도시에서 기록된 20,000개의 픽셀 수준 주석과 스테레오 비디오 시퀀스의 50개의 약하게 주석이 추가된 프레임 세트의 데이터세트 | (링크) |
CV | 영상 | KUL 벨기에 교통 표지 데이터 세트 | 자동차 | 자치 차량 | 벨기에 전역의 물리적으로 구별되는 교통 표지판을 기반으로 하는 플랑드르 지역의 10000개 이상의 교통 표지판 주석. | (링크) |
CV | 영상 | LISA: 지능형 및 안전 자동차 연구실, UC San Diego Datasets | 자동차 | 자치 차량 | 교통 표지, 차량 감지, 신호등 및 궤적 패턴을 포함하는 풍부한 데이터 세트. | (링크) |
CV | 영상 | 시파 -10 | 일반 | 물체 인식 | 객체 인식을 위한 50,000개의 이미지와 10,000개의 테스트 이미지(즉, 60,000개 클래스의 32개 32×10 컬러 이미지)로 구성된 데이터 세트. | (링크) |
CV | 영상 | 패션 MNIST | 패션 | 60,000개 클래스의 레이블과 연결된 10,000×28 그레이스케일 이미지의 28개 예제와 10개 예제의 테스트 세트로 구성된 이미지 데이터 세트. | (링크) | |
CV | 영상 | IMDB-위키 데이터세트 | 엔터테인먼트 | 얼굴 인식 | 성별 및 나이와 같은 레이블이 있는 얼굴 이미지의 대규모 데이터세트입니다. 총 523,051개의 얼굴 이미지 중 460,723개의 이미지는 IMDB에서 20,284명의 유명인과 Wikipedia에서 62,328개의 이미지를 가져왔습니다. | (링크) |
CV | Video | 역학-700 | 일반 | 각 액션 클래스에 대해 고품질 데이터 세트는 650,000개의 비디오 클립으로 구성되며 최소 700개의 비디오 클립과 함께 600개의 인간 액션 클래스를 포함합니다. 여기에서 각 클립은 10초 정도 지속됩니다. | (링크) | |
CV | 영상 | MS코코 | 일반 | 객체 감지, 분할 | 데이터 세트에는 328k 이미지가 포함되어 있으며 총 2.5만 개의 인스턴스와 91개의 객체 이미지가 있어 대규모 객체 감지, 세분화 및 데이터 캡션 관련 ML 모델을 훈련합니다. | (링크) |
CV | 영상 | MPII 인간 포즈 데이터세트 | 일반 | 주석이 달린 신체 관절이 있는 25명 이상의 개인이 포함된 약 40장의 사진이 데이터 세트에 포함되어 있으며, 이는 인간의 자세 추정을 명확히 하는 데 사용됩니다. 전체적으로 데이터 세트는 410개의 인간 활동을 포함하며 각 이미지에는 활동 레이블이 제공됩니다. | (링크) | |
CV | 영상 | 이미지 열기 | 일반 | 개체 위치 주석 | 이미지 수준 레이블, 객체 경계 상자, 객체 분할 등으로 주석이 달린 약 9백만 개의 이미지가 있는 이미지 데이터 세트. 이 데이터 세트도 16백만개로 구성됩니다. 600만 이미지의 1.9개 개체 클래스에 대한 경계 상자. | (링크) |
CV | Video | 중국 Baidu Inc의 Apollo Open Platform | 자동차 | 경계 상자, LiDAR | 혁신적인 반복의 효율성을 가속화하기 위해 개발자에게 자율 주행에 필요한 데이터를 제공하는 풍부한 자율 주행 데이터 세트입니다. | (링크) |
CV | 비디오, 이미지 | 아르고, 아르고, 미국 | 자동차 | 경계 상자, 광학 흐름, 행동 레이블, 의미 레이블, 차선 표시 | 기하학적 및 의미론적 메타데이터(예: 차선 중심선, 차선 방향 및 주행 가능 영역)가 포함된 HD 맵으로 구성된 자율 주행 데이터 세트입니다. 데이터 세트는 ML 모델을 훈련하고 더 정확한 인식 알고리즘을 만드는 데 사용되며, 이는 자율 주행 차량이 안전하게 탐색하는 데 도움이 됩니다. | (링크) |
CV | Video | Bosch North America Research의 Bosch 소형 신호등 | 자동차 | 경계 상자 | 비전 기반 신호등 감지 시스템을 구축하기 위한 13427*1280 해상도의 카메라 이미지 720개로 구성된 데이터 세트입니다. 데이터 세트에는 24000개 이상의 주석이 달린 신호등이 있습니다. | (링크) |
CV | Video | Brain4Cars, 미국 코넬 대학교 | 자동차 | 행동 레이블 | 운전자 경보에 대한 유용한 통계를 추출하기 위해 일련의 객실 센서(카메라, 촉각 센서, 스마트 장치 등)로 구성된 데이터 세트. 우리의 알고리즘은 졸리거나 주의가 산만한 운전자를 감지하고 보호 기능을 개선하기 위해 필요한 경보를 높일 수 있습니다. | (링크) |
CV | 영상 | CULane, 중국 대학 홍콩, 베이징, 중국의 | 자동차 | 차선 표시 | 교통 차선 감지에 대한 Computer Vision 데이터 세트는 55시간 분량의 비디오로 구성되며 그 중 133,235개(88880개의 훈련 세트, 9675개의 검증 세트, 34680개의 테스트 세트) 프레임이 추출되었습니다. 베이징에서 서로 다른 운전자가 운전하는 XNUMX대의 차량에 장착된 카메라로 수집됩니다. | (링크) |
CV | Video | DAVIS, 대학 취리히, ETH ¨ 취리히, 독일, 스위스 | 자동차 | DAVIS 이벤트+프레임 카메라를 사용하는 종단 간 차량 운전 훈련 데이터 세트입니다. 스티어링, 스로틀, GPS 등과 같은 자동차 데이터는 자동차 앱에 대한 프레임 및 이벤트 데이터의 융합을 평가하는 데 사용됩니다. | (링크) | |
CV | Video | DBNet, Shanghai Jiao Tong Univ., Xiamen Univ., 중국 | 자동차 | 포인트 클라우드, LiDAR | 운전 행동에 대한 심층 연구를 위해 정렬된 비디오, 포인트 클라우드, GPS 및 운전자 행동을 포함하는 실제 1000km 주행 데이터. | (링크) |
CV | Video | Dr(eye)ve, Univ. 모데나와 레지오 에밀리아, 모데나, 이탈리아 | 자동차 | 행동 레이블 | 74개 이상의 프레임에 주석이 달린 각각 5분 길이의 500,000개 비디오 시퀀스를 포함하는 데이터 세트입니다. 데이터 세트는 지리 참조 위치, 운전 속도, 코스로 구성되며 운전자 시선 고정 및 작업별 지도를 제공하는 시간적 통합에 레이블을 지정합니다. | (링크) |
CV | Video | ETH 보행자(2009), ETH Zurich, Zurich, Switzerland | 일반 | 경계 상자 | 74개 이상의 프레임에 주석이 달린 각각 5분 분량의 500,000개 비디오 시퀀스의 데이터세트입니다. 데이터 세트는 지리 참조 위치, 운전 속도, 방향을 제공하고 작업별 지도를 포함하여 운전자 및 시간적 통합을 위한 시선 고정에 레이블을 지정합니다. | (링크) |
CV | Video | Ford (2009), Univ. 미국 미시간 주 미시간 | 자동차 | 경계 상자, , LiDAR | Velodyne 3D 라이더 스캐너, 3개의 푸시-브룸 미래 지향적인 Rieg 라이더, 기술 및 소비자 IMU(관성 측정 장치) 및 Point Gray LadybugXNUMX 전방향 카메라 시스템으로 무장한 자동화된 육상 차량에 의해 컴파일된 데이터 세트입니다. | (링크) |
CV | Video | HCI 도전적인 스테레오, Bosch Corporation Research, Hildesheim, 독일 | 일반 | 다양한 기상 조건, 모션 및 깊이의 다중 레이어를 포함하는 캡처된 비디오 장면에서 수백만 프레임의 데이터 세트. 도시와 시골의 상황 등 | (링크) | |
CV | Video | JAAD, 요크 대학교, 우크라이나, 캐나다 | 자동차 | 경계 상자, 행동 레이블 | "JAAD는 자율 주행의 맥락에서 공동 주의를 연구하기 위한 데이터 세트입니다. 초점은 횡단 지점에서의 보행자와 운전자의 행동과 이에 영향을 미치는 요인에 있습니다. 이를 위해 JAAD 데이터 세트는 주석이 달린 346개의 짧은 비디오 모음을 제공합니다. 북미 및 동유럽의 여러 위치에서 5시간 이상의 운전 영상에서 추출한 클립(10-240초 길이). 폐색 태그가 있는 경계 상자는 모든 보행자에 대해 사용되어 이 데이터 세트를 보행자 감지에 적합하게 만듭니다. 행동 주석은 보행자의 행동을 지정합니다. 운전자와 상호작용하거나 운전자의 주의가 필요한 비디오 각 비디오에는 여러 태그(날씨, 위치 등)와 타임스탬프가 찍힌 행동 레이블(예: 멈춤, 걷기, 보기 등)이 있습니다. 또한 인구통계학적 속성 목록은 각 프레임에서 볼 수 있는 교통 장면 요소(예: 정지 신호, 교통 신호 등)의 목록뿐만 아니라 각 보행자(예: 연령, 성별, 동작 방향 등)에 대해 제공됩니다." | (링크) |
CV | Video | KAIST Urban, by KAIST, 대한민국 | 일반 | LiDAR | 데이터 수집에는 LiDAR 데이터를 위한 수많은 위치 센서와 매우 복잡한 도시 지역(예: 대도시 지역, 복잡한 건물 및 주거 지역)을 대상으로 하는 스테레오 이미지가 포함됩니다. | (링크) |
CV | 영상 | LISA 교통 표지, Univ. 캘리포니아주, 샌디에이고, 미국 | 자동차 | 경계 상자 | 비디오가 포함된 데이터 세트와 미국 교통 표지판이 포함된 주석 프레임. 사진만 있는 버전과 사진과 동영상이 있는 버전의 두 단계로 출시됩니다. | (링크) |
CV | 영상 | Mapillary Vistas, Mapillary AB, Global | 자동차 | 시맨틱 레이블 | 픽셀 단위의 정확한 인스턴스별 인간 주석으로 전 세계의 거리 장면을 해석하기 위한 거리 수준 사진 데이터세트입니다. | (링크) |
CV | 비디오, 이미지 | 독일 카를스루에 본 대학의 시맨틱 KITTI | 자동차 | 경계 상자, 의미 레이블, 차선 표시 | 모든 Odometry Benchmark 시퀀스에 대한 의미론적 주석을 포함하는 데이터세트입니다. 데이터 세트는 자동차, 자전거, 자전거, 보행자, 자전거를 포함한 다양한 유형의 이동 및 이동하지 않는 교통량에 주석을 달아 장면의 물체를 연구할 수 있습니다. | (링크) |
CV | Video | Stanford Track, 미국 스탠포드 대학교 | 자동차 | 물체 감지/분류 LiDAR, GPS, 코드 | 자연스러운 거리 장면에서 Velodyne HDL-14,000E S64 LIDAR로 관찰한 2개의 레이블이 지정된 개체 트랙을 포함하는 데이터세트로, 3D 개체 인식을 위한 기계 학습 모델을 훈련하는 데 사용할 수 있습니다. | (링크) |
CV | 비디오, 이미지 | Boxy 데이터 세트, Bosch, 미국 | 자동차 | 바운딩 박스 / 차량 감지 | 고속도로에서 자율주행차를 위한 객체 인식 전략을 훈련하고 분석하기 위해 주석이 달린 2만 대의 차량을 포함하는 차량 감지 데이터 세트. | (링크) |
CV | Video | TME Motorway, 체코 기술 대학, 북부 이탈리아 | 자동차 | 경계 상자 | 총 28분 동안 27개의 클립으로 구성된 데이터 세트가 30,000개 이상의 차량 주석 프레임으로 분기되었습니다. 주석은 레이저 스캐너의 데이터를 사용하여 반자동으로 생성되었습니다. 이 데이터 수집에는 다양한 교통 시나리오, 차선 수, 도로 곡률 및 조명이 포함되며 전체 수집 조건의 대부분을 포함합니다. | (링크) |
CV | Video | 감독되지 않은 라마, Bosch, 미국 | 자동차 | 차선 표시, LiDAR | Unsupervised Llamas 데이터세트는 Lidar 기반 차선 표시를 포함한 고화질 자동 운전 지도를 생성하여 주석을 달았습니다. 자율주행 차량은 이러한 지도에 맞춰 정렬될 수 있으며 차선 표시는 카메라 프레임에 투영됩니다. 3D 투영은 이미 관찰된 이미지 마커와 예측된 이미지 마커 간의 불일치를 최소화하여 최적화됩니다. | (링크) |
NLP | 오디오 | Facebook AI 다국어 LibriSpeech(MLS) | 일반 | 오디오 주석/음성 인식 | Facebook AI MLS(Multilingual LibriSpeech)는 자동 음성 인식(ASR) 연구를 진행하는 데 도움이 되도록 설계된 대규모 오픈 소스 데이터 세트입니다. MLS는 영어, 독일어, 네덜란드어, 프랑스어, 스페인어, 이탈리아어, 포르투갈어, 폴란드어 등 50,000개 언어로 8시간 이상의 오디오를 제공합니다. | (링크) |