데이터세트 열기

ML 모델을 학습시키는 데 도움이 되는 오픈 소스 데이터 세트 알아보기

데이터세트 열기

AI/ML 모델 시작을 위한 오픈 소스 데이터 세트

AI 및 ML 모델의 출력은 학습에 사용하는 데이터만큼만 우수하므로 데이터 집계와 해당 데이터의 태그 지정 및 식별에 적용하는 정밀도가 중요합니다!

따라서 새로운 AI/ML 이니셔티브를 시작하고 고품질 데이터 세트가 AI/ML ML 엔진이 실행 중입니다. 미래의 AI/ML 모델을 무료로 사용하고 교육할 수 있는 공개 데이터 세트 목록을 축적했습니다.

전문화데이터 형식데이터 세트 이름산업/부서주석/사용 사례상품 설명(링크)
NLP본문Amazon 리뷰전자 상거래감정 분석사용자 및 제품 세부 정보가 포함된 일반 텍스트로 된 지난 35년 동안의 18만 개의 리뷰 및 평가 세트.(링크)
NLP본문위키피디아 링크 데이터일반 4백만원 이상 1.9억을 포함하는 물품. 단어와 구 및 단락으로 구성된 단어.(링크)
NLP본문스탠포드 센티먼트 트리뱅크엔터테인먼트감정 분석HTML 파일 형식의 Rotten Tomatoes 리뷰 10,000개 이상에 대한 감정 주석 데이터 세트(링크)
NLP본문트위터 US Airline Sentiment항공 회사감정 분석2015년 US Airlines에 대한 트윗은 긍정적, 부정적, 중립적 어조로 분기됨(링크)
CV영상 야생에서 레이블이 지정된 얼굴일반 얼굴 인식얼굴 인식 훈련을 위해 13,000개의 다른 사진과 함께 XNUMX개 이상의 잘린 얼굴을 포함하는 데이터 세트.(링크)
CV비디오, 이미지UMDfaces 데이터세트일반 얼굴 인식스틸 및 비디오 이미지를 포함하는 367,000개 이상의 주제에서 8,000개 이상의 얼굴을 포함하는 주석이 달린 데이터세트.(링크)
CV영상 이미지넷일반 14 Mn 이상의 데이터 세트. WordNet 계층 구조에 따라 구성된 다양한 파일 형식의 이미지.(링크)
CV영상 구글의 오픈 이미지일반 9만 6,000개 이상의 카테고리에서 공개 이미지를 분류하는 URL.(링크)
NLP본문MIMIC 중환자 데이터베이스의료40,000명의 중환자의 비식별화된 데이터가 포함된 전산 생리학 데이터 세트. 데이터 세트에는 인구 통계, 활력 징후, 약물 등과 같은 정보가 포함됩니다.(링크)
CV영상미국 국립 여행 및 관광청관광 여행인바운드 및 아웃바운드 여행 및 국제 관광 정보와 같은 주제를 다루는 신뢰할 수 있는 데이터베이스와 함께 관광 산업의 광범위한 사진을 제공합니다.(링크)
NLP본문교통학과관광 여행국립공원, 운전자 등록부, 교량 및 철도 정보 등이 포함된 관광 데이터 세트(링크)
NLP오디오Flickr 오디오 캡션 코퍼스일반 감독되지 않은 음성 패턴을 위해 설계된 40개의 사진에서 8,000개 이상의 음성 캡션(링크)
NLP오디오음성 명령 데이터세트일반 음성 인식, 오디오 주석기본 음성 인터페이스를 구축하기 위해 수천 명의 개인이 1초 동안 발화합니다.(링크)
NLP오디오환경 오디오 데이터 세트일반 이벤트 테이블 및 음향 장면 테이블의 사운드를 포함하는 환경 오디오 데이터 세트.(링크)
NLP본문COVID-19 공개 리서치 데이터 셋 의료의료 AICOVID-45,000 및 코로나바이러스 계열 바이러스에 대한 19개의 학술 논문으로 구성된 연구 데이터 세트입니다.(링크)
CV영상웨이 모 오픈 데이터 셋 자동차Waymo에서 출시한 가장 다양한 자율주행 데이터 세트(링크)
CV영상비주얼 게놈 일반 이미지 캡션100개 이상의 이미지에 대한 자세한 캡션이 포함된 시각적 지식 기반(링크)
CV영상라벨미 공공 정부Labelme Matlab을 통해 액세스할 수 있는 대규모 주석 이미지 세트(링크)
CV영상코일 100일반 다양한 각도(즉, 100도)에서 촬영한 360가지 이상의 다양한 개체(링크)
CV영상스탠포드 개 데이터 세트일반 20,500개 이상의 이미지가 120개의 다른 견종의 이미지 세트로 분류됨(링크)
CV영상실내 장면 인식일반 장면 인식장면 인식 모델을 구축하기 위해 15620개의 실내 카테고리에서 67개의 이미지로 구성된 특정 데이터 세트(링크)
CV영상비주얼QA일반 265,016장의 사진과 관련된 개방형 질문이 포함된 데이터세트로, 응답하려면 시각 및 언어 이해력에 대한 이해가 필요합니다.(링크)
NLP본문다중 도메인 감정 분석 데이터 세트전자 상거래감정 분석Amazon의 제품 리뷰가 포함된 데이터 세트(링크)
NLP본문IMDB 리뷰엔터테인먼트감정 분석감정 분석을 위한 25000개의 영화 리뷰가 포함된 데이터세트(링크)
NLP본문감정 140일반 감정 분석정확도를 높이기 위해 이모티콘이 사전 제거된 160,000개의 트윗이 포함된 데이터 세트(링크)
NLP본문블로거 코퍼스일반 키프레이즈 분석광범위하게 사용되는 영어 단어의 최소 681,288회 발생으로 구성된 blogger.com의 200개 블로그 게시물을 포함하는 데이터 세트.(링크)
NLP본문위험일반 챗봇 교육지능적으로 자동 응답하도록 기계 학습 모델을 훈련하는 데 사용할 수 있는 200,000개 이상의 질문이 있는 데이터 세트(링크)
NLP본문영어로 된 SMS 스팸 수집통신스팸 인식5,574개의 영문 SMS로 구성된 스팸 메시지 데이터 세트(링크)
NLP본문Yelp 리뷰일반 감정 분석Yelp에서 게시한 5백만 개 이상의 리뷰가 있는 데이터 세트(링크)
NLP본문UCI의 스팸베이스Enterprise스팸 인식스팸 필터링에 유용한 대규모 스팸 이메일 데이터 세트입니다.(링크)
CV비디오, 이미지버클리 딥드라이브 BDD100k자동차자치 차량자율주행 AI를 위한 가장 큰 데이터 세트 중 하나로서 뉴욕과 샌프란시스코 지역에서 하루 중 서로 다른 시간의 1,100개 이상의 비디오에 100,000시간의 운전 경험이 포함되어 있습니다.(링크)
CVVideo쉼표.ai자동차자치 차량 자동차의 속도, 가속도, 조향각 및 GPS 좌표에 대한 정보로 구성된 7시간 고속도로 주행 데이터 세트(링크)
CV비디오, 이미지도시경관 데이터세트자동차자율주행차용 시맨틱 라벨5,000개의 다른 도시에서 기록된 20,000개의 픽셀 수준 주석과 스테레오 비디오 시퀀스의 50개의 약하게 주석이 추가된 프레임 세트의 데이터세트(링크)
CV영상KUL 벨기에 교통 표지 데이터 세트자동차자치 차량벨기에 전역의 물리적으로 구별되는 교통 표지판을 기반으로 하는 플랑드르 지역의 10000개 이상의 교통 표지판 주석.(링크)
CV영상LISA: 지능형 및 안전 자동차 연구실, UC San Diego Datasets자동차자치 차량교통 표지, 차량 감지, 신호등 및 궤적 패턴을 포함하는 풍부한 데이터 세트.(링크)
CV영상시파 -10일반 물체 인식객체 인식을 위한 50,000개의 이미지와 10,000개의 테스트 이미지(즉, 60,000개 클래스의 32개 32×10 컬러 이미지)로 구성된 데이터 세트.(링크)
CV영상패션 MNIST패션60,000개 클래스의 레이블과 연결된 10,000×28 그레이스케일 이미지의 28개 예제와 10개 예제의 테스트 세트로 구성된 이미지 데이터 세트.(링크)
CV영상IMDB-위키 데이터세트엔터테인먼트얼굴 인식성별 및 나이와 같은 레이블이 있는 얼굴 이미지의 대규모 데이터세트입니다. 총 523,051개의 얼굴 이미지 중 460,723개의 이미지는 IMDB에서 20,284명의 유명인과 Wikipedia에서 62,328개의 이미지를 가져왔습니다.(링크)
CVVideo역학-700일반 각 액션 클래스에 대해 고품질 데이터 세트는 650,000개의 비디오 클립으로 구성되며 최소 700개의 비디오 클립과 함께 600개의 인간 액션 클래스를 포함합니다. 여기에서 각 클립은 10초 정도 지속됩니다.(링크)
CV영상MS코코일반 객체 감지, 분할데이터 세트에는 328k 이미지가 포함되어 있으며 총 2.5만 개의 인스턴스와 91개의 객체 이미지가 있어 대규모 객체 감지, 세분화 및 데이터 캡션 관련 ML 모델을 훈련합니다.(링크)
CV영상MPII 인간 포즈 데이터세트일반 주석이 달린 신체 관절이 있는 25명 이상의 개인이 포함된 약 40장의 사진이 데이터 세트에 포함되어 있으며, 이는 인간의 자세 추정을 명확히 하는 데 사용됩니다. 전체적으로 데이터 세트는 410개의 인간 활동을 포함하며 각 이미지에는 활동 레이블이 제공됩니다.(링크)
CV영상이미지 열기일반 개체 위치 주석이미지 수준 레이블, 객체 경계 상자, 객체 분할 등으로 주석이 달린 약 9백만 개의 이미지가 있는 이미지 데이터 세트. 이 데이터 세트도 16백만개로 구성됩니다. 600만 이미지의 1.9개 개체 클래스에 대한 경계 상자.(링크)
CVVideo중국 Baidu Inc의 Apollo Open Platform자동차경계 상자, LiDAR혁신적인 반복의 효율성을 가속화하기 위해 개발자에게 자율 주행에 필요한 데이터를 제공하는 풍부한 자율 주행 데이터 세트입니다.(링크)
CV비디오, 이미지아르고, 아르고, 미국자동차경계 상자, 광학 흐름, 행동 레이블, 의미 레이블, 차선 표시기하학적 및 의미론적 메타데이터(예: 차선 중심선, 차선 방향 및 주행 가능 영역)가 포함된 HD 맵으로 구성된 자율 주행 데이터 세트입니다. 데이터 세트는 ML 모델을 훈련하고 더 정확한 인식 알고리즘을 만드는 데 사용되며, 이는 자율 주행 차량이 안전하게 탐색하는 데 도움이 됩니다.(링크)
CVVideoBosch North America Research의 Bosch 소형 신호등자동차경계 상자비전 기반 신호등 감지 시스템을 구축하기 위한 13427*1280 해상도의 카메라 이미지 720개로 구성된 데이터 세트입니다. 데이터 세트에는 24000개 이상의 주석이 달린 신호등이 있습니다.(링크)
CVVideoBrain4Cars, 미국 코넬 대학교자동차행동 레이블운전자 경보에 대한 유용한 통계를 추출하기 위해 일련의 객실 센서(카메라, 촉각 센서, 스마트 장치 등)로 구성된 데이터 세트. 우리의 알고리즘은 졸리거나 주의가 산만한 운전자를 감지하고 보호 기능을 개선하기 위해 필요한 경보를 높일 수 있습니다.(링크)
CV영상CULane, 중국 대학 홍콩, 베이징, 중국의자동차차선 표시교통 차선 감지에 대한 Computer Vision 데이터 세트는 55시간 분량의 비디오로 구성되며 그 중 133,235개(88880개의 훈련 세트, 9675개의 검증 세트, 34680개의 테스트 세트) 프레임이 추출되었습니다. 베이징에서 서로 다른 운전자가 운전하는 XNUMX대의 차량에 장착된 카메라로 수집됩니다.(링크)
CVVideoDAVIS, 대학 취리히, ETH ¨ 취리히, 독일, 스위스자동차DAVIS 이벤트+프레임 카메라를 사용하는 종단 간 차량 운전 훈련 데이터 세트입니다. 스티어링, 스로틀, GPS 등과 같은 자동차 데이터는 자동차 앱에 대한 프레임 및 이벤트 데이터의 융합을 평가하는 데 사용됩니다.(링크)
CVVideoDBNet, Shanghai Jiao Tong Univ., Xiamen Univ., 중국자동차포인트 클라우드, LiDAR운전 행동에 대한 심층 연구를 위해 정렬된 비디오, 포인트 클라우드, GPS 및 운전자 행동을 포함하는 실제 1000km 주행 데이터.(링크)
CVVideoDr(eye)ve, Univ. 모데나와 레지오 에밀리아, 모데나, 이탈리아자동차행동 레이블74개 이상의 프레임에 주석이 달린 각각 5분 길이의 500,000개 비디오 시퀀스를 포함하는 데이터 세트입니다. 데이터 세트는 지리 참조 위치, 운전 속도, 코스로 구성되며 운전자 시선 고정 및 작업별 지도를 제공하는 시간적 통합에 레이블을 지정합니다.(링크)
CVVideoETH 보행자(2009), ETH Zurich, Zurich, Switzerland일반 경계 상자74개 이상의 프레임에 주석이 달린 각각 5분 분량의 500,000개 비디오 시퀀스의 데이터세트입니다. 데이터 세트는 지리 참조 위치, 운전 속도, 방향을 제공하고 작업별 지도를 포함하여 운전자 및 시간적 통합을 위한 시선 고정에 레이블을 지정합니다.(링크)
CVVideoFord (2009), Univ. 미국 미시간 주 미시간자동차경계 상자, , LiDARVelodyne 3D 라이더 스캐너, 3개의 푸시-브룸 미래 지향적인 Rieg 라이더, 기술 및 소비자 IMU(관성 측정 장치) 및 Point Gray LadybugXNUMX 전방향 카메라 시스템으로 무장한 자동화된 육상 차량에 의해 컴파일된 데이터 세트입니다.(링크)
CVVideoHCI 도전적인 스테레오, Bosch Corporation Research, Hildesheim, 독일일반 다양한 기상 조건, 모션 및 깊이의 다중 레이어를 포함하는 캡처된 비디오 장면에서 수백만 프레임의 데이터 세트. 도시와 시골의 상황 등(링크)
CVVideoJAAD, 요크 대학교, 우크라이나, 캐나다자동차경계 상자, 행동 레이블"JAAD는 자율 주행의 맥락에서 공동 주의를 연구하기 위한 데이터 세트입니다. 초점은 횡단 지점에서의 보행자와 운전자의 행동과 이에 영향을 미치는 요인에 있습니다. 이를 위해 JAAD 데이터 세트는 주석이 달린 346개의 짧은 비디오 모음을 제공합니다. 북미 및 동유럽의 여러 위치에서 5시간 이상의 운전 영상에서 추출한 클립(10-240초 길이). 폐색 태그가 있는 경계 상자는 모든 보행자에 대해 사용되어 이 데이터 세트를 보행자 감지에 적합하게 만듭니다. 행동 주석은 보행자의 행동을 지정합니다. 운전자와 상호작용하거나 운전자의 주의가 필요한 비디오 각 비디오에는 여러 태그(날씨, 위치 등)와 타임스탬프가 찍힌 행동 레이블(예: 멈춤, 걷기, 보기 등)이 있습니다. 또한 인구통계학적 속성 목록은 각 프레임에서 볼 수 있는 교통 장면 요소(예: 정지 신호, 교통 신호 등)의 목록뿐만 아니라 각 보행자(예: 연령, 성별, 동작 방향 등)에 대해 제공됩니다."(링크)
CVVideoKAIST Urban, by KAIST, 대한민국일반 LiDAR데이터 수집에는 LiDAR 데이터를 위한 수많은 위치 센서와 매우 복잡한 도시 지역(예: 대도시 지역, 복잡한 건물 및 주거 지역)을 대상으로 하는 스테레오 이미지가 포함됩니다.(링크)
CV영상LISA 교통 표지, Univ. 캘리포니아주, 샌디에이고, 미국자동차경계 상자비디오가 포함된 데이터 세트와 미국 교통 표지판이 포함된 주석 프레임. 사진만 있는 버전과 사진과 동영상이 있는 버전의 두 단계로 출시됩니다.(링크)
CV영상Mapillary Vistas, Mapillary AB, Global자동차시맨틱 레이블픽셀 단위의 정확한 인스턴스별 인간 주석으로 전 세계의 거리 장면을 해석하기 위한 거리 수준 사진 데이터세트입니다.(링크)
CV비디오, 이미지독일 카를스루에 본 대학의 시맨틱 KITTI자동차경계 상자, 의미 레이블, 차선 표시모든 Odometry Benchmark 시퀀스에 대한 의미론적 주석을 포함하는 데이터세트입니다. 데이터 세트는 자동차, 자전거, 자전거, 보행자, 자전거를 포함한 다양한 유형의 이동 및 이동하지 않는 교통량에 주석을 달아 장면의 물체를 연구할 수 있습니다.(링크)
CVVideoStanford Track, 미국 스탠포드 대학교자동차물체 감지/분류 LiDAR, GPS, 코드자연스러운 거리 장면에서 Velodyne HDL-14,000E S64 LIDAR로 관찰한 2개의 레이블이 지정된 개체 트랙을 포함하는 데이터세트로, 3D 개체 인식을 위한 기계 학습 모델을 훈련하는 데 사용할 수 있습니다.(링크)
CV비디오, 이미지Boxy 데이터 세트, Bosch, 미국자동차바운딩 박스 / 차량 감지고속도로에서 자율주행차를 위한 객체 인식 전략을 훈련하고 분석하기 위해 주석이 달린 2만 대의 차량을 포함하는 차량 감지 데이터 세트.(링크)
CVVideoTME Motorway, 체코 기술 대학, 북부 이탈리아자동차경계 상자총 28분 동안 27개의 클립으로 구성된 데이터 세트가 30,000개 이상의 차량 주석 프레임으로 분기되었습니다. 주석은 레이저 스캐너의 데이터를 사용하여 반자동으로 생성되었습니다. 이 데이터 수집에는 다양한 교통 시나리오, 차선 수, 도로 곡률 및 조명이 포함되며 전체 수집 조건의 대부분을 포함합니다.(링크)
CVVideo감독되지 않은 라마, Bosch, 미국자동차차선 표시, LiDARUnsupervised Llamas 데이터세트는 Lidar 기반 차선 표시를 포함한 고화질 자동 운전 지도를 생성하여 주석을 달았습니다. 자율주행 차량은 이러한 지도에 맞춰 정렬될 수 있으며 차선 표시는 카메라 프레임에 투영됩니다. 3D 투영은 이미 관찰된 이미지 마커와 예측된 이미지 마커 간의 불일치를 최소화하여 최적화됩니다.(링크)
NLP오디오Facebook AI 다국어 LibriSpeech(MLS)일반 오디오 주석/음성 인식Facebook AI MLS(Multilingual LibriSpeech)는 자동 음성 인식(ASR) 연구를 진행하는 데 도움이 되도록 설계된 대규모 오픈 소스 데이터 세트입니다. MLS는 영어, 독일어, 네덜란드어, 프랑스어, 스페인어, 이탈리아어, 포르투갈어, 폴란드어 등 50,000개 언어로 8시간 이상의 오디오를 제공합니다. (링크)