데이터세트 열기

ML 모델을 학습시키는 데 도움이 되는 오픈 소스 데이터 세트 알아보기

AI/ML 모델 시작을 위한 오픈 소스 데이터 세트

AI 및 ML 모델의 출력은 학습에 사용하는 데이터만큼만 우수하므로 데이터 집계와 해당 데이터의 태그 지정 및 식별에 적용하는 정밀도가 중요합니다!

따라서 새로운 AI/ML 이니셔티브를 시작하고 고품질 데이터 세트가 AI/ML ML 엔진이 실행 중입니다. 미래의 AI/ML 모델을 무료로 사용하고 교육할 수 있는 공개 데이터 세트 목록을 축적했습니다.

전문화	데이터 형식	데이터 세트 이름	산업/부서	주석/사용 사례	상품 설명	(링크)
NLP	본문	Amazon 리뷰	전자 상거래	감정 분석	사용자 및 제품 세부 정보가 포함된 일반 텍스트로 된 지난 35년 동안의 18만 개의 리뷰 및 평가 세트.	(링크)
NLP	본문	위키피디아 링크 데이터	일반		4백만원 이상 1.9억을 포함하는 물품. 단어와 구 및 단락으로 구성된 단어.	(링크)
NLP	본문	스탠포드 센티먼트 트리뱅크	엔터테인먼트	감정 분석	HTML 파일 형식의 Rotten Tomatoes 리뷰 10,000개 이상에 대한 감정 주석 데이터 세트	(링크)
NLP	본문	트위터 US Airline Sentiment	항공 회사	감정 분석	2015년 US Airlines에 대한 트윗은 긍정적, 부정적, 중립적 어조로 분기됨	(링크)
CV	영상	야생에서 레이블이 지정된 얼굴	일반	얼굴 인식	얼굴 인식 훈련을 위해 13,000개의 다른 사진과 함께 XNUMX개 이상의 잘린 얼굴을 포함하는 데이터 세트.	(링크)
CV	비디오, 이미지	UMDfaces 데이터세트	일반	얼굴 인식	스틸 및 비디오 이미지를 포함하는 367,000개 이상의 주제에서 8,000개 이상의 얼굴을 포함하는 주석이 달린 데이터세트.	(링크)
CV	영상	이미지넷	일반		14 Mn 이상의 데이터 세트. WordNet 계층 구조에 따라 구성된 다양한 파일 형식의 이미지.	(링크)
CV	영상	구글의 오픈 이미지	일반		9만 6,000개 이상의 카테고리에서 공개 이미지를 분류하는 URL.	(링크)
NLP	본문	MIMIC 중환자 데이터베이스	의료		40,000명의 중환자의 비식별화된 데이터가 포함된 전산 생리학 데이터 세트. 데이터 세트에는 인구 통계, 활력 징후, 약물 등과 같은 정보가 포함됩니다.	(링크)
CV	영상	미국 국립 여행 및 관광청	관광 여행		인바운드 및 아웃바운드 여행 및 국제 관광 정보와 같은 주제를 다루는 신뢰할 수 있는 데이터베이스와 함께 관광 산업의 광범위한 사진을 제공합니다.	(링크)
NLP	본문	교통학과	관광 여행		국립공원, 운전자 등록부, 교량 및 철도 정보 등이 포함된 관광 데이터 세트	(링크)
NLP	오디오	Flickr 오디오 캡션 코퍼스	일반		감독되지 않은 음성 패턴을 위해 설계된 40개의 사진에서 8,000개 이상의 음성 캡션	(링크)
NLP	오디오	음성 명령 데이터세트	일반	음성 인식, 오디오 주석	기본 음성 인터페이스를 구축하기 위해 수천 명의 개인이 1초 동안 발화합니다.	(링크)
NLP	오디오	환경 오디오 데이터 세트	일반		이벤트 테이블 및 음향 장면 테이블의 사운드를 포함하는 환경 오디오 데이터 세트.	(링크)
NLP	본문	COVID-19 공개 리서치 데이터 셋	의료	의료 AI	COVID-45,000 및 코로나바이러스 계열 바이러스에 대한 19개의 학술 논문으로 구성된 연구 데이터 세트입니다.	(링크)
CV	영상	웨이 모 오픈 데이터 셋	자동차		Waymo에서 출시한 가장 다양한 자율주행 데이터 세트	(링크)
CV	영상	비주얼 게놈	일반	이미지 캡션	100개 이상의 이미지에 대한 자세한 캡션이 포함된 시각적 지식 기반	(링크)
CV	영상	라벨미	공공 정부		Labelme Matlab을 통해 액세스할 수 있는 대규모 주석 이미지 세트	(링크)
CV	영상	코일 100	일반		다양한 각도(즉, 100도)에서 촬영한 360가지 이상의 다양한 개체	(링크)
CV	영상	스탠포드 개 데이터 세트	일반		20,500개 이상의 이미지가 120개의 다른 견종의 이미지 세트로 분류됨	(링크)
CV	영상	실내 장면 인식	일반	장면 인식	장면 인식 모델을 구축하기 위해 15620개의 실내 카테고리에서 67개의 이미지로 구성된 특정 데이터 세트	(링크)
CV	영상	비주얼QA	일반		265,016장의 사진과 관련된 개방형 질문이 포함된 데이터세트로, 응답하려면 시각 및 언어 이해력에 대한 이해가 필요합니다.	(링크)
NLP	본문	다중 도메인 감정 분석 데이터 세트	전자 상거래	감정 분석	Amazon의 제품 리뷰가 포함된 데이터 세트	(링크)
NLP	본문	IMDB 리뷰	엔터테인먼트	감정 분석	감정 분석을 위한 25000개의 영화 리뷰가 포함된 데이터세트	(링크)
NLP	본문	감정 140	일반	감정 분석	정확도를 높이기 위해 이모티콘이 사전 제거된 160,000개의 트윗이 포함된 데이터 세트	(링크)
NLP	본문	블로거 코퍼스	일반	키프레이즈 분석	광범위하게 사용되는 영어 단어의 최소 681,288회 발생으로 구성된 blogger.com의 200개 블로그 게시물을 포함하는 데이터 세트.	(링크)
NLP	본문	위험	일반	챗봇 교육	지능적으로 자동 응답하도록 기계 학습 모델을 훈련하는 데 사용할 수 있는 200,000개 이상의 질문이 있는 데이터 세트	(링크)
NLP	본문	영어로 된 SMS 스팸 수집	통신	스팸 인식	5,574개의 영문 SMS로 구성된 스팸 메시지 데이터 세트	(링크)
NLP	본문	Yelp 리뷰	일반	감정 분석	Yelp에서 게시한 5백만 개 이상의 리뷰가 있는 데이터 세트	(링크)
NLP	본문	UCI의 스팸베이스	Enterprise	스팸 인식	스팸 필터링에 유용한 대규모 스팸 이메일 데이터 세트입니다.	(링크)
CV	비디오, 이미지	버클리 딥드라이브 BDD100k	자동차	자치 차량	자율주행 AI를 위한 가장 큰 데이터 세트 중 하나로서 뉴욕과 샌프란시스코 지역에서 하루 중 서로 다른 시간의 1,100개 이상의 비디오에 100,000시간의 운전 경험이 포함되어 있습니다.	(링크)
CV	Video	쉼표.ai	자동차	자치 차량	자동차의 속도, 가속도, 조향각 및 GPS 좌표에 대한 정보로 구성된 7시간 고속도로 주행 데이터 세트	(링크)
CV	비디오, 이미지	도시경관 데이터세트	자동차	자율주행차용 시맨틱 라벨	5,000개의 다른 도시에서 기록된 20,000개의 픽셀 수준 주석과 스테레오 비디오 시퀀스의 50개의 약하게 주석이 추가된 프레임 세트의 데이터세트	(링크)
CV	영상	KUL 벨기에 교통 표지 데이터 세트	자동차	자치 차량	벨기에 전역의 물리적으로 구별되는 교통 표지판을 기반으로 하는 플랑드르 지역의 10000개 이상의 교통 표지판 주석.	(링크)
CV	영상	LISA: 지능형 및 안전 자동차 연구실, UC San Diego Datasets	자동차	자치 차량	교통 표지, 차량 감지, 신호등 및 궤적 패턴을 포함하는 풍부한 데이터 세트.	(링크)
CV	영상	시파 -10	일반	물체 인식	객체 인식을 위한 50,000개의 이미지와 10,000개의 테스트 이미지(즉, 60,000개 클래스의 32개 32×10 컬러 이미지)로 구성된 데이터 세트.	(링크)
CV	영상	패션 MNIST	패션		60,000개 클래스의 레이블과 연결된 10,000×28 그레이스케일 이미지의 28개 예제와 10개 예제의 테스트 세트로 구성된 이미지 데이터 세트.	(링크)
CV	영상	IMDB-위키 데이터세트	엔터테인먼트	얼굴 인식	성별 및 나이와 같은 레이블이 있는 얼굴 이미지의 대규모 데이터세트입니다. 총 523,051개의 얼굴 이미지 중 460,723개의 이미지는 IMDB에서 20,284명의 유명인과 Wikipedia에서 62,328개의 이미지를 가져왔습니다.	(링크)
CV	Video	역학-700	일반		각 액션 클래스에 대해 고품질 데이터 세트는 650,000개의 비디오 클립으로 구성되며 최소 700개의 비디오 클립과 함께 600개의 인간 액션 클래스를 포함합니다. 여기에서 각 클립은 10초 정도 지속됩니다.	(링크)
CV	영상	MS코코	일반	객체 감지, 분할	데이터 세트에는 328k 이미지가 포함되어 있으며 총 2.5만 개의 인스턴스와 91개의 객체 이미지가 있어 대규모 객체 감지, 세분화 및 데이터 캡션 관련 ML 모델을 훈련합니다.	(링크)
CV	영상	MPII 인간 포즈 데이터세트	일반		주석이 달린 신체 관절이 있는 25명 이상의 개인이 포함된 약 40장의 사진이 데이터 세트에 포함되어 있으며, 이는 인간의 자세 추정을 명확히 하는 데 사용됩니다. 전체적으로 데이터 세트는 410개의 인간 활동을 포함하며 각 이미지에는 활동 레이블이 제공됩니다.	(링크)
CV	영상	이미지 열기	일반	개체 위치 주석	이미지 수준 레이블, 객체 경계 상자, 객체 분할 등으로 주석이 달린 약 9백만 개의 이미지가 있는 이미지 데이터 세트. 이 데이터 세트도 16백만개로 구성됩니다. 600만 이미지의 1.9개 개체 클래스에 대한 경계 상자.	(링크)
CV	Video	중국 Baidu Inc의 Apollo Open Platform	자동차	경계 상자, LiDAR	혁신적인 반복의 효율성을 가속화하기 위해 개발자에게 자율 주행에 필요한 데이터를 제공하는 풍부한 자율 주행 데이터 세트입니다.	(링크)
CV	비디오, 이미지	아르고, 아르고, 미국	자동차	경계 상자, 광학 흐름, 행동 레이블, 의미 레이블, 차선 표시	기하학적 및 의미론적 메타데이터(예: 차선 중심선, 차선 방향 및 주행 가능 영역)가 포함된 HD 맵으로 구성된 자율 주행 데이터 세트입니다. 데이터 세트는 ML 모델을 훈련하고 더 정확한 인식 알고리즘을 만드는 데 사용되며, 이는 자율 주행 차량이 안전하게 탐색하는 데 도움이 됩니다.	(링크)
CV	Video	Bosch North America Research의 Bosch 소형 신호등	자동차	경계 상자	비전 기반 신호등 감지 시스템을 구축하기 위한 13427*1280 해상도의 카메라 이미지 720개로 구성된 데이터 세트입니다. 데이터 세트에는 24000개 이상의 주석이 달린 신호등이 있습니다.	(링크)
CV	Video	Brain4Cars, 미국 코넬 대학교	자동차	행동 레이블	운전자 경보에 대한 유용한 통계를 추출하기 위해 일련의 객실 센서(카메라, 촉각 센서, 스마트 장치 등)로 구성된 데이터 세트. 우리의 알고리즘은 졸리거나 주의가 산만한 운전자를 감지하고 보호 기능을 개선하기 위해 필요한 경보를 높일 수 있습니다.	(링크)
CV	영상	CULane, 중국 대학 홍콩, 베이징, 중국의	자동차	차선 표시	교통 차선 감지에 대한 Computer Vision 데이터 세트는 55시간 분량의 비디오로 구성되며 그 중 133,235개(88880개의 훈련 세트, 9675개의 검증 세트, 34680개의 테스트 세트) 프레임이 추출되었습니다. 베이징에서 서로 다른 운전자가 운전하는 XNUMX대의 차량에 장착된 카메라로 수집됩니다.	(링크)
CV	Video	DAVIS, 대학 취리히, ETH ¨ 취리히, 독일, 스위스	자동차		DAVIS 이벤트+프레임 카메라를 사용하는 종단 간 차량 운전 훈련 데이터 세트입니다. 스티어링, 스로틀, GPS 등과 같은 자동차 데이터는 자동차 앱에 대한 프레임 및 이벤트 데이터의 융합을 평가하는 데 사용됩니다.	(링크)
CV	Video	DBNet, Shanghai Jiao Tong Univ., Xiamen Univ., 중국	자동차	포인트 클라우드, LiDAR	운전 행동에 대한 심층 연구를 위해 정렬된 비디오, 포인트 클라우드, GPS 및 운전자 행동을 포함하는 실제 1000km 주행 데이터.	(링크)
CV	Video	Dr(eye)ve, Univ. 모데나와 레지오 에밀리아, 모데나, 이탈리아	자동차	행동 레이블	74개 이상의 프레임에 주석이 달린 각각 5분 길이의 500,000개 비디오 시퀀스를 포함하는 데이터 세트입니다. 데이터 세트는 지리 참조 위치, 운전 속도, 코스로 구성되며 운전자 시선 고정 및 작업별 지도를 제공하는 시간적 통합에 레이블을 지정합니다.	(링크)
CV	Video	ETH 보행자(2009), ETH Zurich, Zurich, Switzerland	일반	경계 상자	74개 이상의 프레임에 주석이 달린 각각 5분 분량의 500,000개 비디오 시퀀스의 데이터세트입니다. 데이터 세트는 지리 참조 위치, 운전 속도, 방향을 제공하고 작업별 지도를 포함하여 운전자 및 시간적 통합을 위한 시선 고정에 레이블을 지정합니다.	(링크)
CV	Video	Ford (2009), Univ. 미국 미시간 주 미시간	자동차	경계 상자, , LiDAR	Velodyne 3D 라이더 스캐너, 3개의 푸시-브룸 미래 지향적인 Rieg 라이더, 기술 및 소비자 IMU(관성 측정 장치) 및 Point Gray LadybugXNUMX 전방향 카메라 시스템으로 무장한 자동화된 육상 차량에 의해 컴파일된 데이터 세트입니다.	(링크)
CV	Video	HCI 도전적인 스테레오, Bosch Corporation Research, Hildesheim, 독일	일반		다양한 기상 조건, 모션 및 깊이의 다중 레이어를 포함하는 캡처된 비디오 장면에서 수백만 프레임의 데이터 세트. 도시와 시골의 상황 등	(링크)
CV	Video	JAAD, 요크 대학교, 우크라이나, 캐나다	자동차	경계 상자, 행동 레이블	"JAAD는 자율 주행의 맥락에서 공동 주의를 연구하기 위한 데이터 세트입니다. 초점은 횡단 지점에서의 보행자와 운전자의 행동과 이에 영향을 미치는 요인에 있습니다. 이를 위해 JAAD 데이터 세트는 주석이 달린 346개의 짧은 비디오 모음을 제공합니다. 북미 및 동유럽의 여러 위치에서 5시간 이상의 운전 영상에서 추출한 클립(10-240초 길이). 폐색 태그가 있는 경계 상자는 모든 보행자에 대해 사용되어 이 데이터 세트를 보행자 감지에 적합하게 만듭니다. 행동 주석은 보행자의 행동을 지정합니다. 운전자와 상호작용하거나 운전자의 주의가 필요한 비디오 각 비디오에는 여러 태그(날씨, 위치 등)와 타임스탬프가 찍힌 행동 레이블(예: 멈춤, 걷기, 보기 등)이 있습니다. 또한 인구통계학적 속성 목록은 각 프레임에서 볼 수 있는 교통 장면 요소(예: 정지 신호, 교통 신호 등)의 목록뿐만 아니라 각 보행자(예: 연령, 성별, 동작 방향 등)에 대해 제공됩니다."	(링크)
CV	Video	KAIST Urban, by KAIST, 대한민국	일반	LiDAR	데이터 수집에는 LiDAR 데이터를 위한 수많은 위치 센서와 매우 복잡한 도시 지역(예: 대도시 지역, 복잡한 건물 및 주거 지역)을 대상으로 하는 스테레오 이미지가 포함됩니다.	(링크)
CV	영상	LISA 교통 표지, Univ. 캘리포니아주, 샌디에이고, 미국	자동차	경계 상자	비디오가 포함된 데이터 세트와 미국 교통 표지판이 포함된 주석 프레임. 사진만 있는 버전과 사진과 동영상이 있는 버전의 두 단계로 출시됩니다.	(링크)
CV	영상	Mapillary Vistas, Mapillary AB, Global	자동차	시맨틱 레이블	픽셀 단위의 정확한 인스턴스별 인간 주석으로 전 세계의 거리 장면을 해석하기 위한 거리 수준 사진 데이터세트입니다.	(링크)
CV	비디오, 이미지	독일 카를스루에 본 대학의 시맨틱 KITTI	자동차	경계 상자, 의미 레이블, 차선 표시	모든 Odometry Benchmark 시퀀스에 대한 의미론적 주석을 포함하는 데이터세트입니다. 데이터 세트는 자동차, 자전거, 자전거, 보행자, 자전거를 포함한 다양한 유형의 이동 및 이동하지 않는 교통량에 주석을 달아 장면의 물체를 연구할 수 있습니다.	(링크)
CV	Video	Stanford Track, 미국 스탠포드 대학교	자동차	물체 감지/분류 LiDAR, GPS, 코드	자연스러운 거리 장면에서 Velodyne HDL-14,000E S64 LIDAR로 관찰한 2개의 레이블이 지정된 개체 트랙을 포함하는 데이터세트로, 3D 개체 인식을 위한 기계 학습 모델을 훈련하는 데 사용할 수 있습니다.	(링크)
CV	비디오, 이미지	Boxy 데이터 세트, Bosch, 미국	자동차	바운딩 박스 / 차량 감지	고속도로에서 자율주행차를 위한 객체 인식 전략을 훈련하고 분석하기 위해 주석이 달린 2만 대의 차량을 포함하는 차량 감지 데이터 세트.	(링크)
CV	Video	TME Motorway, 체코 기술 대학, 북부 이탈리아	자동차	경계 상자	총 28분 동안 27개의 클립으로 구성된 데이터 세트가 30,000개 이상의 차량 주석 프레임으로 분기되었습니다. 주석은 레이저 스캐너의 데이터를 사용하여 반자동으로 생성되었습니다. 이 데이터 수집에는 다양한 교통 시나리오, 차선 수, 도로 곡률 및 조명이 포함되며 전체 수집 조건의 대부분을 포함합니다.	(링크)
CV	Video	감독되지 않은 라마, Bosch, 미국	자동차	차선 표시, LiDAR	Unsupervised Llamas 데이터세트는 Lidar 기반 차선 표시를 포함한 고화질 자동 운전 지도를 생성하여 주석을 달았습니다. 자율주행 차량은 이러한 지도에 맞춰 정렬될 수 있으며 차선 표시는 카메라 프레임에 투영됩니다. 3D 투영은 이미 관찰된 이미지 마커와 예측된 이미지 마커 간의 불일치를 최소화하여 최적화됩니다.	(링크)
NLP	오디오	Facebook AI 다국어 LibriSpeech(MLS)	일반	오디오 주석/음성 인식	Facebook AI MLS(Multilingual LibriSpeech)는 자동 음성 인식(ASR) 연구를 진행하는 데 도움이 되도록 설계된 대규모 오픈 소스 데이터 세트입니다. MLS는 영어, 독일어, 네덜란드어, 프랑스어, 스페인어, 이탈리아어, 포르투갈어, 폴란드어 등 50,000개 언어로 8시간 이상의 오디오를 제공합니다.	(링크)

데이터세트 열기

AI/ML 모델 시작을 위한 오픈 소스 데이터 세트

AI 데이터 서비스

전문

산업별

제품

기업 정보

자료

문의하기