AI/ML 모델을 위한 오픈 소스 데이터 세트
AI 모델에 적합한 데이터셋을 찾는 데 몇 주씩 걸릴 필요는 없습니다. 오픈 데이터셋 라이브러리를 통해 머신러닝 팀은 자연어 처리, 컴퓨터 비전, 음성 및 생성형 AI를 아우르는 100개 이상의 엄선되고 사람이 검증한 데이터셋에 즉시 접근할 수 있으며, 모두 무료로 탐색할 수 있습니다.
따라서 새로운 AI/ML 이니셔티브를 시작하고 고품질 데이터 세트가 AI/ML ML 엔진이 실행 중입니다. 미래의 AI/ML 모델을 무료로 사용하고 교육할 수 있는 공개 데이터 세트 목록을 축적했습니다.
| 전문화 | 데이터 형식 | 데이터 세트 이름 | 산업/부서 | 주석/사용 사례 | (링크) |
|---|---|---|---|---|---|
| +NLP | 본문 | Amazon 리뷰 | 이커머스 | 감정 분석 | (링크) |
| 기술설명 | 사용자 및 제품 세부 정보가 포함된 일반 텍스트로 된 지난 35년 동안의 18만 개의 리뷰 및 평가 세트. | ||||
| +NLP | 본문 | 위키피디아 링크 데이터 | 일반 | (링크) | |
| 기술설명 | 위키백과에서 1.9억 단어가 포함된 4만 개 이상의 문서가 있습니다. 각 문서에는 관련 항목에 대한 하이퍼링크가 포함되어 있습니다. | ||||
| +NLP | 본문 | 스탠포드 센티먼트 트리뱅크 | 엔터테인먼트 | 감정 분석 | (링크) |
| 기술설명 | 10,000개 이상의 Rotten Tomatoes 영화 리뷰 문장에 대한 감정 주석 데이터셋입니다. 구문 단위로 제공되며, 각 문장은 Penn Treebank 형식의 파싱 트리를 이진화하여 하위 구문으로 파싱됩니다. | ||||
| +NLP | 본문 | 트위터 US Airline Sentiment | 항공 회사 | 감정 분석 | (링크) |
| 기술설명 | 2015년 US 항공에 대한 트윗은 긍정적, 중립적, 부정적 감정으로 나뉘었습니다. | ||||
| +CV | 영상 | 이미지넷 | 일반 | (링크) | |
| 기술설명 | 다양한 파일 형식의 14만 개 이상의 이미지가 약 21,000개의 신셋(synset)에 매핑된 데이터셋입니다. 신셋은 이미지 형태로 존재하는 연관된 개체들을 의미합니다. 1만 개의 이미지에는 경계 상자가 있으며, 1만 개 이상의 이미지에는 SIFT 특징이 있습니다. | ||||
| +CV | 영상 | 구글의 오픈 이미지 | 일반 | (링크) | |
| 기술설명 | ImageNet과 유사한 600개 카테고리를 가진 데이터셋입니다. 개발, 검증 및 학습 단계로 제공됩니다. 일부 이미지에는 경계 상자와 시각적 관계가 포함되어 있습니다. | ||||
| +NLP | 본문 | 코넬 영화 대화 | 엔터테인먼트 | 대화 상자 | (링크) |
| 기술설명 | 등장인물과 영화에 대한 메타데이터가 포함된 가상의 대화 모음입니다. 각 행은 두 사람 간의 질의응답 형식으로 이루어진 대화입니다. | ||||
| 기술설명 | 2007년 4월부터 2007년 10월까지 Yahoo Answers 포털의 질문과 답변을 담은 질문-답변 데이터 세트입니다. | ||||
| +NLP | 본문 | MS 마르코 | 일반 | 질문 답변 | (링크) |
| 기술설명 | Bing 웹 검색 로그의 주석이 포함된 질의-답변 데이터세트입니다. 각 질문에는 사용자가 제공한 답변과 해당 답변이 포함된 웹 구절이 포함됩니다. | ||||
| +NLP | 본문 | 자연스러운 질문 데이터 세트 | 일반 | 질문 답변 | (링크) |
| 기술설명 | Google에서 공개한 이 데이터 세트에는 Wikipedia 문서에서 발췌한 실제 사용자 질의와 답변이 포함되어 있습니다. | ||||
| +NLP | 본문 | 디비피디아 | 일반 | 지식 그래프 | (링크) |
| 기술설명 | 지식 그래프로 추출된 엔터티와 관계를 포함하는 위키피디아의 구조화된 렌더링입니다. | ||||
| +NLP | 본문 | 야고 | 일반 | 지식 그래프 | (링크) |
| 기술설명 | Wikipedia, WordNet, GeoNames의 엔터티와 관계를 포함하는 지식 그래프입니다. | ||||
| +NLP | 본문 | 프리베이스 | 일반 | 지식 그래프 | (링크) |
| 기술설명 | 엔티티와 관계로 구성된 크라우드 소싱 지식 기반이 이제 Google 지식 그래프에 통합되었습니다. | ||||
| +NLP | 본문 | 온토노츠 | 일반 | 의미적 역할 라벨링 | (링크) |
| 기술설명 | CoNLL 공유 과제에 사용되는 구문적, 의미적, 담화적 수준의 주석이 포함된 코퍼스입니다. | ||||
| 기술설명 | 사람, 조직, 위치 등의 명명된 엔터티에 대한 주석이 달린 영어 데이터 세트입니다. | ||||
| +CV | 영상 | COCO | 일반 | 객체 감지 | (링크) |
| 기술설명 | 컨텍스트 내 공통 객체: 객체 감지, 분할 및 캡션을 위한 풍부한 주석이 달린 데이터 세트입니다. | ||||
| +CV | 영상 | 파스칼 VOC | 일반 | 객체 감지 | (링크) |
| 기술설명 | 객체 감지 및 분할 과제를 위한 벤치마크 데이터 세트입니다. | ||||
| +CV | 영상 | 도시 | 자율 주행 | 시맨틱 분할 | (링크) |
| 기술설명 | 30개 클래스에 대한 픽셀 수준 주석이 포함된 도시 풍경 이해를 위한 데이터 세트입니다. | ||||
| +CV | 영상 | MNIST | 일반 | 숫자 분류 | (링크) |
| 기술설명 | 28x28 픽셀 크기의 60,000개의 훈련 이미지와 10,000개의 테스트 이미지로 구성된 손으로 쓴 숫자 데이터 세트입니다. | ||||
| +CV | 영상 | 패션-MNIST | 소매 | 이미지 분류 | (링크) |
| 기술설명 | MNIST와 동일한 형식의 Zalando 기사 이미지 데이터 세트로, 벤치마킹을 위한 대체 수단으로 사용됩니다. | ||||
| +NLP | 오디오 | 리브리스피치 | 일반 | ASR | (링크) |
| 기술설명 | 오디오북에서 추출한 영어 음성 자료로, 1000시간 분량의 음성과 관련 텍스트를 담고 있습니다. | ||||
| +NLP | 오디오 | 테드리움 | 일반 | ASR | (링크) |
| 기술설명 | 음성 인식 연구를 위해 오디오와 정렬된 필사본을 갖춘 TED 강연입니다. | ||||
| +NLP | 오디오 | TIMIT | 일반 | 음소 인식 | (링크) |
| 기술설명 | 미국 영어 화자의 음성을 음성학적으로 필사한 것으로, 음소 인식 작업에 널리 사용됩니다. | ||||
| +NLP | 오디오 | 일반적인 목소리 | 일반 | ASR | (링크) |
| 기술설명 | 전 세계의 자원봉사자들이 기여한 다국어 낭독 연설 모음입니다. | ||||
| +NLP | 오디오 | 복스셀럽 | 일반 | 화자 인식 | (링크) |
| 기술설명 | YouTube 동영상에서 수집한 대규모 화자 식별 데이터 세트입니다. | ||||
| +NLP | 본문 | 위키피디아 덤프 | 일반 | 언어 모델링 | (링크) |
| 기술설명 | 정기적으로 업데이트되는 위키피디아 문서의 전체 텍스트 덤프로, 언어 모델의 사전 학습에 사용됩니다. | ||||
| +NLP | 본문 | 기가워드 | 뉴스 | 언어 모델링 | (링크) |
| 기술설명 | 여러 통신사의 뉴스와이어 텍스트 데이터를 포괄적으로 보관합니다. | ||||
| +NLP | 본문 | IMDB 리뷰 | 엔터테인먼트 | 감정 분석 | (링크) |
| 기술설명 | 이진 감정 분류를 위한 대규모 영화 리뷰 데이터 세트입니다. | ||||
| +CV | Video | 역학-700 | 일반 | 행동 인식 | (링크) |
| 기술설명 | 700개의 인간 행동 유형을 포괄하는 YouTube 비디오 클립의 대규모 고품질 데이터 세트입니다. | ||||
| +CV | Video | UCF101 | 일반 | 행동 인식 | (링크) |
| 기술설명 | 101개의 액션 카테고리를 갖춘 사실적인 액션 영상 데이터 세트입니다. | ||||
| +CV | Video | HMDB51 | 일반 | 행동 인식 | (링크) |
| 기술설명 | 51개의 동작 카테고리를 갖춘 대규모 인간 동작 비디오 데이터베이스입니다. | ||||
| 기술설명 | 제약 없는 얼굴 인식을 연구하기 위해 설계된 얼굴 사진 데이터베이스입니다. | ||||
| +CV | 영상 | CASIA-웹페이스 | 일반 | 얼굴 인식 | (링크) |
| 기술설명 | 수백만 개의 얼굴 이미지가 포함된 데이터 세트를 사용하여 심층적인 얼굴 인식 모델을 훈련합니다. | ||||
| +NLP | 본문 | 분대 | 일반 | 독해력 | (링크) |
| 기술설명 | 스탠포드 질문 답변 데이터 세트: 크라우드워커가 위키피디아 문서에 대해 제기한 질문입니다. | ||||
| 기술설명 | CNN 뉴스 기사를 기반으로 한 질문과 답변이 담긴 기계 이해 데이터 세트입니다. | ||||
| +NLP | 본문 | 멀티NLI | 일반 | 자연어 추론 | (링크) |
| 기술설명 | 다양한 장르에 걸친 문장 쌍 자연어 추론을 위한 데이터 세트입니다. | ||||
| +NLP | 본문 | 에스엘리 | 일반 | 자연어 추론 | (링크) |
| 기술설명 | 문장 쌍이 함의, 모순 또는 중립으로 표시된 스탠포드 자연어 추론 코퍼스입니다. | ||||
| 기술설명 | 위키피디아에서 검증된 우수 및 추천 문서 세트에서 추출한 100억 개 이상의 토큰 컬렉션입니다. | ||||
| 기술설명 | 196개 종류의 자동차에 대한 16,185개 이미지의 데이터 세트입니다. | ||||
| +CV | 영상 | 옥스포드 플라워 102 | 식물학 | 세분화된 분류 | (링크) |
| 기술설명 | 영국에서 흔히 볼 수 있는 꽃 종류는 102가지입니다. | ||||
| +CV | 영상 | 시파 -10 | 일반 | 이미지 분류 | (링크) |
| 기술설명 | 10가지 종류의 이미지: 비행기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭. | ||||
| +CV | 영상 | 시파 -100 | 일반 | 이미지 분류 | (링크) |
| 기술설명 | CIFAR-10과 비슷한 데이터 세트이지만 100개의 세분화된 클래스가 있습니다. | ||||
| +CV | 영상 | VOC 사람 레이아웃 | 일반 | 포즈 추정 | (링크) |
| 기술설명 | 머리, 손, 발 등 사람의 레이아웃 주석에 초점을 맞춘 PASCAL VOC의 일부입니다. | ||||
| +CV | 영상 | MPII 인간 포즈 | 일반 | 포즈 추정 | (링크) |
| 기술설명 | 약 25,000개의 이미지에 40,000명 이상의 사람의 신체 관절에 대한 주석이 달려 있습니다. | ||||
| 기술설명 | 텍스트 분류 연구를 위한 Reuters 뉴스와이어 기사 모음입니다. | ||||
| +NLP | 본문 | 20개의 뉴스그룹 | 일반 | 텍스트 분류 | (링크) |
| 기술설명 | 20,000개의 뉴스그룹 문서가 20개의 서로 다른 뉴스그룹으로 분할된 컬렉션입니다. | ||||