AI 알고리즘은 제공하는 데이터만큼만 좋습니다.
과감하거나 파격적인 표현이 아닙니다. AI는 수십 년 전만 해도 다소 억지스러워 보일 수 있었지만 그 이후로 인공 지능과 머신 러닝은 정말 먼 길을 왔습니다.
컴퓨터 비전은 컴퓨터가 라벨과 이미지를 이해하고 해석하는 데 도움을 줍니다. 적절한 이미지 데이터셋을 사용하여 컴퓨터를 훈련시키면, 컴퓨터는 다양한 얼굴 특징을 감지, 이해 및 식별하고, 질병을 감지하고, 자율주행차를 운전하고, 다차원 장기 스캐닝을 통해 생명을 구하는 능력을 키울 수 있습니다.
컴퓨터 비전 시장은 144.46 년까지 $ 2028 십억 겸손한 것에서 7.04년 2020억 달러, 성장 45.64년과 2021년 사이에 2028%의 CAGR.
머신 러닝 및 컴퓨터 비전 작업에 투입하고 학습시키는 이미지 데이터셋은 AI 프로젝트의 성공에 매우 중요합니다. 양질의 데이터셋을 확보하는 것은 매우 어렵습니다. 견고한 모델 학습을 보장하고 실제 세계의 복잡성을 더 잘 반영하기 위해서는 다양한 이미지 컬렉션을 활용하는 것이 필수적입니다.
프로젝트의 복잡성에 따라 컴퓨터 비전 목적에 적합한 신뢰할 수 있고 관련성 있는 데이터 세트를 확보하는 데 며칠에서 몇 주까지 걸릴 수 있습니다. 다양한 컴퓨터 비전 작업과 실제 시나리오를 포괄하려면 다양한 데이터 세트가 필요합니다. 연구자들은 포괄적인 모델 평가를 보장하고 다양한 애플리케이션을 지원하기 위해 연구 목적으로 방대한 데이터 세트를 필요로 하는 경우가 많습니다.
여기에서는 바로 사용할 수 있는 다양한 오픈소스 이미지 데이터 세트를 사용자의 편의를 위해 분류하여 제공합니다.
이미지 데이터 세트 작업: 분류, 분할, 감지 등
이미지 데이터세트 현대 컴퓨터 비전의 중추를 이루는 이미지 데이터셋은 기계가 시각 정보를 해석하고 이해할 수 있도록 하는 다양한 작업을 지원합니다. 자율주행차 모델을 구축하든, 얼굴 인식 기술을 개발하든, 의료 영상 분석을 하든, 적절한 이미지 데이터셋은 성공에 필수적인 도구입니다.
이미지 분류 가장 기본적인 컴퓨터 비전 작업 중 하나입니다. 이 과정에서 모델은 이미지의 내용을 기반으로 전체 이미지에 레이블을 지정하는 방법을 학습합니다. 예를 들어, 이미지 분류 데이터세트는 모델이 고양이와 개 이미지를 구분하거나 다양한 종류의 식물을 식별하는 데 도움이 될 수 있습니다. 이 작업은 자동 사진 태그 지정, 의료 이미지를 활용한 질병 진단, 장면 분류 벤치마크와 같은 애플리케이션에 매우 중요합니다.
물체 감지 이미지 내 객체의 존재를 식별할 뿐만 아니라 경계 상자를 사용하여 객체의 위치를 정확하게 파악함으로써 한 단계 더 나아갑니다. 경계 상자가 있는 주석이 달린 이미지와 같은 객체 감지 데이터셋은 자율주행차의 보행자 감지, 보안 감시, 소매 분석과 같은 애플리케이션에 필수적입니다. 객체 감지는 또한 실제 시나리오를 위한 강력한 컴퓨터 비전 알고리즘을 개발하는 데 중요한 요소입니다.
시맨틱 분할 이미지의 각 픽셀을 특정 범주로 분류하여 장면에 대한 상세한 이해를 제공하는 것을 포함합니다. 이러한 픽셀 수준의 트라이맵 분할은 장기나 종양의 정확한 묘사가 필요한 의료 영상 작업이나 도로, 보도, 차량을 구분하는 것이 중요한 자율 주행 도시 환경에서 특히 중요합니다.
이러한 핵심 작업 외에도 이미지 데이터셋은 인스턴스 분할(동일 클래스의 개별 객체 구분), 이미지 캡션(이미지에 대한 설명 텍스트 생성), 얼굴 인식(이미지에서 사람 얼굴 식별 또는 검증)을 지원합니다. 이러한 각 컴퓨터 비전 작업은 고품질의 주석이 달린 이미지를 사용하여 머신 러닝 모델을 학습하고 검증합니다.
다양하고 주석이 잘 작성된 이미지 데이터 세트를 활용함으로써 데이터 과학자와 머신 러닝 실무자는 이미지 인식 및 분류 작업부터 복잡한 분할 및 탐지 문제까지 다양한 컴퓨터 비전 과제를 해결할 수 있습니다. 적절한 데이터 세트는 연구 개발을 가속화할 뿐만 아니라 컴퓨터 비전 시스템이 실제 애플리케이션에서 정확하게 작동하도록 보장합니다.
컴퓨터 비전 모델을 훈련하기 위한 포괄적인 이미지 데이터 세트 목록
일반 :
-
IMAGEnet
ImageNet은 널리 사용되는 데이터 세트이며 1.2개의 범주로 분류된 놀라운 1000만 개의 이미지와 함께 제공됩니다. 이 데이터 세트는 WorldNet 계층 구조에 따라 구성되며 훈련 데이터, 이미지 레이블 및 검증 데이터의 세 부분으로 분류됩니다.
-
역학 700
Kinetics 700은 650,000개의 다양한 인간 행동 클래스의 700개 이상의 클립이 있는 거대한 고품질 데이터 세트입니다. 각 수업 활동에는 약 700개의 비디오 클립이 있습니다. 데이터 세트의 클립에는 인간-물체 및 인간-인간 상호 작용이 있으며, 이는 비디오에서 인간의 행동을 인식할 때 매우 유용한 것으로 입증되었습니다.
-
시파 -10
CIFAR 10은 60000개의 다른 클래스를 나타내는 32개의 32 x 6000 컬러 이미지를 자랑하는 가장 큰 컴퓨터 비전 데이터 세트 중 하나입니다. 각 클래스에는 컴퓨터 비전 알고리즘과 머신 러닝을 훈련하는 데 사용되는 약 XNUMX개의 이미지가 있습니다.
-
Oxford-IIIT 반려동물 이미지 데이터 세트
반려동물 이미지 데이터 세트는 클래스당 37개의 이미지가 있는 200개 카테고리로 구성되어 있습니다. 이러한 이미지는 크기, 포즈, 조명이 다양하며 품종, 머리 ROI, 픽셀 수준 트리맵 분할에 대한 주석이 함께 제공됩니다.
-
구글의 오픈 이미지
인상적인 9만 개의 URL을 보유한 이 데이터 세트는 6,000개 카테고리에 걸쳐 레이블이 지정된 수백만 개의 이미지를 담고 있는 이 목록에서 가장 큰 이미지 데이터 세트 중 하나입니다.
-
식물 이미지
이 편집본에는 약 1개 종을 포함하는 11만 개의 식물 이미지가 포함된 여러 이미지 데이터 세트가 포함되어 있습니다.
-
엘순
LSUN은 다양한 장면 및 객체 범주에 대한 수백만 개의 레이블이 지정된 이미지를 포함하는 대규모 이미지 데이터셋입니다. 이 데이터셋에는 모델 평가를 위한 전용 테스트 세트가 포함되어 있습니다.
얼굴 인식:

-
야생에서 레이블이 지정된 얼굴
Labeled Faced in the Wild는 인터넷에서 감지된 거의 13,230명에 대한 5,750개 이상의 이미지를 포함하는 거대한 데이터 세트입니다. 이 얼굴 데이터 세트는 제한되지 않은 얼굴 감지를 더 쉽게 연구할 수 있도록 설계되었습니다.
-
CASIA 웹페이스
CASIA Web face는 기계 학습 및 제약 없는 얼굴 인식에 대한 과학적 연구를 지원하는 잘 설계된 데이터 세트입니다. 거의 494,000개의 실제 ID에 대한 10,000개 이상의 이미지가 포함되어 있어 얼굴 식별 및 확인 작업에 이상적입니다.
-
UMD Faces 데이터세트
UMD는 스틸 이미지와 비디오 프레임의 두 부분을 포함하는 주석이 잘 달린 데이터세트에 직면해 있습니다. 데이터 세트에는 367,800개 이상의 얼굴 주석과 3.7만 개의 주석이 달린 주제 비디오 프레임이 있습니다.
-
안면 마스크 감지
이 데이터 세트에는 "마스크 착용", "마스크 미착용", "마스크를 잘못 착용한 경우"의 세 가지 클래스로 분류된 853개 이미지와 PASCAL VOC 형식의 경계 상자가 포함되어 있습니다.
-
페렛
FERET(얼굴 인식 기술 데이터베이스)는 14,000개 이상의 주석이 달린 인간 얼굴 이미지를 포함하는 포괄적인 이미지 데이터 세트입니다.
필기 인식:
-
MNIST 데이터베이스
MNIST는 0에서 9까지의 손으로 쓴 숫자 샘플을 포함하는 데이터베이스이며 60,000 및 10,000 훈련 및 테스트 이미지가 있습니다. 1999년에 출시된 MNIST를 사용하면 딥 러닝에서 이미지 처리 시스템을 더 쉽게 테스트할 수 있습니다.
-
인공 문자 데이터 세트
인공 문자 데이터 세트는 이름에서 알 수 있듯이 영어 구조를 대문자 6000개로 설명하는 인공적으로 생성된 데이터입니다. 그것은 XNUMX 개 이상의 이미지와 함께 제공됩니다.
물체 감지 :
MS 코코
MS COCO 또는 Common Objects in Context는 개체 감지 및 캡션 데이터 세트입니다.
키포인트 감지, 다중 객체 감지, 캡션 및 분할 마스크 주석이 포함된 328,000개 이상의 이미지가 있습니다. 이미지당 80개의 개체 범주와 XNUMX개의 캡션이 제공됩니다.
엘순
LSUN(Large-scale Scene Understanding)은 20개 개체와 10개 장면 범주에서 300,000만 개 이상의 레이블이 지정된 이미지를 보유하고 있습니다. 일부 카테고리에는 300개에 가까운 이미지가 있으며 특히 1000개의 검증용 이미지와 XNUMX개의 테스트 데이터용 이미지가 있습니다.
홈 개체
Home Objects 데이터셋에는 부엌, 거실, 욕실과 같은 집 주변의 임의의 개체에 대한 주석이 달린 이미지가 포함되어 있습니다. 이 데이터 세트에는 테스트용으로 설계된 주석이 달린 비디오와 주석이 없는 사진 398장도 있습니다.
비주얼 게놈
Visual Genome은 108,000개 이상의 캡션이 포함된 이미지를 포함하는 포괄적인 시각 지식 베이스입니다. 객체, 속성 및 관계에 대한 광범위한 주석을 제공하여 객체 인식, 이미지 캡션 및 다중 모드 학습 과제에 유용합니다.
자동차 :
도시 풍경 데이터 세트
Cityscape는 여러 도시의 거리 장면에서 녹화된 다양한 비디오 시퀀스를 찾을 때 이동하는 데이터 세트입니다. 이 이미지는 오랜 시간에 걸쳐 다양한 날씨와 조명 조건에서 캡처되었습니다. 주석은 30개의 다른 범주로 나누어진 XNUMX개의 이미지 클래스에 대한 것입니다.
바클리 딥 드라이브
Barkley DeepDrive는 자율 차량 훈련을 위해 특별히 설계되었으며 100개 이상의 주석이 달린 비디오 시퀀스가 있습니다. 변화하는 도로 및 주행 조건에 따른 자율주행차 훈련 데이터 중 가장 도움이 되는 데이터 중 하나입니다.
메이필러리
Mapillary는 전 세계적으로 750억 XNUMX천만 개 이상의 거리 장면과 교통 표지판을 보유하고 있으며 이는 머신 러닝 및 AI 알고리즘에서 시각적 인식 모델을 훈련하는 데 매우 유용합니다. 이를 통해 다양한 조명, 기상 조건 및 관점에 맞는 자율 주행 차량을 개발할 수 있습니다.
의료 영상:
Covid-19 공개 연구 데이터 세트
이 원본 데이터 세트에는 AP/PA 흉부 x-선에 대한 약 6500개의 픽셀 다각형 폐 분할이 있습니다. 또한 이름, 위치, 입원 세부 정보, 결과 등이 포함된 태그가 포함된 517개의 Covid-19 환자 엑스레이 이미지를 사용할 수 있습니다.
NIH 100,000 흉부 X-선 데이터베이스
NIH 데이터베이스는 과학 및 연구 커뮤니티에 유용한 100,000개의 흉부 엑스레이 이미지와 관련 데이터를 포함하는 가장 광범위한 공개 데이터 세트 중 하나입니다. 폐 질환이 진행된 환자의 이미지도 있습니다.
디지털 병리학 아틀라스
Atlas of Digital Pathology는 여러 장기의 주석이 달린 슬라이드 17,000개 가까이에서 총 100개 이상의 여러 조직병리학적 패치 이미지를 제공합니다. 이 데이터 세트는 컴퓨터 비전 및 패턴 인식 소프트웨어를 개발하는 데 유용합니다.
장면 인식:

실내 장면 인식
실내 장면 인식은 기계 학습 및 데이터 교육에 사용되는 거의 15620개의 물체 및 실내 풍경 이미지가 포함된 고도로 분류된 데이터세트입니다. 65개 이상의 카테고리가 제공되며 각 카테고리에는 최소 100개의 이미지가 있습니다.
엑스뷰
공개적으로 사용 가능한 가장 잘 알려진 데이터 세트 중 하나인 xView에는 다양한 복잡하고 큰 장면에서 주석이 달린 수많은 오버헤드 이미지가 포함되어 있습니다. 약 60개의 클래스와 백만 개 이상의 개체 인스턴스가 있는 이 데이터 세트의 목적은 위성 이미지를 사용하여 더 나은 재해 구호를 제공하는 것입니다.
장소
MIT에서 제공한 데이터 세트인 Places에는 1.8개의 서로 다른 장면 범주에서 365만 개 이상의 이미지가 있습니다. 각 범주에는 유효성 검사를 위한 약 50개의 이미지와 테스트를 위한 900개의 이미지가 있습니다. 장면 인식 또는 시각적 인식 작업을 설정하기 위해 깊은 장면 기능을 학습하는 것이 가능합니다.
SUN 데이터베이스
SUN 데이터베이스는 컴퓨터 비전 분야에서 널리 사용되는 포괄적인 장면 분류 벤치마크입니다. 다양한 실내외 환경에 걸쳐 수천 개의 이미지가 포함되어 있으며, 각 장면에 대한 상세한 주석이 포함되어 있습니다. SUN 데이터베이스는 다양한 장면을 포괄하는 것으로 인정받고 있으며, 장면 이해 알고리즘을 평가하는 표준 참조 자료로 사용됩니다.
엔터테인먼트 :
IMDB 위키 데이터세트
IMDB – Wiki는 나이, 성별 및 이름이 적절히 표시된 얼굴의 가장 인기 있는 공개 데이터베이스 중 하나입니다. 그것은 또한 약 20명의 유명인의 얼굴과 Wikipedia에서 62명의 얼굴을 가지고 있습니다.
연예인 얼굴
Celeb Faces는 200,000개의 주석이 달린 유명인 이미지가 있는 대규모 데이터베이스입니다. 이미지에는 배경 노이즈와 다양한 포즈가 포함되어 있어 컴퓨터 비전 작업에서 테스트 세트를 훈련하는 데 유용합니다. 얼굴 인식, 편집, 얼굴 부분 위치 파악 등의 정확도를 높이는 데 매우 유용합니다.
YouTube-8M 데이터 세트
YouTube-8M은 수백만 개의 YouTube 동영상 ID와 고품질의 기계 생성 시각적 개체 주석을 포함하는 대규모 레이블 지정 비디오 데이터세트입니다. 이 데이터세트는 YouTube 동영상 ID를 통해 동영상 콘텐츠를 메타데이터에 연결하여 확장 가능한 비디오 데이터 수집 및 주석 처리를 가능하게 하므로, 대규모 동영상 이해 및 비전 알고리즘 학습에 널리 사용됩니다.
이제 인공지능 시스템을 구동할 수 있는 방대한 오픈소스 이미지 데이터세트 목록을 확보했습니다. AI 및 머신러닝 모델의 결과는 주로 입력 및 학습에 사용되는 데이터세트의 품질에 달려 있습니다. AI 모델이 정확한 예측을 내리려면 완벽하게 집계, 태그 지정 및 레이블링된 고품질 데이터세트가 필요합니다. 이러한 데이터세트를 활용하는 것은 실제 프로젝트를 통해 머신러닝 기술을 개발하고 향상시키는 훌륭한 방법입니다. 컴퓨터 비전 시스템의 성과를 극대화하려면 프로젝트 비전과 관련된 고품질 이미지 데이터베이스를 사용해야 합니다.


