정의
기성형 데이터 세트는 AI 모델을 훈련하거나 평가하는 데 직접 사용할 수 있는 미리 수집되어 공개적으로 또는 상업적으로 이용 가능한 데이터 세트입니다.
목적
목적은 값비싼 수집 없이도 쉽게 이용할 수 있는 데이터를 제공하여 연구 개발을 가속화하는 것입니다.
중요성
- AI 팀의 시간과 리소스를 절약합니다.
- 재현성과 벤치마킹이 가능합니다.
- 특정 작업에 대한 도메인 특이성이 부족할 수 있습니다.
- 편견과 라이센스 제약 사항을 확인해야 합니다.
작동 원리
- AI 작업과 관련된 데이터 세트를 식별합니다.
- 라이센스 및 사용 제한 사항을 검토하세요.
- 데이터 세트를 다운로드하거나 구매하세요.
- 호환성을 위해 필요에 따라 사전 처리합니다.
- 데이터 세트를 사용하여 모델을 훈련하거나 평가합니다.
예시(실제 세계)
- MNIST: 벤치마킹을 위한 손으로 쓴 숫자 데이터 세트.
- ImageNet: 컴퓨터 비전을 위한 대규모 데이터 세트.
- Common Crawl: NLP를 위한 오픈 웹 텍스트 데이터 세트.