정의
AI 데이터 수집은 머신러닝 모델을 학습, 검증 및 테스트하는 데 사용되는 원시 데이터(텍스트, 오디오, 이미지, 비디오 또는 구조화된 레코드)를 수집하는 과정입니다. 이를 통해 모델이 실제 문제를 대표하는 사례를 포함하도록 보장합니다.
목적
목표는 알고리즘이 패턴을 효과적으로 학습할 수 있도록 데이터셋을 구축하는 것입니다. 신뢰할 수 있는 데이터 수집은 편향을 줄이고 다양한 환경과 모집단에서 모델 정확도를 향상시킵니다.
중요성
- 수집된 데이터의 품질은 모델 결과에 직접적인 영향을 미칩니다.
- 수집이 제대로 이루어지지 않으면 편향된 모델이나 사용할 수 없는 모델이 나올 수 있습니다.
- 다양한 출처를 활용하면 일반화가 향상되고 불공정성이 줄어듭니다.
- 윤리적, 법적 기준을 따라야 합니다(예: GDPR, HIPAA).
작동 원리
- 프로젝트 목표에 따라 필요한 데이터 유형을 정의합니다.
- 소스(센서, API, 설문 조사, 녹음 등)를 식별합니다.
- 적절한 동의와 개인정보 보호 조치를 통해 데이터를 수집합니다.
- 추적 가능성과 맥락을 위해 메타데이터와 함께 데이터를 저장합니다.
- 나중에 주석을 달거나 정리하거나 훈련할 수 있도록 데이터를 준비합니다.
예시(실제 세계)
- ImageNet: 컴퓨터 비전 연구를 위한 대규모 이미지 데이터 세트.
- Google 스트리트 뷰: 지도와 시각적 AI를 위해 수집된 데이터입니다.
- Mozilla Common Voice: ASR을 위한 음성 녹음의 오픈 데이터 세트.
참고문헌 / 추가 자료
- 데이터세트를 위한 데이터시트 — Gebru et al., ACM FAccT.
- AI 시스템을 위한 데이터 준비 — NIST.
- ISO/IEC TR 20547-5: 빅데이터 참조 아키텍처 — ISO.