정의
합성 데이터는 실제 데이터를 모방하여 인공적으로 생성된 정보입니다. 시뮬레이션, GAN 또는 기타 생성 기법을 사용하여 생성할 수 있습니다.
목적
그 목적은 수집하기 어렵거나, 민감하거나, 비용이 많이 드는 실제 데이터를 증강하거나 대체하는 것입니다.
중요성
- 개인 데이터에 대한 의존도를 줄여 개인 정보를 보호합니다.
- 드물거나 극단적인 사례에 대한 교육을 가능하게 합니다.
- 실제 데이터의 전체적인 복잡성이 부족할 수 있습니다.
- 안전이 중요한 AI에 점점 더 많이 사용되고 있습니다.
작동 원리
- 복제할 데이터 특성을 정의합니다.
- 시뮬레이션이나 생성 모델을 사용하여 데이터를 생성합니다.
- 실제 분포에 맞춰 합성 데이터를 검증합니다.
- 훈련 파이프라인에서 합성 데이터를 사용합니다.
- 현실주의의 차이를 모니터링하세요.
예시(실제 세계)
- Waymo: 자율주행 훈련을 위해 합성 주행 장면을 사용합니다.
- NVIDIA Omniverse: 로봇공학을 위한 합성 3D 데이터를 생성합니다.
- 의료: 연구를 위한 합성 환자 데이터.
참고문헌 / 추가 자료
- NIST 합성 데이터에 대한 특별 간행물.
- Goncalves 외. "합성 데이터의 생성 및 평가." ACM 컴퓨팅 설문조사.
- 합성 데이터 볼트(MIT).
- AI에서 합성 데이터란 무엇인가