연령 진행 다양성을 고려한 비 EU/영국 얼굴 이미지 데이터 세트 구축
1,205명의 참가자를 대상으로 시간별로 분리된 얼굴 이미지 코퍼스를 구축하여 컴퓨터 비전 모델의 공정성과 견고성을 강화했습니다.
사업 개요
안전, 개인화, 신원 경험을 위한 얼굴 중심 AI를 구축하는 글로벌 기술 회사가 편향을 줄이고 연령, 환경, 액세서리에 따른 모델 회복력을 개선하기 위해 시간 구분 사진이 포함된 비EU/영국 데이터 세트를 찾고 있었습니다.
클라이언트는 Shaip와 협력하여 수집, 큐레이션 및 검증 각 참가자가 최근 사진과 이전 사진을 제공하는 대규모 얼굴 이미지 코퍼스입니다. 이 코퍼스의 목표는 EU/영국 외 지역 출신자를 엄격하게 제한하고, 성별/연령 할당량의 균형을 맞추는 동시에 자연스러운 연령 변화를 인코딩하는 것이었습니다.
주요 통계
참가자
1,205(EU/영국 제외, 성별 50/50 ±10–15%)
연령대 구성
40%(10~29), 40%(30~49), 20%(50+) ±10~15% 허용오차
적용 범위
남/동남아시아, 북아프리카 및 북/동아프리카, 싱가포르, 남미
연혁
19 주
도전
지리적 제한
여행 출신 EU/영국 이미지를 피하면서 비 EU/영국 인구에서만 제품을 공급합니다.
규모에 따른 균형 잡힌 할당량
엄격한 성별 및 연령 제한을 통해 1,205명의 참가자를 확보했습니다.
시간 분리된 증거
모든 신분증에 연령대에 맞는 최근 사진과 과거 사진을 모두 첨부합니다.
운영 품질
처리량을 저하시키지 않고 최소 이미지/얼굴 크기, 다양성 및 복제 한도를 적용합니다.
해법
1. 국가 패널 및 출처 제어
우리는 설립했다 국가 수준 소싱 포드 대상 지역 및 훈련된 파트너에 대해 출처 규칙 (EU/영국 제외). 사진은 여행 출처 위험에 대해 다음을 사용하여 검토되었습니다. 메타데이터 큐(연도, 위치 표시기) 제출자 증명을 통해 QC 전 EU/영국 유출을 줄였습니다. 이는 다운스트림 처리량을 보호하기 위해 사전 위험 점검을 실시하는 Shaip의 검증된 관행을 반영합니다.
2. 연령 진행 캡처 디자인
"20개의 이미지를 요청하는 것"보다는 우리는 2트랙 제출 흐름 참가자들에게 다음을 안내했습니다.
- 트랙 A(최근): 지난 2년간의 사진;
- 트랙 B(역사적): 제출 당시 참가자의 연령대에 맞춰 정렬된 이전 사진(예: 2~10/15/20세 창).
포털은 지나치게 구체적인 설명 없이도 다양성을 높이기 위해 사용자에게 실내/실외, 각도, 액세서리 등의 예시를 제시했습니다.
3. 다양성 조율 및 할당량 가드레일
A 실시간 할당량 대시보드 모니터링된 등록 성별, 연령대 및 지리계층이 계획된 한계에 도달하면 섭취를 일시 중단합니다. 이는 후반 주기 재작업을 방지하고 Shaip의 표준 접근 방식을 반영합니다. 계층화된 등록 + 잠금 균형 잡힌 표현을 유지하기 위해 이전 생체 인식 데이터 세트에 사용되었습니다.
4. 품질 파이프라인(인간 참여 루프 + 자동 사전 점검)
- 자동 게이트: 얼굴 감지 + 최소 크기 임계값, 기본적인 흐림/노이즈 검사, 그리고 잠재적 중복을 조기에 표시하기 위한 당일 클러스터링.
- 인간 QA 계층: 이미지 레벨 검토자 검증됨 주제 독점권 (주요 참가자만 해당), 장면/각도의 다양성글렌데일 미화 필터 없음; CQA 감사원은 승인 전에 배치를 무작위로 검사했습니다. 다층 QA 샤이프가 공개한 생체 인식 데이터 프로그램을 반영합니다.
5. 준수 및 동의
등록 ≥20 년 서명된 동의가 있어야 함; 20건 미만은 보호자 동의가 있어야만 접수됨. 메타데이터에 동의 여부를 기록하고 검토자 체크리스트를 정렬하여 자격 + 동의 감사 가능성을 보장하는 필드입니다.
6. 메타데이터 및 추적성
우리는 배달했다 참여자 및 이미지 수준 메타데이터 (ID 연결, 인구 통계, 국적/거주지, 사진 연도, 제출 날짜 등) 및 표준화된 필드 이름을 사용하여 단순화 하류 라벨링 및 평가. 이는 Shaip의 모범 사례를 따릅니다. 풍부한 메타데이터 태깅 생체 인식 데이터 세트의 경우
7. 위험 감소를 위한 단계적 전달
An 8개 배치 계획 로 시작 10명의 참가자 교정 배치 1 이후 고객 피드백을 바탕으로 기준을 조정하고, 이후 예측 가능한 단계적으로 볼륨을 늘려 1,205 참가자 약 19주 후.
프로젝트 범위
| 외형 치수 | 우리가 전달한 것 |
|---|---|
| 인구 | 성별과 연령대가 균형 잡힌 비EU/영국 참가자 1,205명. |
| 내용 | 참가자당 ≥20개 이미지: 연령 변화를 인코딩하기 위한 최근 + 과거 이미지; 다양한 장면, 각도 및 액세서리. |
| 품질 운영 | 자동화된 사전 점검 + 인간에 의한 다중 계층 QA(중복 제어, 주제 독점성, 필터 거부). |
| 규정 준수 | EU/영국 외 출처 검증, 동의 관리 및 적격성 검증. |
| 메타 데이터 | 추적성 및 다운스트림 ML 평가를 위한 참가자 + 이미지 속성. |
| 배송 | 8단계 배치로 시작하여 교정을 거쳐 최종 목표에 도달할 때까지 정상 상태 납품을 진행합니다. |
결과
- 균형 잡힌 감사 준비 코퍼스: 허용 범위 내에서 인구 통계적 할당량을 충족했으며, 규정을 준수하는 교육을 위해 모든 이미지에 EU/영국 외 출처를 적용했습니다.
- 모델 준비 가변성: 시간적으로 분리된 이미지, 다양한 환경/각도, 액세서리 적용 범위는 견고성 테스트와 편향 분석을 지원합니다.
- 운영 예측 가능성: 교정을 먼저 도입하고 할당량 가드레일을 적용하여 재작업을 줄이고 참가자 목표인 1,205명까지 일정을 안전하게 보장했습니다.
- 하류 효율성: 풍부한 메타데이터와 일관된 파일 위생 덕분에 Shaip의 생체 인식 데이터 세트 플레이북을 따라 주석과 벤치마크 구축 경로가 단축되었습니다.
Shaip은 복잡한 비EU/영국 얼굴 데이터세트 브리핑을 균형 잡히고 감사에 즉시 활용할 수 있는 코퍼스로 전환했습니다. Shaip의 연령 진행 설계와 단계별 QA 덕분에 저희 이력서 팀은 일정 위험 없이 신뢰할 수 있는 정확하고 다양한 데이터를 확보할 수 있었습니다.