기성품 얼굴 이미지 및 비디오 데이터 라이선싱
AI 모델 학습을 위한 기성품 얼굴 인식 데이터 세트
윤리적으로 수집되고 인구 통계적으로 다양한 데이터 세트를 활용하여 AI 모델 훈련을 가속화하고 선도적인 글로벌 기술 대기업의 편견을 줄입니다.
사업 개요
클라이언트는 가속화를 추구했습니다. AI 기반 얼굴 인식 개발 길고 비용이 많이 드는 데이터 수집 주기를 거치지 않고도 가능합니다. 이를 달성하려면 바로 사용 가능한 데이터 세트 그것뿐만이 아니었다 크고 다양한뿐만 아니라, 윤리적으로 조달되었으며 글로벌 데이터 개인 정보 보호 규정을 준수합니다..
샤이프는 조명, 머리 자세, 오클루전, 감정의 변화를 제어한 포괄적인 데이터 세트를 제공하여 고객 모델이 요구되는 인종 및 인구통계학적 기준을 충족하는 동시에 정확성과 공정성을 모두 달성할 수 있도록 지원했습니다. 각 데이터 세트에는 감정 인식을 위한 상세한 메타데이터, 자세 주석, 경계 상자가 포함되어 있어 매우 다양한 실제 상황에서 모델을 학습하고 테스트할 수 있었습니다.
주요 통계
7,000개 이상의 주제
300,000만 장 이상의 이미지와 2,000개의 동영상이 포함된 과거 데이터 세트입니다.
10,000개 이상의 주제
다각도 감정 데이터 세트에서.
74,880 이미지
조명
변형 데이터 세트.
18,600 이미지
6개를 덮다
핵심 감정.
프로젝트 범위
클라이언트가 요구한 대규모, 윤리적으로 공급되고 인구통계적으로 다양한 얼굴 이미지 및 비디오 데이터 세트 얼굴 인식 모델의 개발 및 교육을 지원합니다. 이러한 데이터 세트는 사용 사례를 강화하는 데 필수적이었습니다. 스푸핑 방지, 신원 확인, 이미지 매칭 및 표현 분석 시스템실제 애플리케이션에서 견고하고 편견 없는 AI 성능을 보장합니다.
참여 범위는 다음과 같습니다.
- 전달 큐레이트된 데이터 세트 스푸핑 방지, 신원 확인, 표정 인식 등 얼굴 인식 사용 사례를 충족하도록 설계되었습니다.
- 제공 자세한 주석이 있는 이미지와 비디오 인구 통계, 머리 자세, 폐색, 조명 유형 및 감정에 대해 설명합니다.
- 보장 균형 잡힌 인구 통계적 범위 훈련에 있어서 체계적인 편견을 줄이기 위해.
- 보증 준수 및 동의 글로벌 데이터 보호 및 개인정보 보호 표준을 준수합니다.
샘플 데이터 세트 기여:
- 과거 데이터세트 (~7,000명의 피사체): 포즈와 교합 변형이 있는 300,000개 이상의 이미지와 2,000개의 비디오.
- 다각도 감정 데이터 세트 (~10,000명의 피사체): 각도와 감정 상태에 따라 피사체당 15~20개의 이미지.
- 6가지 감정 데이터 세트 (~3,100명의 대상): 핵심적인 인간 표정을 담은 주석이 달린 이미지 18,600장.
- 조명 변화 데이터 세트 (~468명의 피사체): 9가지 조명 조건에서 74,880개의 이미지.
도전
이 프로젝트는 견고한 AI 모델을 구축하는 데 공통적으로 나타나는 주요 과제를 다루었습니다.
AI 모델의 편향
공정성을 보장하기 위해 특정 민족이나 성별의 과도한 대표를 방지합니다.
실제 세계의 변동성
조명 조건, 얼굴 각도, 교합, 자연스러운 표정을 포착합니다.
규모와 품질
다양성을 저해하지 않고 수십만 개의 고해상도 이미지를 제공합니다.
규제 준수
참가자의 완전한 동의를 바탕으로 엄격한 글로벌 개인정보 보호 및 데이터 보호 요건을 충족합니다.
해법
Shaip는 다음을 구현했습니다. 구조화된 접근 데이터 세트의 품질과 관련성을 보장하려면:
- 큐레이팅된 균형 잡힌 데이터 세트 폭넓은 인종, 성별, 연령대를 대표합니다.
- 캡처 다양한 각도의 포즈와 조명 변형 실제 상황을 재현하기 위해.
- 추가 자세한 주석 (예: 머리 자세, 폐색, 감정)을 사용하여 데이터 세트의 유용성을 높입니다.
- 엄격한 설립 품질 관리 및 규정 준수 워크플로 윤리적 조달과 개인정보 보호 준수를 보장합니다.
데이터셋 포트폴리오
| 데이터 세트 | 음량 | 인구 통계 / 다양성 | 표준/사양 |
|---|---|---|---|
| 역사적 얼굴 이미지 및 비디오 데이터 세트(약 7,000명의 피험자) | 7,000개의 등록 이미지, 300,000개 이상의 과거 이미지, 2,000개의 비디오(1,000명의 피사체당 실내 1개 + 실외 1개) | 인종: 흑인(35%), 동아시아인(42%), 남아시아인(13%), 백인(10%); 성별: 남성 50% / 여성 50%; 연령: 성인 18세 이상(지난 10년) | 영상 길이: 1~2분; 머리 자세 변화(P1~P7); 5가지 폐쇄 유형(O0~O4) |
| 얼굴 이미지 데이터 세트(약 5,000명의 피험자) | 주제당 35개 이미지; 인도인 2,500명; 아시아인 1,000명; 흑인 1,500명 | 연령: 18~60세; 성별 균형 분포 | 미화 없음; 다양한 배경 및 의상; 최소 해상도: 960×1280 |
| 다각도 감정 데이터 세트(~10,000명 대상 - 중국인) | 피사체당 15~20개 이미지; 포즈: 정면, 좌측, 우측(30°~60°); 표정: 미소, 입 벌림, 슬픔, 진지함, 중립 | 민족: 중국인; 연령: 18~26세; 성별: 50/50 비율 | 해상도 : 2160×3840픽셀 이상 |
| 6가지 인간 감정 데이터 세트(약 3,100명 대상) | 피사체당 6개 이미지(다양한 표정), 총 18,600개 이미지 | 민족: 일본(9,000명), 한국인(2,400명), 중국인(2,400명), 동남아시아인(2,400명), 남아시아인(2,400명); 연령: 20~65세 | 감정에 대한 경계 상자 주석; 일반 배경; 모자, 안경 또는 장애물 없음 |
| 조명 변화 데이터 세트(~468명의 인도인) | 주제당 160개 이미지, 총 74,880개 이미지 | 연령: 20~70세; 70% 남성 | 9가지 조명 조건(실내, 실외, 측면광, 역광, 네온 등) |
| 다인종 얼굴 이미지 데이터 세트(약 600명) | 총 3,752개 이미지 | 민족: 아프리카계, 중동계, 아메리카 원주민, 남아시아계, 동남아시아계; 연령: 20~70세 | - |
결과
이 협업은 상당한 비즈니스 및 기술적인 영향을 미쳤습니다.
- 향상된 모델 정확도: 다양한 사용 사례에 걸쳐 얼굴 인식 모델의 정확도와 재현율이 향상되었습니다.
- 편견 감소: 균형 잡힌 인구 통계적 표현으로 AI 출력의 체계적 편향이 감소했습니다.
- 가속화된 개발 일정: 기성 데이터 세트를 사용하면 장시간의 데이터 수집 없이도 빠른 프로토타입 제작과 모델 학습이 가능합니다.
- 규제 준수: 모든 데이터 세트는 글로벌 개인정보 보호 표준을 준수했으며 참가자의 동의를 포함했습니다.
Shaip의 다양하고 윤리적으로 확보된 데이터 세트는 우리에게 필요한 속도, 품질, 그리고 규정 준수를 보장해 주었습니다. 즉시 사용 가능한 데이터를 통해 AI 모델 학습 속도를 높이고 체계적인 편향을 크게 줄일 수 있었습니다.