AI 개발 장애 극복의 열쇠

더 신뢰할 수 있는 데이터

개요

인공 지능은 1939년 "오즈의 마법사"의 양철 남자가 은막을 찍을 때 상상을 사로잡기 시작했으며 그 이후로 시대정신에서 더 확고한 발판을 마련했습니다. 그러나 응용 프로그램에서 AI 제품은 지금까지 가장 영향력 있는 채택을 방해한 규칙적인 호황과 불황을 거쳤습니다.

호황기 동안 엔지니어와 연구원들은 엄청난 발전을 이루었지만 그들의 열망이 불가피하게 당시의 컴퓨팅 능력을 능가하게 되자 휴면기가 뒤따랐습니다. 다행스럽게도 1965년 무어의 법칙에 의해 예언된 컴퓨팅 파워의 기하급수적인 증가는 대부분 정확한 것으로 입증되었으며 이 증가의 중요성은 과장하기 어렵습니다.

AI 개발 장애물
eBook 읽기: AI 개발 장애를 극복하는 열쇠 또는 eBook의 PDF 버전을 다운로드하십시오.

AI 개발 장애 극복의 열쇠: 더 신뢰할 수 있는 데이터

오늘날 평범한 사람은 1969년 NASA가 달 착륙을 수행한 것보다 수백만 배 더 많은 컴퓨팅 성능을 주머니에 가지고 있습니다. 풍부한 컴퓨팅 성능을 편리하게 보여주는 바로 그 유비쿼터스 장치는 AI의 황금기를 위한 또 다른 전제 조건도 충족하고 있습니다. 풍부한 데이터. Information Overload Research Group의 통찰력에 따르면 전 세계 데이터의 90%가 지난 XNUMX년 동안 생성되었습니다. 컴퓨팅 성능의 기하급수적인 성장이 마침내 데이터 생성의 폭발적인 성장으로 수렴됨에 따라 AI 데이터 혁신이 폭발적으로 증가하고 있어 일부 전문가들은 XNUMX차 산업 혁명을 촉발할 것이라고 생각합니다.

미국 벤처 캐피털 협회(National Venture Capital Association)의 데이터에 따르면 AI 부문은 6.9년 2020분기에 기록적인 XNUMX억 달러의 투자를 기록했습니다. 이미 우리 주변에서 활용되고 있기 때문에 AI 도구의 잠재력을 보는 것은 어렵지 않습니다. AI 제품의 더 가시적인 사용 사례 중 일부는 Spotify 및 Netflix와 같이 우리가 즐겨 사용하는 애플리케이션의 추천 엔진입니다. 들을 수 있는 새로운 아티스트를 발견하거나 폭주할 수 있는 새로운 TV 프로그램을 발견하는 것은 재미있지만 이러한 구현은 다소 위험합니다. 다른 알고리즘은 시험 점수를 매기고(부분적으로는 학생들이 대학에 입학할 수 있는 곳을 결정합니다), 또 다른 알고리즘은 후보자 이력서를 살펴보고 어떤 지원자가 특정 직업을 가질지 결정합니다. 일부 AI 도구는 유방암을 선별하는 AI 모델(의사를 능가함)과 같이 삶과 죽음에 영향을 미칠 수도 있습니다.

AI 개발의 실제 사례와 차세대 혁신 도구를 만들기 위해 경쟁하는 스타트업의 수가 꾸준히 증가하고 있음에도 불구하고 효과적인 개발 및 구현에 대한 과제는 여전히 남아 있습니다. 특히 AI 출력은 입력이 허용하는 만큼만 정확하므로 품질이 가장 중요합니다.

AI 개발 장애물

AI 솔루션의 일관성 없는 데이터 품질 문제

Social Media Today에 따르면 실제로 매일 생성되는 엄청난 양의 데이터가 있습니다. 2.5퀸틸리언 바이트입니다. 그러나 이것이 알고리즘을 훈련할 가치가 있다는 것을 의미하지는 않습니다. 일부 데이터는 불완전하고 일부는 품질이 낮고 일부는 정확하지 않습니다. 따라서 이 잘못된 정보를 사용하면 (값비싼) AI 데이터 혁신에서 동일한 특성을 얻게 됩니다. Gartner의 연구에 따르면 85년까지 생성되는 AI 프로젝트의 약 2022%가 편향되거나 부정확한 데이터로 인해 부정확한 결과를 생성할 것입니다. 자신의 취향에 맞지 않는 추천 노래를 쉽게 건너뛸 수 있지만 다른 부정확한 알고리즘은 상당한 재정 및 평판 비용을 초래합니다.

2018년에 Amazon은 2014년부터 생산 중인 AI 기반 고용 도구를 사용하기 시작했습니다. 이 도구는 여성에 대한 강력하고 명백한 편견이 있었습니다. 도구를 뒷받침하는 컴퓨터 모델은 XNUMX년 동안 회사에 제출된 이력서를 사용하여 훈련된 것으로 나타났습니다. 대부분의 기술 지원자들이 남성이었기 때문에(그리고 여전히 이 기술 덕분에) 알고리즘은 예를 들어 여성 축구 주장이나 여성 비즈니스 그룹과 같은 모든 곳에 "여성"이 포함된 이력서에 불이익을 주기로 결정했습니다. 여대 XNUMX명의 지원자에 대해서도 처벌하기로 했다. Amazon은 이 도구가 잠재적인 후보자를 평가하는 유일한 기준으로 사용된 적이 없다고 주장하지만 채용 담당자는 신입 사원을 찾을 때 추천 엔진을 살펴보았습니다.

Amazon 고용 도구는 수년간의 작업 끝에 결국 폐기되었지만 알고리즘 및 AI 도구를 교육할 때 데이터 품질의 중요성을 강조하는 교훈은 남아 있습니다. "고품질" 데이터는 어떤 모습입니까? 간단히 말해서 다음 다섯 가지 상자를 확인합니다.

1. 관련

고품질로 간주되기 위해서는 데이터가 의사 결정 프로세스에 가치 있는 것을 가져와야 합니다. 국가 챔피언 장대높이뛰기 선수로서의 구직자의 지위와 직장에서의 성과 사이에 상관관계가 있습니까? 가능성은 있지만 가능성은 매우 낮아 보입니다. 관련이 없는 데이터를 제거함으로써 알고리즘은 결과에 실제로 영향을 미치는 정보를 정렬하는 데 집중할 수 있습니다.

2. 정확한

사용 중인 데이터는 테스트 중인 아이디어를 정확하게 나타내야 합니다. 그렇지 않다면 가치가 없습니다. 예를 들어, Amazon은 10년 간의 지원자 이력서를 사용하여 채용 알고리즘을 교육했지만 회사가 해당 이력서에 제공된 정보를 먼저 확인했는지 여부는 불분명합니다. 참조 확인 회사인 Checkster의 연구에 따르면 지원자의 78%가 입사 지원서에 거짓말을 하거나 거짓말을 고려할 것이라고 합니다. 예를 들어 알고리즘이 후보자의 GPA를 사용하여 추천 결정을 내리는 경우 먼저 해당 숫자의 진위를 확인하는 것이 좋습니다. 이 프로세스에는 시간과 비용이 소요되지만 결과의 정확성도 의심할 여지 없이 향상될 것입니다.

3. 적절하게 구성되고 주석 처리됨

이력서에 기반한 채용 모델의 경우 주석 처리가 비교적 쉽습니다. 어떤 의미에서는 이력서에 미리 주석이 달려 있지만 예외는 없습니다. 대부분의 지원자는 "경력" 제목 아래에 직업 경험을 나열하고 "기술" 아래에 관련 기술을 나열합니다. 그러나 암 검진과 같은 다른 상황에서는 데이터가 훨씬 더 다양할 것입니다. 정보는 의료 영상, 신체 검사 결과 또는 가족 건강 기록 및 암 사례에 대한 의사와 환자 간의 대화 형태로 제공될 수 있습니다. 이 정보가 정확한 탐지 알고리즘에 기여하려면 AI 모델이 올바른 추론을 기반으로 정확한 예측을 학습하도록 하기 위해 신중하게 구성하고 주석을 달아야 합니다.

4. 최신

아마존은 훨씬 더 짧은 시간에 인간이 내리는 동일한 고용 결정을 재현함으로써 시간과 비용을 절약할 수 있는 도구를 만들려고 했습니다. 권장 사항을 가능한 한 정확하게 하려면 데이터를 최신 상태로 유지해야 합니다. 예를 들어 한 회사가 타자기 수리 능력이 있는 후보자를 선호한다는 것을 입증했다면 이러한 역사적 고용은 아마도 어떤 종류의 역할에 대한 현재 구직자의 적합성에 그다지 영향을 미치지 않았을 것입니다. 따라서 제거하는 것이 현명할 것입니다.

5. 적절하게 다양하다

Amazon 엔지니어는 압도적으로 남성인 지원자 풀로 알고리즘을 훈련하기로 결정했습니다. 이 결정은 중대한 실수였으며, 당시 회사에서 사용할 수 있었던 이력서였다는 사실로 인해 그보다 더 심각한 오류가 발생했습니다. Amazon 엔지니어는 유사한 기능을 가진 존경받는 조직과 파트너 관계를 맺을 수 있었습니다. 부족함을 메우기 위해 더 많은 여성 구직자를 채용한 가용 직위, 또는 남성의 이력서 수를 여성과 훈련받은 인원에 맞게 인위적으로 줄인다. 더 정확한 인구 표현으로 알고리즘을 안내했습니다. 요점은 데이터 다양성이 핵심이며, 입력의 편향을 제거하기 위한 공동의 노력이 이루어지지 않는 한 편향된 출력은 흐르다.

분명히 고품질 데이터는 갑자기 나타나는 것이 아닙니다. 대신 의도한 결과를 염두에 두고 신중하게 선별해야 합니다. AI 분야에서는 종종 "쓰레기 인이 쓰레기 아웃을 의미한다"고 말합니다. 이 말은 사실이지만 품질의 중요성을 다소 과소평가하고 있습니다. AI는 엄청난 양의 정보를 처리하고 주식 선택에서 고용 추천, 의료 진단에 이르기까지 무엇이든 변환할 수 있습니다. 이 능력은 인간의 능력을 훨씬 능가하며 결과를 확대한다는 의미이기도 합니다. 편향된 인재 채용 담당자는 너무 많은 여성만을 간과할 수 있지만 편향된 AI 채용 담당자는 모든 여성을 간과할 수 있습니다. 그런 의미에서 가비지 인은 단순히 가비지 아웃을 의미하는 것이 아닙니다. 이는 소량의 "쓰레기" 데이터가 전체 매립지로 변할 수 있음을 의미합니다.

AI 개발 장애 극복

AI 개발 노력에는 어떤 산업이건 간에 상당한 장애물이 포함되며 실현 가능한 아이디어에서 성공적인 제품으로 나아가는 과정은 험난합니다. 올바른 데이터를 획득하는 문제와 모든 관련 규정을 준수하기 위해 데이터를 익명화해야 하는 필요성 사이에서 실제로 알고리즘을 구성하고 교육하는 것이 쉬운 부분이라고 느낄 수 있습니다.

획기적인 새로운 AI 개발을 설계하는 데 필요한 모든 이점을 조직에 제공하려면 Shaip과 같은 회사와 협력하는 것이 좋습니다. Chetan Parikh와 Vatsal Ghiya는 회사가 미국에서 의료 서비스를 혁신할 수 있는 종류의 솔루션을 설계할 수 있도록 돕기 위해 Shaip을 설립했습니다. 고객이 매력적인 아이디어를 AI 솔루션으로 전환할 수 있습니다.

조직을 위해 일하는 직원, 프로세스 및 플랫폼을 통해 다음 네 가지 이점을 즉시 잠금 해제하고 프로젝트를 성공적으로 마무리할 수 있습니다.

1. 데이터 과학자를 자유롭게 할 수 있는 능력

데이터 과학자를 해방시킬 수 있는 역량
AI 개발 프로세스에 상당한 시간 투자가 필요하다는 사실을 피할 수는 없지만 팀이 수행하는 데 가장 많은 시간을 소비하는 기능을 항상 최적화할 수 있습니다. 고급 알고리즘 및 기계 학습 모델 개발의 전문가이기 때문에 데이터 과학자를 고용했지만, 연구에 따르면 이러한 작업자가 실제로 프로젝트에 도움이 될 데이터를 소싱, 정리 및 구성하는 데 시간의 80%를 소비한다는 사실이 일관되게 입증되었습니다. 데이터 과학자의 76분의 20 이상(XNUMX%)은 이러한 일상적인 데이터 수집 프로세스가 업무에서 가장 좋아하지 않는 부분이기도 하지만 실제 개발에 소요되는 시간은 XNUMX%에 불과하다고 보고했습니다. 많은 데이터 과학자들에게 가장 흥미롭고 지적으로 자극적인 작업입니다. Shaip과 같은 타사 공급업체를 통해 데이터를 소싱함으로써 회사는 값비싸고 재능 있는 데이터 엔지니어가 데이터 관리인으로 작업을 아웃소싱하도록 하는 대신 가장 가치를 창출할 수 있는 AI 솔루션 부분에 시간을 할애할 수 있습니다.

2. 더 나은 결과를 얻을 수 있는 능력

더 나은 결과를 얻을 수 있는 능력 많은 AI 개발 리더는 비용을 줄이기 위해 오픈 소스 또는 크라우드 소싱 데이터를 사용하기로 결정하지만, 이 결정은 결국 장기적으로 거의 항상 더 많은 비용을 초래합니다. 이러한 유형의 데이터는 쉽게 사용할 수 있지만 신중하게 선별된 데이터 세트의 품질에 필적할 수는 없습니다. 특히 크라우드소싱된 데이터에는 오류, 누락 및 부정확성이 만연하고 이러한 문제는 때때로 엔지니어의 주의 깊은 관찰 하에 개발 프로세스 중에 분류될 수 있지만 더 높은 수준으로 시작했다면 필요하지 않은 추가 반복이 필요합니다. - 처음부터 양질의 데이터.

오픈 소스 데이터에 의존하는 것은 자체 함정과 함께 제공되는 또 다른 일반적인 지름길입니다. 오픈 소스 데이터를 사용하여 훈련된 알고리즘은 라이선스 데이터 세트를 기반으로 구축된 알고리즘보다 쉽게 ​​복제되기 때문에 차별화의 부족은 가장 큰 문제 중 하나입니다. 이 경로를 통해 가격을 낮추고 언제든지 시장 점유율을 확보할 수 있는 공간의 다른 참가자와의 경쟁을 초대합니다. Shaip에 의존하면 숙련된 관리 인력이 수집한 최고 품질의 데이터에 액세스하게 되며 경쟁자가 어렵게 얻은 지적 재산을 쉽게 재생성하지 못하도록 방지하는 맞춤형 데이터 세트에 대한 독점 라이선스를 부여할 수 있습니다.

3. 숙련된 전문가에 대한 액세스

숙련된 전문가에 대한 액세스 사내 명단에 숙련된 엔지니어와 재능 있는 데이터 과학자가 포함되어 있더라도 AI 도구는 경험을 통해서만 얻을 수 있는 지혜를 활용할 수 있습니다. 당사의 주제 전문가는 해당 분야에서 수많은 AI 구현을 주도하고 그 과정에서 귀중한 교훈을 얻었으며, 그들의 유일한 목표는 귀하가 귀하의 목표를 달성하도록 돕는 것입니다.

도메인 전문가가 데이터를 식별, 구성, 분류 및 레이블 지정함으로써 알고리즘을 훈련하는 데 사용되는 정보가 최상의 결과를 얻을 수 있다는 것을 알고 있습니다. 또한 데이터가 최고의 표준을 충족하고 실험실뿐만 아니라 실제 상황에서도 의도한 대로 작동하는지 확인하기 위해 정기적인 품질 보증을 수행합니다.

4. 가속화된 개발 일정

AI 개발은 하루아침에 이루어지지 않지만 Shaip과 파트너 관계를 맺으면 더 빠르게 이루어질 수 있습니다. 사내 데이터 수집 및 주석은 나머지 개발 프로세스를 보류하는 심각한 운영 병목 ​​현상을 만듭니다. Shaip과 협력하면 바로 사용할 수 있는 방대한 데이터 라이브러리에 즉시 액세스할 수 있으며, 당사의 전문가는 심층적인 산업 지식과 글로벌 네트워크를 통해 필요한 모든 종류의 추가 입력을 소싱할 수 있습니다. 소싱 및 주석에 대한 부담 없이 팀은 실제 개발 작업에 즉시 착수할 수 있으며 당사의 교육 모델은 정확성 목표를 달성하는 데 필요한 반복을 줄이기 위해 초기 부정확성을 식별하는 데 도움이 될 수 있습니다.

데이터 관리의 모든 측면을 아웃소싱할 준비가 되지 않았다면 Shaip은 이미지, 비디오, 텍스트 및 오디오 지원을 포함하여 팀이 다양한 유형의 데이터를 보다 효율적으로 생성, 변경 및 주석 달 수 있도록 도와주는 클라우드 기반 플랫폼을 제공합니다. . ShaipCloud에는 워크로드를 추적하고 모니터링하기 위한 특허 솔루션, 복잡하고 어려운 오디오 녹음을 필사하는 트랜스크립션 도구, 타협하지 않는 품질을 보장하는 품질 관리 구성요소와 같은 직관적인 검증 및 워크플로우 도구가 다양하게 포함되어 있습니다. 무엇보다도 확장 가능하므로 프로젝트의 다양한 요구 사항이 증가함에 따라 확장할 수 있습니다.

AI 혁신의 시대는 이제 막 시작되었을 뿐이며 앞으로 몇 년 동안 전체 산업을 재편하거나 사회 전체를 변화시킬 수 있는 놀라운 발전과 혁신을 보게 될 것입니다. Shaip에서 우리는 우리의 전문 지식을 사용하여 세계에서 가장 혁신적인 기업이 야심찬 목표를 달성하기 위해 AI 솔루션의 힘을 활용하는 데 도움이 되는 변혁적인 힘이 되기를 원합니다.

우리는 의료 애플리케이션 및 대화형 AI에 대한 깊은 경험이 있지만 거의 모든 종류의 애플리케이션에 대한 모델을 훈련하는 데 필요한 기술도 보유하고 있습니다. Shaip이 프로젝트를 아이디어에서 구현까지 어떻게 도울 수 있는지에 대한 자세한 내용은 웹사이트에서 제공되는 많은 리소스를 살펴보거나 지금 연락하십시오.

가속화된 개발 일정

이야기합시다

  • 등록함으로써 Shaip에 동의합니다. 개인 정보 보호 정책서비스약관 그리고 Shaip의 B2B 마케팅 커뮤니케이션 수신에 동의합니다.