간단히 말해서, RAFT(검색 증강 미세 조정)는 특정 도메인의 특정 응용 프로그램에 대한 대규모 언어 모델의 생성적 응답을 향상시키기 위해 검색 증강 생성과 미세 조정을 결합한 고급 AI 기술입니다.
RAG와 미세 조정을 통합함으로써 대규모 언어 모델이 보다 정확하고 상황에 적합하며 견고한 결과를 제공할 수 있게 되었으며, 특히 의료, 법률, 금융과 같은 대상 분야에 효과적입니다.
RAFT의 구성 요소
1. 검색 증강 생성
이 기술은 추론 중에 외부 데이터 소스에 액세스할 수 있도록 허용하여 LLM을 향상시킵니다. 따라서 다른 많은 것들과 마찬가지로 정적인 사전 훈련된 지식이 아니라 RAG는 모델이 두 번의 클릭으로 데이터베이스나 지식 저장소에서 정보를 적극적으로 검색하여 사용자 질의에 응답할 수 있도록 합니다. 이는 모델이 가장 최근의 외부 참조 또는 기타 도메인 관련 사실을 참조하는 오픈북 시험과 거의 비슷합니다. 즉, 검색된 정보에 대해 추론하거나 우선순위를 지정하는 모델의 능력을 개선하는 어떤 형태의 훈련과 결합되지 않는 한 RAG 자체는 이전 기능을 개선하지 않습니다.
RAG의 특징:
- 동적 지식 접근: 외부 정보 소스에서 수집된 실시간 정보가 포함됩니다.
- 도메인별 적응성: 답변은 특정 데이터 세트를 기반으로 합니다.
한정: 검색된 내용 중 관련성이 있는 콘텐츠와 관련성이 없는 콘텐츠를 구별하기 위한 기본 제공 메커니즘이 없습니다.
2. 미세 조정
미세 조정은 도메인별 데이터 세트에 사전 훈련된 LLM을 훈련하여 특수 작업에 맞게 개발하는 것입니다. 이는 도메인별 용어, 맥락 및 뉘앙스를 더 잘 이해하기 위해 모델의 매개변수를 변경할 수 있는 기회입니다. 미세 조정은 특정 도메인과 관련하여 모델의 정확도를 개선하지만 추론 중에는 외부 데이터가 전혀 사용되지 않아 진화하는 지식을 생산적으로 재생산하는 데 있어 재사용성이 제한됩니다.
Fine-Tuning의 특징:
- 전문화: 특정 산업이나 작업에 적합한 특정 모델입니다.
- 더 나은 추론 정확도: 도메인 관련 응답 생성의 정확도가 향상됩니다.
제한 사항: 지식 구축에 있어서 동적 업데이트 기능이 효과적이지 않습니다.
RAFT가 RAG와 Fine-Tuning을 결합하는 방법
RAG와 튜닝의 강점을 하나의 고정된 패키지로 결합합니다. 결과 LLM은 단순히 관련 문서를 검색하는 것이 아니라 해당 정보를 추론 프로세스에 성공적으로 통합합니다. 이 하이브리드 접근 방식은 모델이 도메인 지식에 정통(튜닝을 통해)하면서도 외부 지식에 동적으로 액세스할 수 있도록 보장합니다(RAG를 통해).
RAFT의 역학

훈련 데이터 구성:
- 질문은 관련 문서 및 방해 문서(관련 없음)와 결합됩니다.
- 검색된 정보 조각들을 최종 답변에 연결하는 생각의 사슬 형태의 답변입니다.
이중 훈련 목표:
모델에게 방해 요소보다 관련 문서를 우선 순위에 두는 방법을 가르치고, 소스 문서와 관련된 단계별 설명을 요구하여 추론 능력을 향상시킵니다.
추론 단계:
- 모델은 RAG 프로세스를 통해 상위 순위의 문서를 검색합니다.
- 미세 조정을 통해 정확한 추론이 이루어지고 검색된 데이터와 주요 응답이 병합됩니다.
RAFT의 장점
오류율 감소 병합
미세 조정된 개발을 증가시키면 RAFT는 전문화된 작업의 정확도를 현저히 개선합니다. 대신 TorchHub와 같은 많은 벤치마크에서의 성능은 일반적인 미세 조정 기술에 비해 최대 76%의 이득을 얻었습니다.
오류에 대한 견고성
RAFT는 잘못된 검색으로 인해 잘못된 추론을 내리기 전에 관련 없는 정보를 수정하여 모델을 훈련시킵니다.
라이브 데이터
미세 조정된 정적 모델과 달리 RAFT를 적용한 LLM은 새로운 정보를 동적으로 수용할 수 있어 빠른 적응이 필요한 의학이나 기술 산업에 매우 적합합니다.
효율적으로 자원을 활용합니다
RAFT는 학습과 추론을 위해 외부 지식 소스를 활용하여 도메인 적응을 매우 비용 효율적으로 처리하고, 방대한 레이블이 지정된 데이터 세트에 대한 종속성을 줄입니다.
도메인별 AI 애플리케이션에서의 RAFT 응용
1. 건강 관리 :
- 의학 논문 요약.
- 환자 기록을 업데이트된 지침과 통합하여 임상적 의사결정을 지원합니다.
2. 법률 서비스:
- 법률 연구와 법령 분석을 합니다.
- 계약 검토를 간소화합니다.
3. 금융 :
- 시장 동향에 기반한 재무적 통찰력을 제공합니다.
- 실시간 경제 데이터를 활용한 위험 평가.
4. 기술 문서:
- 효과적인 API 참조 자료를 작성합니다.
- 개발자 질문에 코드 참조로 답합니다.
RAFT 구현의 과제
데이터의 복잡성
고품질의 도메인별 데이터 세트가 필요한데, 이를 정리하는 것이 번거로울 수 있는 경우가 많습니다.
통합 문제
외부 지식을 모델의 추론 과정에 원활하게 통합하려면 정교한 엔지니어링이 필요합니다.
높은 리소스 소비
RAFT 모델을 훈련하려면 컴퓨팅 파워와 인프라에 많은 시간이 필요합니다.
Shaip이 RAFT 과제에 적응하는 데 도움을 주는 방법:
샤이프는 RAFT(Retrieval-Augmented Fine-Tuning) 기능과 다른 과제를 해결하여 고품질 데이터 세트, 주요 도메인별 데이터 세트 및 유능한 데이터 서비스를 제공하는 데 독보적인 입장을 견지합니다.
종단 간 AI 데이터 감독 플랫폼은 이러한 회사들이 윤리적 관행을 준수하고 대규모 언어 모델(LLM)을 올바르게 훈련하는 데 적합한 주석이 잘 첨부된 다양한 데이터 세트를 보유하도록 보장합니다.
Shaip은 의료, 금융, 법률 서비스와 같은 산업에 맞춰진 고품질의 도메인별 데이터 서비스를 제공하는 데 특화되어 있습니다. Shaip Manage 플랫폼을 사용하여 프로젝트 관리자는 명확한 데이터 수집 매개변수, 다양성 할당량 및 도메인별 요구 사항을 설정하여 RAFT와 같은 모델이 효과적인 교육을 위해 관련 문서와 무관한 방해 요소를 모두 수신하도록 합니다. 내장된 데이터 식별 해제는 HIPAA와 같은 개인 정보 보호 규정을 준수하도록 보장합니다.
Shaip은 또한 텍스트, 오디오, 이미지 및 비디오에 고급 주석을 제공하여 AI 교육을 위한 최고 수준의 품질을 보장합니다. 30,000명이 넘는 기여자와 전문가가 관리하는 팀으로 구성된 네트워크를 통해 Shaip은 정밀성을 유지하면서 효율적으로 확장합니다. 다양성, 윤리적 소싱 및 확장성과 같은 과제를 해결함으로써 Shaip은 클라이언트가 RAFT와 같은 AI 모델의 잠재력을 최대한 활용하여 영향력을 발휘하도록 돕습니다.