정의
인간 피드백을 활용한 강화 학습(RLHF)은 인간의 판단을 학습 과정에 통합하여 AI 모델을 인간의 가치에 맞춰 조정하는 방법입니다. 대규모 언어 모델을 미세 조정하는 데 자주 사용됩니다.
목적
RLHF의 목적은 AI의 출력을 더욱 안전하고, 유용하며, 인간의 선호도에 맞춰 조정하는 것입니다. RLHF는 해롭거나, 편향적이거나, 관련성이 없는 응답을 줄임으로써 대화 시스템을 개선합니다.
중요성
- AI 훈련에 대한 인간의 감독을 제공합니다.
- AI 시스템의 신뢰성이 향상됩니다.
- 인간의 주석 작업이 필요하기 때문에 노동 집약적입니다.
- 선호도 모델링 및 정렬 연구와 관련이 있습니다.
작동 원리
- 모델 출력을 비교하는 인간의 피드백을 수집합니다.
- 인간의 선호도에 따라 보상 모델을 훈련합니다.
- 강화 학습을 사용하여 기본 모델을 미세 조정합니다.
- 정렬 목표에 대한 성과를 평가합니다.
- 추가 피드백을 통해 반복합니다.
예시(실제 세계)
- OpenAI ChatGPT: 더 안전한 대응을 위해 RLHF로 미세 조정됨.
- 인류학적 헌법적 AI: 직접적인 피드백보다는 원칙에 따라 안내됩니다.
- InstructGPT: RLHF를 보여주는 초기 OpenAI 모델.
참고문헌 / 추가 자료
- 크리스티아노 외. “인간 선호도를 활용한 심층 강화 학습.” NeurIPS 2017.
- OpenAI InstructGPT 논문.
- NIST AI 위험 관리 프레임워크.
- 인간 피드백을 통한 강화 학습(RLHF)이란 무엇입니까?