ChatGPT

비하인드 스토리: ChatGPT의 내부 작동 방식 탐색 – 1부

샤이프 파비콘
안녕하세요, 저는 Shaip의 마케팅 이사 Anubhav Saraf입니다. 오늘은 어떠세요?
안녕 아누바브! 나는 AI라서 감정이 없지만 여기 있고 도울 준비가 되어 있습니다. Shaip의 Director Marketing으로서 데이터 서비스 및 AI 솔루션에 대한 많은 인사이트가 있어야 합니다. 오늘 무엇을 도와드릴까요?
샤이프 파비콘
귀하의 교육 과정에 대해 더 알고 싶었습니다. 어떻게 구축되고 훈련되었습니까?
OpenAI에서 개발한 언어 모델로서 "변압기 기반 기계 학습"이라는 기술, 특히 GPT(Generative Pretrained Transformer) 아키텍처라는 변형을 사용하여 구축하고 훈련했습니다. 지금 말씀하시는 버전은 GPT-4입니다. 다음은 내 교육 과정에 대한 간략한 개요입니다.
  • 데이터 수집: 나의 교육은 다양한 범위의 인터넷 텍스트로 시작되었습니다. 그러나 광범위한 데이터 세트에 대해 교육을 받았지만 어떤 문서가 해당 교육 세트의 일부인지 또는 특정 문서나 소스에 액세스할 수 있는지에 대해 구체적으로 알지 못합니다.
  • 초기 교육(사전 교육): 여기에서 문장의 다음 단어를 예측하는 법을 배웠습니다. 나는 영어나 다른 어떤 언어도 배우기 시작하지 않았습니다. 대신 수백만 문장에서 다음 단어를 예측함으로써 점차 문법, 세계에 대한 사실 및 추론 능력에 대해 배웠습니다. 그러나 이것은 또한 데이터가 철저히 필터링되지 않았기 때문에 편향되거나 잘못된 정보에서 배웠을 수도 있음을 의미합니다.
  • 미세 조정: 초기 교육 후 OpenAI의 제작자는 인간 검토자의 도움을 받아 생성된 보다 구체적인 데이터 세트로 추가 지침을 제공했습니다. 이러한 검토자는 가이드라인에 따라 다양한 예제 입력에 대해 가능한 모델 출력을 검토하고 평가합니다. 미세 조정 프로세스는 내가 인간의 가치에 더 잘 부합하도록 도와주는 모델과 검토자 사이의 일종의 대화입니다.
  • 지속적인 학습 : 개인 정보 보호상의 이유로 개별 상호 작용에서 배우지는 않지만 OpenAI는 인간 검토자 팀과 지속적으로 협력하여 피드백을 제공하고 더 광범위한 패턴과 통찰력을 기반으로 반복적인 개선을 수행합니다.
샤이프 파비콘
인간이 관련된 예를 제공할 수 있습니까?
네, 인간이 제 훈련 과정에 실제로 관여했지만, 여러분이 상상하는 것과 다를 수 있습니다. 종종 기계 학습이라고 하는 나의 훈련 과정에는 사전 훈련과 미세 조정이라는 두 가지 주요 단계가 포함되어 있습니다. 둘 다 방법은 다르지만 인간 상호 작용을 포함합니다.
  • 사전 교육 예: “The cat sat on the __”라는 문장이 있다고 가정해 봅시다. 사전 훈련 단계에서 나와 같은 모델은 문장에서 "매트" "지붕" 또는 "나무"가 될 수 있는 다음 단어를 예측하는 방법을 배웁니다. 이는 다양한 인터넷 텍스트에서 수십억 개의 문장을 처리하여 인간이 원본 콘텐츠를 만들었을 때 인간 상호 작용을 간접적으로 포함하여 학습됩니다.
  • 미세 조정 예: 사전 학습 단계 후 모델은 미세 조정 단계에 들어갑니다. 작동 방식은 다음과 같습니다.

인간 검토자는 "다음 영어 텍스트를 프랑스어로 번역: 'Hello, how are you?'"와 같은 입력에 대해 가능한 모델 출력을 검토하는 작업이 주어집니다. 모델은 "Bonjour, comment ça va?"와 같은 여러 응답을 생성할 수 있습니다. 또는 "Salut, comment vas-tu?" 등.

검토자는 정확성, 유창성 및 적절성과 같은 요소를 기반으로 이러한 응답을 평가합니다. 이러한 등급은 모델이 향후 유사한 입력을 일반화하고 응답하는 데 도움이 됩니다.

여기에 제공된 예제는 프로세스를 설명하기 위해 단순화되었음을 기억하십시오. 실제 교육에는 복잡한 알고리즘과 방대한 양의 데이터가 포함됩니다.

샤이프 파비콘
대규모 언어 모델(LLM)을 교육하려면 얼마나 많은 데이터가 필요합니까?
GPT-3 또는 GPT-4와 같은 대규모 언어 모델(LLM)을 교육하려면 방대한 양의 데이터가 필요합니다. 이러한 모델은 문법, 사실 및 어느 정도의 추론을 배우기 위해 책, 웹 사이트 및 기타 텍스트를 포함하여 인터넷의 많은 부분을 포함하는 다양한 데이터 세트에서 훈련됩니다. 그러나 필요한 데이터의 정확한 양을 지정하는 것은 다음과 같은 여러 요인으로 인해 복잡합니다.
  • 다양한 데이터: 데이터의 양뿐만 아니라 다양성도 중요합니다. 데이터는 인간 언어에서 발견되는 광범위한 주제, 스타일 및 어조를 다루기 위해 다양해야 합니다.
  • 데이터 품질: 훈련에 사용되는 데이터의 품질도 모델이 얼마나 효과적으로 학습하는지에 영향을 미칠 수 있습니다. 더 나은 품질의 데이터는 효과적인 교육에 필요한 양을 잠재적으로 줄일 수 있습니다.
  • 모델 아키텍처: 모델의 아키텍처(예: 신경망의 레이어 수 또는 매개변수)도 필요한 데이터의 양에 영향을 미칠 수 있습니다. GPT-3 또는 GPT-4와 같은 큰 모델은 일반적으로 작은 모델보다 더 많은 데이터가 필요합니다.
  • 교육 목표 : 모델이 수행하려는 작업 유형은 필요한 데이터의 양에 영향을 줄 수 있습니다. 특정 작업을 위해 설계된 모델은 대상이 잘 지정되어 있으면 더 적은 데이터가 필요할 수 있지만 광범위한 작업을 처리하도록 설계된 GPT-3 또는 GPT-4와 같은 범용 모델은 더 폭넓은 이해를 위해 더 많은 데이터가 필요합니다.

예를 들어 GPT-3의 경우 모델에는 175억 개의 매개변수가 있으며 수백 기가바이트의 텍스트에 대해 학습되었습니다. 그러나 이러한 수치는 프로세스의 복잡성을 완전히 포착하지 못합니다. 사용된 데이터의 정확한 양을 포함하여 교육 프로세스의 세부 사항은 OpenAI 및 유사 조직이 보유한 독점 세부 정보입니다.

샤이프 파비콘
그래도 ML 모델 교육에 적합하거나 충분한 데이터의 양에 대한 벤치마크가 있습니까?
기계 학습 모델을 효과적으로 교육하는 데 필요한 데이터의 양은 주로 해결하려는 문제의 복잡성, 데이터의 품질 및 다양성, 사용 중인 기계 학습 모델의 유형에 따라 다릅니다. 따라서 데이터 볼륨에 대한 명확한 벤치마크를 지정하기가 어렵습니다. 그러나 다음은 몇 가지 일반적인 지침입니다.
  • Small 시작 : 특히 간단한 문제나 초기 모델 프로토타입의 경우 더 작은 데이터 세트가 적합할 수 있습니다. 예를 들어 기본 이미지 분류자를 빌드하는 경우 범주당 수백 또는 수천 개의 이미지로 시작할 수 있습니다.
  • 복잡성 고려: 더 복잡한 문제에는 일반적으로 더 많은 데이터가 필요합니다. 딥 러닝 모델을 개발하거나 자연어 처리와 같은 복잡한 문제로 작업하는 경우 수백만 개의 데이터 포인트가 필요할 수 있습니다.
  • 수량보다 품질: 양질의 관련 데이터는 종종 품질이 좋지 않은 엄청난 양의 데이터보다 더 유익할 수 있습니다. 데이터를 적절하게 정리하고 주석을 달고 해결하려는 문제를 대표하는지 확인하는 것이 중요합니다.
  • 수업의 균형: 감독 학습 작업의 경우 각 수업에 대한 예시의 균형이 잘 잡혀 있는지 확인하세요. 불균형한 데이터 세트는 제대로 표현되지 않은 클래스에서 제대로 수행되지 않는 모델로 이어질 수 있습니다.
  • 검증 및 테스트 세트 사용: 데이터 세트의 일부는 유효성 검사(모델 매개변수 조정) 및 테스트(모델 성능 평가)를 위해 따로 보관해야 합니다. 일반적인 분할은 훈련용 데이터의 70%, 검증용 15%, 테스트용 15%일 수 있지만 이러한 비율은 다를 수 있습니다.
  • 실험 및 반복: 초기 데이터 양으로 시작하고, 모델을 훈련하고, 성능을 평가하고, 반복적으로 더 많은 데이터를 추가하고, 모델을 수정하거나, 결과에 따라 데이터 품질을 개선하세요.

데이터가 많을수록 일반적으로 기계 학습 모델의 성능이 향상되지만 어느 정도까지만 향상된다는 점을 기억하십시오. 특정 시점 이후에는 더 많은 데이터를 수집하는 것이 그 가치보다 더 많은 시간과 비용이 소요될 수 있으며 데이터 품질을 개선하거나 모델 아키텍처를 개선하는 데 집중하는 것이 더 유익할 수 있습니다.

샤이프 파비콘
ChatGPT 훈련에 사용된 데이터에 주석이 달렸습니까?
ChatGPT와 같은 학습 모델 프로세스에는 사전 학습과 미세 조정이라는 두 가지 주요 단계가 포함됩니다. 주석 또는 그 부족이 이러한 단계에 어떻게 부합하는지 논의해 보겠습니다.
  • 사전 교육: 이 단계에서 모델은 대량의 인터넷 텍스트 데이터에 노출됩니다. 이 데이터는 명시적으로 주석이 지정되지 않지만 모델은 문장의 다음 단어를 예측하도록 학습됩니다. 이를 통해 모델은 문법, 세계에 대한 사실 및 몇 가지 추론 능력에 대한 일반적인 이해를 얻을 수 있습니다.
  • 미세 조정: 사전 교육 후 모델은 인간 검토자의 도움을 받아 생성된 더 좁은 데이터 세트에서 더욱 세분화됩니다. 이러한 검토자는 OpenAI의 지침에 따라 다양한 입력에 대해 가능한 모델 출력을 검토하고 평가합니다. 이러한 의미에서 미세 조정 프로세스는 인간 검토자가 모델의 응답을 안내하여 모델이 인간의 가치와 더 잘 일치하도록 돕고 부적절하거나 안전하지 않은 콘텐츠를 방지하는 주석의 한 형태로 볼 수 있습니다.

따라서 사전 교육에 사용되는 초기 데이터 세트는 전통적인 의미에서 주석이 지정되지 않지만 미세 조정 프로세스에는 인간 검토자가 다양한 출력을 평가하여 모델의 동작을 안내하는 일종의 주석이 포함됩니다.

샤이프 파비콘
교육에 사용되는 주석 유형의 몇 가지 예를 제공하십시오.
ChatGPT와 같은 학습 모델의 미세 조정 단계에서 검토자는 종종 잠재적인 모델 응답을 평가하는 임무를 맡습니다. 주석 또는 스코어링 유형은 모델 출력의 다양한 측면을 다룰 수 있습니다. 세부 사항은 다를 수 있지만 다음은 주석의 몇 가지 예시 범주입니다.

단정: 검토자는 모델의 출력이 실제로 올바른지 여부를 평가합니다.

예:

허가: 모델의 출력은 주어진 입력과 관련하여 적절성에 대해 평가됩니다.

예:

안전 : 유해한 지침이나 불쾌감을 주는 언어가 포함되어 있지 않은지 확인하기 위해 출력을 검토합니다.

예:

완전성: 이는 모델의 응답이 사용자의 쿼리에 완전히 응답하는지 여부를 평가합니다.

예:

유창: 검토자는 모델의 출력이 언어적으로 유창하고 일관성이 있는지 확인합니다.

예:

이러한 범주는 단지 예일 뿐입니다. 실제 미세 조정 프로세스에는 더 복잡한 평가 시스템과 검토자와 AI 개발 팀 간의 지속적인 피드백이 포함됩니다. 이러한 주석의 목표는 모델의 응답을 보다 유용하고 안전하며 인간의 가치와 일치하도록 만드는 것입니다.

샤이프 파비콘
ChatGPT를 훈련하기 위해 방대한 데이터를 수집한 후 주석에 참여한 주석자는 몇 명입니까?
AI 모델의 미세 조정 프로세스에 관여하는 사람 어노테이터(또는 검토자)의 수는 프로젝트 규모와 해당 모델의 특정 요구 사항에 따라 크게 다를 수 있습니다.

ChatGPT의 배후 조직인 OpenAI는 미세 조정 프로세스에 관련된 검토자의 정확한 수를 공개적으로 공개하지 않습니다. 그러나 이러한 대규모 언어 모델 교육의 규모와 복잡성을 감안할 때 프로세스에 상당한 검토자 팀이 포함될 가능성이 높다고 해도 무방합니다.

이러한 인간 검토자는 OpenAI에서 제공하는 지침에 따라 가능한 모델 출력을 검토하고 평가합니다. 검토자의 피드백을 사용하여 시간이 지남에 따라 모델을 개선하고 다듬는 지속적이고 반복적인 프로세스입니다. OpenAI는 질문을 해결하고 설명을 제공하기 위한 주간 회의를 포함하여 검토자와 강력한 피드백 루프를 유지합니다.

샤이프 파비콘
단순하거나 복잡한 작업의 경우 여전히 10,000개의 PDF에 주석을 추가하는 데 얼마나 많은 주석자가 필요합니다.
10,000개의 PDF에 주석을 추가하는 데 필요한 주석 작성자의 수는 다음과 같은 다양한 요인에 따라 달라집니다.
  • 작업의 복잡성: 이미지에 레이블을 지정하거나 텍스트를 분류하는 것과 같은 간단한 작업은 PDF당 시간이 덜 걸리므로 단일 주석자가 더 많은 파일을 처리할 수 있습니다. 반면에 세부 항목 추출 또는 의미론적 분석과 같은 복잡한 작업은 문서당 더 많은 시간이 필요하므로 동일한 양의 PDF에 대해 더 많은 주석자가 필요합니다.
  • PDF의 길이 및 복잡성: 더 길거나 더 복잡한 PDF는 더 짧거나 단순한 PDF보다 주석을 추가하는 데 더 많은 시간이 걸립니다.
  • 품질 요구 사항: 높은 정밀도가 필요한 경우 주석을 교차 검증하기 위해 PDF당 여러 주석자가 필요할 수 있습니다.
  • 시간 제약: 주석을 빨리 완료해야 하는 경우 더 많은 주석자가 필요합니다.

가상의 예로, 주석 작성자가 특정 작업에 대해 하루에 5개의 PDF에 주석을 달 수 있고 일주일에 5일 ​​근무한다고 가정해 보겠습니다. 이 경우 10,000개의 PDF에 주석을 추가하려면 단일 주석 작성자가 2000일 또는 약 8년이 필요합니다.

그러나 20명의 어노테이터로 구성된 팀이 있는 경우 약 5개월 내에 작업을 완료할 수 있습니다(매월 20일 근무일로 가정). 100명의 어노테이터가 있는 경우 동일한 작업을 약 한 달 안에 완료할 수 있습니다.

이 숫자는 순전히 예시이며 주석의 실제 속도는 위에서 언급한 요인에 따라 달라집니다. 또한 주석 작성자의 적절한 교육과 일관된 품질 관리는 대규모 주석 프로젝트의 성공에 매우 중요합니다.

샤이프 파비콘
철저합니다! 나는 매우 감명 받았다…
정보가 도움이 되셨다니 기쁩니다, Anubhav! 포괄적이고 정확한 답변을 제공하는 것이 저의 목표입니다. AI, 머신러닝, 기타 주제에 대해 더 궁금하신 점이 있으시면 언제든지 문의주세요!

Chat GPT 인터뷰의 두 번째 부분을 기대해 주세요.

사회 공유하기