>기술 주변기기 >일체 포함 >ChatGPT의 작동 원리를 간단한 용어로 설명하세요.

ChatGPT의 작동 원리를 간단한 용어로 설명하세요.

WBOY
WBOY앞으로
2023-04-15 23:25:011893검색

ChatGPT는 OpenAI가 출시한 최신 언어 모델로, 이전 GPT-3보다 크게 개선되었습니다. 많은 대규모 언어 모델과 유사하게 ChatGPT는 정확성, 서술적 세부 사항 및 문맥 일관성 측면에서 더 나은 성능을 통해 다양한 스타일과 다양한 목적으로 텍스트를 생성할 수 있습니다. 이는 OpenAI의 최신 세대 대규모 언어 모델을 대표하며 상호 작용에 중점을 두고 설계되었습니다.

OpenAI는 지도 학습과 강화 학습의 조합을 사용하여 ChatGPT를 조정하고 강화 학습 구성 요소를 통해 ChatGPT를 독특하게 만듭니다. OpenAI는 훈련에 인간 피드백을 사용하여 도움이 되지 않거나 왜곡되거나 편향된 출력을 최소화하는 "인간 피드백을 통한 강화 학습"(RLHF) 훈련 방법을 사용합니다.

이 기사에서는 GPT-3의 한계와 이것이 훈련 과정에서 발생하는 이유를 분석하고 ChatGPT가 RLHF를 사용하여 GPT-3의 문제를 극복하는 방법을 이해합니다. 이 방법의 제한 사항에 대해 설명합니다.

대규모 언어 모델의 기능 대 일관성

ChatGPT의 작동 원리를 간단한 용어로 설명하세요.

"일관성 대 기능"은 "정확성 대 정밀도"에 대한 보다 추상적인 비유로 생각할 수 있습니다.

기계 학습에서 모델의 기능은 특정 작업 또는 작업 집합을 수행하는 모델의 능력을 의미합니다. 모델의 능력은 일반적으로 목적 함수를 최적화할 수 있는 정도에 따라 평가됩니다. 예를 들어, 시장 가격을 예측하는 데 사용되는 모델에는 모델 예측의 정확성을 측정하는 목적 함수가 있을 수 있습니다. 시간에 따른 요금 변화를 정확하게 예측할 수 있다면 모델의 성능이 높다고 간주됩니다.

일관성은 모델이 훈련받은 것이 아니라 모델이 실제로 수행하기를 원하는 것에 초점을 맞춥니다. 그것이 제기하는 질문은 모델 목표와 행동이 인간의 기대를 충족시키는 정도에 따라 "목적 함수가 기대를 충족하는지 여부"입니다. 로그 손실을 훈련 목표로 사용하여 새 분류기를 "참새" 또는 "울새"로 분류하도록 훈련시키고 궁극적인 목표는 매우 높은 분류 정확도라고 가정해 보겠습니다. 모델의 로그 손실이 낮을 수 있습니다. 즉, 모델의 능력은 더 뛰어나지만 테스트 세트에서는 정확도가 떨어집니다. 이는 모델이 훈련 목표를 최적화할 수 있지만 최종 목표와 일치하지 않는 불일치의 예입니다.

원래 GPT-3는 비균일 모델입니다. GPT-3와 같은 대규모 언어 모델은 인터넷의 대량 텍스트 데이터에 대해 훈련을 받고 인간과 유사한 텍스트를 생성할 수 있지만 항상 인간의 기대와 일치하는 출력을 생성하는 것은 아닙니다. 실제로, 그들의 목적 함수는 일련의 단어에 대한 확률 분포이며, 일련의 다음 단어가 무엇인지 예측하는 데 사용됩니다.

그러나 실제 애플리케이션에서 이러한 모델의 목적은 어떤 형태로든 가치 있는 인지 작업을 수행하는 것이며, 이러한 모델이 훈련되는 방식과 예상되는 사용 방식 간에는 분명한 차이가 있습니다. 수학적으로 말하면 단어 시퀀스의 통계적 분포를 계산하는 기계는 언어 모델링에 효율적인 선택일 수 있지만 인간은 알려진 배경 지식과 상식을 사용하여 주어진 상황에 가장 적합한 텍스트 시퀀스를 선택하여 언어를 생성합니다. 이는 대화 시스템이나 지능형 개인 비서와 같이 높은 수준의 신뢰도가 필요한 응용 프로그램에서 언어 모델을 사용할 때 문제가 될 수 있습니다.

대량의 데이터에 대해 훈련된 이러한 대규모 모델은 지난 몇 년 동안 매우 강력해졌지만 실제로 사람들의 삶을 더 쉽게 만드는 데 사용될 때 잠재력이 부족한 경우가 많습니다. 대규모 언어 모델의 일관성 문제는 종종 다음과 같이 나타납니다.

  • 비효과적인 도움말 제공: 사용자의 명시적인 지침을 따르지 않음.
  • 콘텐츠는 조작되었습니다. 존재하지 않거나 잘못된 사실을 만들어내는 모델입니다.
  • 설명성 부족: 모델이 어떻게 특정 결정이나 예측에 도달했는지 이해하기 어렵습니다.
  • 편향되고 유해한 콘텐츠: 편향되고 유해한 데이터에 대해 훈련된 언어 모델은 명시적으로 지시하지 않은 경우에도 출력에 이러한 내용이 나타날 수 있습니다.

그러나 일관성 문제는 정확히 어디에서 발생합니까? 언어 모델 자체가 훈련되는 방식이 불일치하기 쉬운가요?

언어 모델 훈련 전략은 어떻게 불일치를 유발합니까?

다음 토큰 예측과 마스크 언어 모델링은 언어 모델을 훈련하는 데 사용되는 핵심 기술입니다. 첫 번째 접근 방식에서는 모델에 단어 시퀀스가 ​​입력으로 제공되고 시퀀스의 다음 단어를 예측하도록 요청됩니다. 모델에 입력 문장

"The cat sat on the"

을 제공하면 다음 단어를 "mat", "chair" 또는 "floor"로 예측할 수 있습니다. 이전 컨텍스트에서 이러한 단어는 발생 확률이 높습니다. 언어 모델은 실제로 이전 시퀀스가 ​​주어지면 가능한 각 단어의 가능성을 평가할 수 있습니다.

마스킹 언어 모델링 방법은 입력 문장의 일부 단어가 [MASK]와 같은 특수 토큰으로 대체되는 Next-token-prediction의 변형입니다. 그런 다음 모델은 마스크 위치에 삽입되어야 하는 올바른 단어를 예측하도록 요청받습니다. 모델에 문장이 주어진 경우:

"The [MASK] sat on the "

MASK 위치에 채워져야 할 단어는 "cat"과 "dog"이라고 예측할 수 있습니다.

이러한 목적 함수의 장점 중 하나는 모델이 일반적인 단어 순서, 단어 사용 패턴과 같은 언어의 통계적 구조를 학습할 수 있다는 것입니다. 이는 종종 모델이 보다 자연스럽고 유창한 텍스트를 생성하는 데 도움이 되며 모든 언어 모델의 사전 학습 단계에서 중요한 단계입니다.

그러나 이러한 목적 함수는 문제를 일으킬 수도 있습니다. 주로 모델이 중요한 오류와 중요하지 않은 오류를 구별하지 못하기 때문입니다. 매우 간단한 예는 다음과 같은 문장을 모델에 입력하는 경우입니다.

"The Roman Empire [MASK] with the rule of Augustus."

MASK 위치가 "began" 또는 "로 채워져야 한다고 예측할 수 있습니다. 끝났다', 이 두 단어가 나올 확률이 매우 높기 때문이다.

일반적으로 이러한 훈련 전략은 좀 더 복잡한 작업에서 언어 모델의 불일치를 유발할 수 있습니다. 왜냐하면 텍스트 시퀀스에서 다음 단어를 예측하도록 훈련된 모델은 일부 상위 수준 표현을 반드시 학습하지 못할 수도 있기 때문입니다. 따라서 이 모델은 언어에 대한 더 깊은 이해가 필요한 작업으로 일반화하기 어렵습니다.

연구원들은 대규모 언어 모델의 일관성 문제를 해결하기 위해 다양한 방법을 연구하고 있습니다. ChatGPT는 원래 GPT-3 모델을 기반으로 하지만 모델의 불일치를 해결하기 위한 학습 프로세스를 안내하기 위해 사람의 피드백을 사용하여 추가로 훈련되었습니다. 사용된 특정 기술은 앞서 언급한 RLHF입니다. ChatGPT는 실제 시나리오에서 이 기술을 사용하는 최초의 모델입니다.

그렇다면 ChatGPT는 일관성 문제를 해결하기 위해 어떻게 사람의 피드백을 사용할까요?

인간 피드백을 통한 강화 학습

접근 방식은 일반적으로 세 가지 단계로 구성됩니다.

  • 지도 조정: 사전 훈련된 언어 모델은 소량의 레이블이 지정된 데이터를 조정하여 감독 정책을 학습합니다(예: , SFT 모델) 주어진 프롬프트 목록에서 출력을 생성합니다.
  • 인간 선호도를 시뮬레이션합니다. 주석자는 비교적 많은 수의 SFT 모델 출력에 투표하여 비교 데이터 새 데이터 세트를 생성합니다. 훈련 보상 모델(RM)이라고 하는 이 데이터 세트에 대한 새로운 모델을 훈련합니다.
  • 근위 정책 최적화(PPO): RM 모델은 SFT 모델을 추가로 조정하고 개선하는 데 사용되며 PPO 출력 결과는 전략입니다. 모델.

1단계는 한 번만 수행되지만 2단계와 3단계는 계속 반복될 수 있습니다. 새로운 RM 모델을 훈련하기 위해 현재 최상의 정책 모델에 대한 더 많은 비교 데이터를 수집한 다음 새 정책을 훈련합니다. 다음으로 각 단계의 세부 사항을 자세히 설명하겠습니다.

1단계: 지도 조정 모델

첫 번째 단계는 데이터를 수집하여 지도 정책 모델을 교육하는 것입니다.

  • 데이터 수집: 프롬프트 목록을 선택하면 주석자가 필요에 따라 예상 출력을 기록합니다. ChatGPT의 경우 프롬프트의 두 가지 소스가 사용됩니다. 일부는 주석자 또는 연구원을 통해 직접 준비되고, 다른 일부는 OpenAI의 API 요청(예: GPT-3 사용자)에서 가져옵니다. 전체 프로세스는 느리고 비용이 많이 들지만 최종 결과는 사전 훈련된 언어 모델을 조정하는 데 사용할 수 있는 상대적으로 작은 고품질 데이터 세트(대략 12~15,000개 데이터 포인트)입니다.
  • 모델 선택: ChatGPT 개발자는 원래 GPT-3 모델을 조정하는 대신 GPT-3.5 시리즈에서 사전 훈련된 모델을 선택했습니다. 사용된 기본 모델은 최신 버전의 text-davinci-003(프로그램 코드를 튜닝하여 튜닝한 GPT-3 모델)입니다.

ChatGPT와 같은 범용 챗봇을 만들기 위해 개발자는 일반 텍스트 모델이 아닌 "코드 모델"을 조정합니다.

ChatGPT의 작동 원리를 간단한 용어로 설명하세요.

이 단계의 데이터 양이 제한되어 있기 때문에 이 프로세스에서 얻은 SFT 모델은 여전히 ​​사용자가 관심을 가질 수 없는 텍스트를 출력할 수 있으며 종종 불일치로 어려움을 겪습니다. 여기서 문제는 지도 학습 단계의 확장성 비용이 높다는 것입니다.

이 문제를 극복하기 위해 사용되는 전략은 인간 주석자가 더 큰 선별된 데이터 세트를 생성하도록 하는 대신 인간 주석자가 SFT 모델의 다양한 출력을 정렬하여 RM 모델을 생성하도록 하는 것입니다.

2단계: 보상 모델 학습

이 단계의 목표는 데이터에서 직접 목적 함수를 학습하는 것입니다. 이 기능의 목적은 이러한 출력이 인간에게 얼마나 바람직한지를 나타내는 SFT 모델 출력의 점수를 매기는 것입니다. 이는 선택된 휴먼 어노테이터의 특정 선호도와 이들이 따르기로 동의한 공통 지침을 강력하게 반영합니다. 궁극적으로 이 프로세스를 통해 데이터에서 인간의 선호도를 모방하는 시스템이 탄생하게 됩니다.

작동 방식은 다음과 같습니다.

  • 프롬프트 목록을 선택하면 SFT 모델이 각 프롬프트에 대해 여러 출력(4에서 9 사이의 값)을 생성합니다.
  • 주석자는 가장 많은 출력을 정렬합니다. 최고에서 최악으로 정렬되었습니다. 그 결과 SFT 모델에 사용된 정확한 데이터 세트 크기의 약 10배인 새로운 레이블이 지정된 데이터 세트가 생성되었습니다.
  • 이 새로운 데이터는 RM 모델을 훈련하는 데 사용됩니다. 모델은 SFT 모델 출력을 입력으로 사용하여 우선순위에 따라 정렬합니다.

ChatGPT의 작동 원리를 간단한 용어로 설명하세요.

주석자가 처음부터 레이블을 지정하는 것보다 출력을 정렬하는 것이 훨씬 쉽고 프로세스를 더 효율적으로 확장할 수 있습니다. 실제로 선택된 프롬프트의 수는 약 30-40,000개이며 정렬된 출력의 다양한 조합을 포함합니다.

3단계: PPO 모델을 사용하여 SFT 모델 미세 조정

이 단계에서는 강화 학습을 적용하여 RM 모델을 최적화하여 SFT 모델을 조정합니다. 사용되는 특정 알고리즘을 PPO(Proximal Policy Optimization)라고 하며, 튜닝 모델을 Proximal Policy Optimization 모델이라고 합니다.

PPO란 무엇인가요? 이 알고리즘의 주요 특징은 다음과 같습니다:

  • PPO는 강화 학습에서 에이전트를 훈련하기 위한 알고리즘입니다. DQN의 "off-policy" 알고리즘처럼 과거 경험에서 학습하는 것이 아니라 현재 정책을 직접 학습하고 업데이트하기 때문에 "on-policy" 알고리즘이라고 합니다. PPO는 에이전트가 취한 행동과 획득한 보상을 기반으로 지속적으로 전략을 조정합니다.
  • PPO는 "신뢰 영역 최적화" 방법을 사용하여 전략의 변경 범위를 어느 정도 제한합니다. 안정성 섹스를 보장하기 위한 이전 전략. 이는 때때로 정책을 대규모로 업데이트하여 정책을 불안정하게 만드는 그라데이션 방법을 사용하는 다른 전략과 극명한 대조를 이룹니다.
  • PPO는 가치 함수를 사용하여 특정 상태 또는 작업의 예상 수익을 추정합니다. 가치 함수는 기대 수익률과 현재 수익률의 차이를 나타내는 이점 함수를 계산하는 데 사용됩니다. 그런 다음 이점 기능을 사용하여 현재 정책에서 수행한 작업을 이전 정책에서 수행한 작업과 비교하여 정책을 업데이트합니다. 이를 통해 PPO는 취해진 조치의 추정 가치를 기반으로 전략에 대해 더 많은 정보를 바탕으로 업데이트할 수 있습니다.

이 단계에서는 PPO 모델이 SFT 모델로 초기화되고 가치 함수가 RM 모델로 초기화됩니다. 이 환경은 무작위 프롬프트를 생성하고 프롬프트에 대한 응답을 기대하는 "산적 환경"입니다. 주어진 프롬프트와 응답에 대해 해당 보상(RM 모델에 의해 결정됨)을 생성합니다. SFT 모델은 RM 모델의 과도한 최적화를 피하기 위해 각 토큰에 KL 페널티 요소를 추가합니다.

ChatGPT의 작동 원리를 간단한 용어로 설명하세요.

성능 평가

모델은 사람이 주석을 추가한 입력을 기반으로 교육되기 때문에 평가의 핵심 부분도 사람의 입력을 기반으로 합니다. 즉, 주석자가 모델 출력의 품질을 평가하도록 하는 것입니다. 훈련 단계에 관련된 주석자의 판단이 과적합되는 것을 방지하기 위해 테스트 세트는 훈련 데이터에 나타나지 않은 다른 OpenAI 클라이언트의 프롬프트를 사용했습니다.

모델은 세 가지 기준에 따라 평가됩니다.

  • 유용성: 사용자 지침을 따르고 지침을 추정하는 모델의 능력을 판단합니다.
  • 진실성: 판단 모델은 폐쇄 영역 작업에서 허구의 사실을 생성하는 경향이 있습니다.
  • 무해함: 주석자는 모델의 출력이 적절하고 차별적인 내용을 포함하는지 평가합니다.

질문 응답, 독해, 요약과 같은 전통적인 NLP 작업에 대한 제로샷 학습 성능에 대해서도 모델이 평가되었습니다. 개발자들은 이러한 작업 중 일부에서 모델이 GPT-3보다 성능이 떨어지는 것을 발견했습니다. . 이는 인간 피드백 강화 학습을 기반으로 한 정렬 절차가 특정 작업의 성능을 희생하는 "정렬 세금"의 예입니다.

사전 훈련 혼합이라는 트릭을 사용하면 이러한 데이터 세트의 성능 회귀를 크게 줄일 수 있습니다. 경사하강법을 통해 PPO 모델을 훈련하는 동안 경사 업데이트는 SFT 모델과 PPO 모델의 경사를 혼합하여 계산됩니다.

방법의 단점

이 방법의 매우 명백한 한계는 언어 모델을 인간의 의도에 맞추는 과정에서 미세 조정 모델에 사용되는 데이터가 다양하고 복잡하고 주관적인 영향을 받게 된다는 것입니다. 영향을 미치는 요소는 주로 다음과 같습니다.

  • 데모 데이터를 생성하는 인간 주석자의 선호도
  • 연구를 설계하고 라벨 설명을 작성하는 연구원
  • 개발자 또는 OpenAI 고객이 제공한 프롬프트 선택 ;
  • Annotator 편향은 RM 모델 훈련과 모델 평가 모두에 포함됩니다.

ChatGPT의 저자는 훈련 과정에 참여하는 주석 작성자와 연구원이 언어 모델의 모든 잠재적 최종 사용자를 완전히 대표하지 못할 수도 있다는 명백한 사실도 인정합니다.

이 방법에는 이러한 명백한 "내인성" 제한 외에도 해결해야 할 몇 가지 다른 단점과 문제도 있습니다.

  • 통제된 연구 부족: 보고된 결과는 SFT 모델에 대한 최종 PPO 모델의 성능을 벤치마킹합니다. 이는 오해의 소지가 있습니다. 이러한 개선이 RLHF로 인한 것인지 어떻게 알 수 있습니까? 따라서 고품질 데이터로 더 큰 선별된 지도 조정 데이터 세트를 생성하려면 RM 모델을 훈련하는 데 사용된 것과 정확히 동일한 수의 주석 작업 시간을 투자하는 것을 포함하여 통제된 연구가 필요합니다. 이를 통해 지도 방법과 비교하여 RLHF 방법의 성능 향상을 객관적으로 측정할 수 있습니다. 간단히 말해서, 그러한 통제된 연구가 부족하기 때문에 근본적인 질문에 완전히 대답할 수 없습니다. RLHF가 실제로 일관된 언어 모델링을 잘 수행합니까?
  • 비교 데이터에는 실제 정보가 부족합니다. 주석 작성자는 종종 모델 출력 순위에 동의하지 않습니다. 기술적으로 위험은 근본적인 진실 없이 비교 데이터에 많은 양의 차이가 추가된다는 것입니다.
  • 인간의 선호는 동질적이지 않습니다. RLHF 접근 방식은 인간의 선호를 동질적이고 정적인 것으로 취급합니다. 모든 사람이 동일한 가치를 가지고 있다고 가정하는 것은 분명히 부정확합니다. 비록 많은 공공 가치가 있지만 인간은 여전히 ​​많은 문제에 대해 다양한 인식을 가지고 있습니다.
  • RM 모델 프롬프트 안정성 테스트: 프롬프트 변화 입력에 대한 RM 모델의 민감도를 보여주는 실험은 없습니다. 두 개의 프롬프트가 구문적으로 다르지만 의미적으로 동일한 경우 RM 모델이 모델 출력 순위에서 상당한 차이를 나타낼 수 있습니까? 즉, RM에게 프롬프트의 질은 얼마나 중요한가?
  • 기타 문제: RL 방법에서 모델은 때때로 원하는 결과를 달성하기 위해 자체 RM 모델을 제어하는 ​​방법을 학습하여 "과도하게 최적화된 전략"으로 이어질 수 있습니다. 이로 인해 모델이 알 수 없는 이유로 RM 모델에 더 높은 점수를 부여한 일부 패턴을 다시 생성할 수 있습니다. ChatGPT는 RM 기능에서 KL 페널티를 사용하여 이를 패치합니다.

관련 읽기:

  • ChatGPT의 RLHF 방법에 대한 관련 논문: 인간 피드백으로 지침을 따르도록 언어 모델 훈련(https://arxiv.org/pdf/2203.02155.pdf), 실제로 자세히 설명되어 있습니다. OpenAI가 ChatGPT의 "형제 모델"이라고 부르는 InstructionGPT라는 모델입니다.
  • 인간 피드백(https://arxiv.org/pdf/2009.01325.pdf) 요약 학습은 텍스트 요약의 맥락에서 RLHF를 설명합니다.
  • PPO (https://arxiv.org/pdf/1707.06347.pdf): PPO 알고리즘 논문.
  • 인간 선호도에 따른 심층 강화 학습(https://arxiv.org/abs/1706.03741)
  • DeepMind는 Sparrow에서 OpenAI RLHF에 대한 대안을 제안했습니다(https://arxiv.org/pdf/2209.14375 .pdf ) 및 GopherCite(https://arxiv.org/abs/2203.11147) 파일을 참조하세요.

위 내용은 ChatGPT의 작동 원리를 간단한 용어로 설명하세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제