머리말
GPT 시리즈는 OpenAI의 사전 학습 기사 시리즈입니다. GPT의 전체 이름은 이름에서 알 수 있듯이 Transformer를 기본 모델로 사용하고 사전 학습을 사용하는 것입니다. - 보편적인 텍스트 모델을 얻기 위한 훈련 기술. 지금까지 발표된 논문으로는 텍스트 사전 훈련 GPT-1, GPT-2, GPT-3, 이미지 사전 훈련 iGPT 등이 있습니다. 아직 출시되지 않은 GPT-4는 멀티모달 모델이라는 소문이 돌고 있다. 최근 매우 인기 있는 ChatGPT와 올해 초에 발표된 [1]은 한 쌍의 자매 모델로 GPT-4 이전에 출시된 예열 모델이며 때로는 GPT3.5라고도 합니다. ChatGPT와 InstructGPT는 모델 구조와 훈련 방법 측면에서 완전히 일치합니다. 즉, 둘 다 모델 훈련을 안내하기 위해 지침 학습(Instruction Learning)과 인간 피드백의 강화 학습(RLHF)을 사용합니다. 데이터 수집 방식에는 차이가 있습니다. 따라서 ChatGPT를 이해하려면 먼저 InstructGPT를 이해해야 합니다.
1. 배경 지식
ChatGPT/InstructGPT를 소개하기 전에 먼저 그들이 의존하는 기본 알고리즘을 소개합니다.
1.1 GPT 시리즈
텍스트 사전 학습을 기반으로 하는 GPT-1[2], GPT-2[3], GPT-3[4]의 3세대 모델은 모두 Transformer를 핵심 구조로 사용합니다(그림 1 ) 차이점은 모델의 레이어 수와 단어 벡터의 길이 및 기타 하이퍼 매개변수에 대한 구체적인 내용이 표 1에 나와 있습니다.
그림 1: GPT 시리즈의 모델 구조(여기서 Trm은 Transformer 구조)
표 1: 이전 세대 GPT의 릴리스 시간, 매개변수 양 및 훈련 양
Model |
릴리스 시간 |
레이어 수 |
헤드 수 |
워드 벡터 길이 |
매개변수 양 |
사전 훈련 데이터의 양 |
GPT- 1 |
2018년 6월 |
12 |
12 |
768 |
1억 1700만 |
약 5GB |
GPT-2 |
2019년 2월 |
48
|
- |
1600 | 15억 |
40GB |
GPT-3 |
2020년 5월 |
96 |
96 |
12888
|
1,750억 |
45TB
|
GPT-1은 BERT보다 몇 달 일찍 태어났습니다. 이들은 모두 Transformer를 핵심 구조로 사용합니다. 차이점은 GPT-1이 생성적으로 왼쪽에서 오른쪽으로 사전 학습 작업을 구축한 다음 BERT와 같은 다운스트림 작업에 사용할 수 있다는 것입니다. . GPT-1은 당시 9개 NLP 작업에서 SOTA 결과를 달성했지만, GPT-1에서 사용하는 모델 크기와 데이터 양이 상대적으로 적어 GPT-2가 탄생하게 되었습니다.
GPT-1과 비교하여 GPT-2는 모델 구조에 큰 소란을 피우지 않고 더 많은 매개변수와 더 많은 훈련 데이터를 갖춘 모델만 사용했습니다(표 1). GPT-2의 가장 중요한 아이디어는 "모든 지도 학습은 비지도 언어 모델의 하위 집합이다"라는 아이디어입니다. 이 아이디어는 프롬프트 학습의 전신이기도 합니다. GPT-2도 처음 탄생했을 때 많은 센세이션을 일으켰다. 그것이 만들어낸 뉴스는 대부분의 인간을 속이고 진짜인 척하는 효과를 얻기에 충분했다. 당시에는 'AI 세계에서 가장 위험한 무기'라고도 불렸으며, 많은 포털에서는 GPT-2가 생성한 뉴스의 사용을 금지하라는 명령이 내려졌다.
GPT-3가 제안되었을 때 GPT-2를 훨씬 능가하는 효과와 더불어 더 많은 논의를 불러일으킨 것은 1,750억 개의 매개변수 수였습니다. 연구원들은 GPT-3가 일반적인 NLP 작업을 완료할 수 있을 뿐만 아니라 SQL 및 JavaScript와 같은 언어로 코드를 작성하고 간단한 수학 연산을 수행하는 데에도 GPT-3가 좋은 성능을 발휘한다는 사실을 예기치 않게 발견했습니다. GPT-3의 훈련은 메타러닝의 일종인 인컨텍스트 학습(In-Context Learning)을 사용한다. 제한된 데이터 세트에 적합하고 좋은 결과를 얻습니다.
위의 분석을 통해 성능 관점에서 GPT에는 두 가지 목표가 있음을 알 수 있습니다.
- 일반적인 NLP 작업에서 모델 성능을 향상합니다.
- 다른 비정형 NLP 작업(예: 코드)에서 모델 성능을 향상합니다. 쓰기), 수학 연산에 대한 일반화 능력).
또한, 사전 훈련된 모델이 탄생한 이후로 비판을 받아온 문제는 사전 훈련된 모델의 편향입니다. 사전 훈련된 모델은 방대한 데이터를 통해 매우 큰 매개변수 수준을 가진 모델을 훈련하기 때문에, 인위적인 규칙에 의해 완전히 제어되는 전문가 시스템에 비해 사전 훈련된 모델은 블랙박스와 같습니다. 사전 훈련된 모델이 인종차별, 성차별 등을 포함하는 위험한 콘텐츠를 생성하지 않을 것이라고 누구도 보장할 수 없습니다. 왜냐하면 수십 기가바이트 또는 심지어 수십 테라바이트에 달하는 훈련 데이터에는 거의 확실히 유사한 훈련 샘플이 포함되어 있기 때문입니다. 이것이 InstructGPT 및 ChatGPT의 동기입니다. 이 문서에서는 3H를 사용하여 최적화 목표를 요약합니다.
- 유용함(유용함)
- 신뢰할 수 있음(정직함);
- OpenAI의 GPT 시리즈 모델은 오픈 소스가 아니지만 모델에 대한 평가판 웹사이트를 제공하고 자격을 갖춘 학생들이 직접 사용해 볼 수 있습니다.
1.2 지시 학습(Instruct Learning) 및 프롬프트 학습(Prompt Learning) 학습
지시 학습은 Google Deepmind의 Quoc V.Le 팀이 2021년에 발표한 "Finetuned Language Models Are Zero-Shot Learners"라는 제목의 기사입니다. [5] 아이디어 제시 기사에서. 교수 학습과 신속한 학습의 목적은 언어 모델 자체에 대한 지식을 활용하는 것입니다. 차이점은 Prompt는 문장의 앞부분을 기반으로 문장의 뒷부분을 생성하거나 클로즈 채우기 등 언어 모델의 완성 능력을 자극한다는 것입니다. Instruct는 보다 명확한 지시를 통해 모델이 올바른 조치를 취할 수 있도록 하여 언어 모델의 이해 능력을 자극합니다. 우리는 다음 예를 통해 이 두 가지 다른 학습 방법을 이해할 수 있습니다.
학습 팁: 여자 친구를 위해 이 목걸이를 샀는데, 여자 친구가 아주 좋아합니다. 이 목걸이는 너무 ____입니다.
- 학습 지침: 이 문장의 감정을 결정하세요. 여자 친구를 위해 이 목걸이를 샀는데 그녀가 매우 좋아합니다. 옵션: A=좋음, B=평균, C=나쁨.
- 단서 학습의 장점은 여러 작업을 미세 조정한 후 다른 작업에도 제로 샷을 수행할 수 있다는 점입니다. 반면 단서 학습은 모두 하나의 작업을 목표로 합니다. 일반화 능력은 지시된 학습보다 열등합니다. 그림 2를 통해 미세 조정, 단서 학습, 지시 학습을 이해할 수 있습니다.
그림 2: 모델 미세 조정, 신속한 학습, 지시 학습 간의 유사점과 차이점
1.3 인공 피드백을 통한 강화 학습
훈련된 모델은 제어하기가 어렵기 때문에 모델은 훈련 세트의 분포에 적합한 것으로 간주할 수 있습니다. 그런 다음 생성 모델에 다시 피드백할 때 훈련 데이터의 분포는 생성된 콘텐츠의 품질에 영향을 미치는 가장 중요한 요소입니다. 때때로 우리는 생성된 데이터의 유용성, 신뢰성 및 무해성을 보장하기 위해 모델이 훈련 데이터의 영향을 받을 뿐만 아니라 인위적으로 제어할 수도 있기를 바랍니다. 정렬 문제는 논문에서 여러 번 언급되는데, 우리는 이를 모델의 출력 내용과 인간이 좋아하는 출력 내용의 정렬로 이해할 수 있습니다. 인간이 좋아하는 것은 생성된 콘텐츠의 유창성과 문법적 정확성뿐만 아니라 생성된 콘텐츠의 품질도 중요합니다. 유용성, 진정성, 무해성.
우리는 강화학습이 보상(Reward) 메커니즘을 통해 모델 훈련을 안내한다는 것을 알고 있습니다. 보상 메커니즘은 전통적인 모델 훈련 메커니즘의 손실 함수로 간주될 수 있습니다. 보상 계산은 손실 함수보다 더 유연하고 다양합니다(AlphaGO의 보상은 게임의 결과입니다). 이에 대한 비용은 보상 계산이 미분 불가능하므로 역전파에 직접 사용할 수 없다는 것입니다. 강화 학습의 아이디어는 모델 훈련을 달성하기 위해 다수의 보상 샘플을 통해 손실 함수를 맞추는 것입니다. 마찬가지로 인간의 피드백도 파생 불가능하므로 인위적인 피드백을 강화학습에 대한 보상으로 사용할 수도 있으며, 시대가 요구하는 대로 인위적인 피드백을 기반으로 한 강화학습이 등장했습니다.
RLHF는 2017년 Google에서 게시한 "Deep Reinforcement Learning from Human Preferences"[6]에서 추적할 수 있습니다. 수동 주석을 피드백으로 사용하여 시뮬레이션된 로봇 및 Atari 게임에서 강화 학습 성능을 향상합니다.
그림 3: 인공 피드백을 사용한 강화 학습의 기본 원리
InstructGPT/ChatGPT는 또한 강화 학습의 고전적인 알고리즘인 OpenAI가 제안한 최근 PPO(Proximal Policy Optimization)를 사용합니다[7]. PPO 알고리즘은 새로운 유형의 Policy Gradient 알고리즘입니다. Policy Gradient 알고리즘은 단계 크기에 매우 민감하지만 훈련 과정에서 이전 정책과 새 정책 간의 변경 차이가 있으면 적절한 단계 크기를 선택하기가 어렵습니다. 너무 크면 학습에 해로울 수 있습니다. PPO는 여러 훈련 단계에서 작은 배치 업데이트를 달성할 수 있는 새로운 목적 함수를 제안하여 정책 기울기 알고리즘에서 단계 크기를 결정하기 어려운 문제를 해결했습니다. 사실 TRPO도 이 아이디어를 해결하기 위해 설계되었지만 TRPO 알고리즘에 비해 PPO 알고리즘이 더 쉽게 해결됩니다.
2. InstructGPT/ChatGPT 원칙 해석
위의 기본 지식을 통해 InstructGPT 및 ChatGPT를 훨씬 쉽게 이해할 수 있습니다. 간단히 말해서 InstructGPT/ChatGPT는 모두 GPT-3의 네트워크 구조를 채택하고 지시 학습을 통해 훈련 샘플을 구성하여 예측 콘텐츠의 효과를 반영하는 보상 모델(RM)을 훈련합니다. 마지막으로 이 보상 모델의 점수는 다음과 같습니다. 강화 학습 모델을 안내하는 데 사용됩니다. InstructGPT/ChatGPT의 훈련 과정은 그림 4에 나와 있습니다.
그림 4: InstructGPT 계산 프로세스: (1) 감독된 미세 조정(SFT), (2) 보상 모델(RM) 교육, (3) PPO를 통한 보상 모델 기반 강화 학습.
그림 4에서 InstructGPT/ChatGPT의 훈련은 3단계로 나눌 수 있으며, 그 중 2단계와 3단계는 보상 모델과 반복적으로 최적화할 수 있는 강화 학습 SFT 모델입니다.
- 수집된 SFT 데이터 세트를 기반으로 GPT-3의 감독 미세 조정(Supervised FineTune, SFT)을 수행합니다.
- 수동으로 레이블이 지정된 비교 데이터를 수집하고 보상 모델(Reword Model, RM)을 교육합니다. 강화 학습 최적화 목표, PPO 알고리즘을 사용하여 SFT 모델을 미세 조정합니다.
- 그림 4에 따르면 InstructGPT/ChatGPT의 데이터 세트 수집과 모델 훈련의 두 가지 측면을 각각 소개합니다.
2.1 데이터 세트 수집
그림 4와 같이 InstructGPT/ChatGPT의 학습은 3단계로 나누어지며, 각 단계에 필요한 데이터는 조금씩 다릅니다. 아래에서 별도로 소개하겠습니다.
2.1.1 SFT 데이터 세트
SFT 데이터 세트는 첫 번째 단계에서 지도 모델을 교육하는 데 사용됩니다. 즉, 수집된 새로운 데이터를 사용하여 GPT-3 교육 방법에 따라 GPT-3을 미세 조정합니다. GPT-3는 프롬프트 학습을 기반으로 한 생성 모델이므로 SFT 데이터 세트도 프롬프트-응답 쌍으로 구성된 샘플입니다. SFT 데이터의 일부는 OpenAI의 PlayGround 사용자로부터 제공되고, 다른 일부는 OpenAI에 고용된 40명의 라벨러로부터 제공됩니다. 그리고 그들은 라벨러를 훈련시켰습니다. 이 데이터 세트에서 주석 작성자의 임무는 콘텐츠를 기반으로 지침을 작성하는 것이며 지침은 다음 세 가지 사항을 충족해야 합니다.
- 간단한 작업: 라벨러는 작업의 다양성을 보장하면서 간단한 작업을 제공합니다.
- Few-shot 작업: 라벨러는 명령과 여러 쿼리 대응 명령 쌍을 제공합니다. 그런 다음 라벨러가 이러한 사용 사례를 기반으로 지침을 작성하도록 합니다.
- 2.1.2 RM 데이터 세트
RM 데이터 세트는 2단계에서 보상 모델을 훈련하는 데 사용됩니다. 또한 InstructGPT/ChatGPT 훈련을 위한 보상 목표를 설정해야 합니다. 이 보상 목표는 차별화 가능해야 할 필요는 없지만, 모델이 생성해야 하는 것과 최대한 포괄적이고 현실적으로 일치해야 합니다. 당연히 수동 주석을 통해 이러한 보상을 제공할 수 있으며, 인간이 좋아하지 않는 콘텐츠를 생성하지 않도록 모델이 편향과 관련된 생성된 콘텐츠에 낮은 점수를 부여할 수 있습니다. InstructGPT/ChatGPT의 접근 방식은 먼저 모델이 후보 텍스트 배치를 생성하도록 한 다음 라벨러를 사용하여 생성된 데이터의 품질에 따라 생성된 콘텐츠를 정렬하는 것입니다.
2.1.3 PPO 데이터 세트
InstructGPT의 PPO 데이터는 주석이 추가되지 않으며 GPT-3 API 사용자로부터 제공됩니다. 다양한 사용자가 제공하는 다양한 유형의 생성 작업이 있으며 생성 작업(45.6%), QA(12.4%), 브레인스토밍(11.2%), 대화(8.4%) 등을 포함하는 비율이 가장 높습니다.
2.1.4 데이터 분석
InstructGPT/ChatGPT는 GPT-3을 기반으로 미세 조정되고 수동 주석이 포함되므로 전체 데이터 양이 크지 않습니다. 표 2는 세 가지 데이터의 소스와 그들의 데이터 양.
표 2: InstructGPT의 데이터 분포
문서의 부록 A에서는 데이터 분포에 대해 더 자세히 설명합니다. 여기에는 모델 효과에 영향을 미칠 수 있는 몇 가지 항목이 나열되어 있습니다.
데이터의 96% 위는 영어이고 중국어, 프랑스어, 스페인어 등 다른 20개 언어를 합산하면 4% 미만이 됩니다. 이로 인해 InstructGPT/ChatGPT가 다른 언어를 생성할 수는 있지만 효과는 훨씬 적습니다.
- 9가지 유형의 프롬프트가 있으며 대부분이 생성 작업이므로 모델에서 다루지 않는 작업 유형이 발생할 수 있습니다.
- 40명의 아웃소싱 직원은 미국 및 동남아시아 출신입니다. InstructGPT/ChatGPT의 목표는 상대적으로 집중된 분포와 소수의 인원으로 가치를 훈련하는 것입니다. 올바른 사전 훈련된 모델의 경우 해당 값은 이러한 40명의 아웃소싱 직원의 가치로 구성됩니다. 그리고 상대적으로 좁은 분포는 다른 지역이 더 우려하는 차별과 편견 문제를 야기할 수 있습니다.
- 또한 ChatGPT 블로그에서는 ChatGPT와 InstructGPT의 훈련 방법이 동일하다고 언급했지만 유일한 차이점은 데이터를 수집하지만 데이터 수집 세부 사항에 대한 정보는 더 이상 없습니다. ChatGPT가 대화 분야에서만 사용된다는 점을 고려하면 ChatGPT는 데이터 수집에 있어 두 가지 차이점이 있는 것 같습니다. 1. 대화 작업의 비율을 높입니다. 2. 프롬프트 방식을 Q&A 방식으로 전환합니다. 물론 이는 추측일 뿐이며, ChatGPT의 논문이나 소스코드 등 보다 자세한 정보가 공개되기 전까지는 더 정확한 설명은 알 수 없습니다.
2.2 훈련 과제
InstructGPT/ChatGPT에는 3단계 훈련 방법이 있다는 것을 방금 소개했습니다. 이 세 가지 교육 단계에는 SFT, RM 및 PPO의 세 가지 모델이 포함됩니다. 아래에서 자세히 소개하겠습니다.
2.2.1 감독된 미세 조정(SFT)
이 단계의 훈련은 GPT-3과 일치하며, 저자는 모델이 적절하게 과적합되도록 허용하면 다음 두 단계의 훈련에 도움이 된다는 것을 발견했습니다.
2.2.2 보상 모델(RM)
RM 훈련을 위한 데이터는 생성된 결과에 따라 정렬된 라벨러 형태이므로 회귀 모델이라고 볼 수 있습니다. RM 구조는 SFT 학습 모델의 최종 임베딩 레이어를 제거하는 모델입니다. 입력은 프롬프트와 응답이며 출력은 보상 값입니다. 구체적으로 각 프롬프트에 대해 InstructGPT/ChatGPT는 K개의 출력(4≤K≤9)을 무작위로 생성한 다음 출력 결과를 각 라벨러에 쌍으로 표시합니다. 즉, 각 프롬프트는 총 CK2 결과를 표시합니다. 그 중에서 더 나은 출력을 선택합니다. 훈련 중에 InstructGPT/ChatGPT는 각 프롬프트의 CK2 응답 쌍을 배치로 처리합니다. 이 프롬프트별 일괄 처리 훈련 방법은 샘플별 일괄 처리의 기존 방법보다 과대적합될 가능성이 적습니다. 왜냐하면 이 방법은 각 프롬프트가 모델에 입력되기 때문입니다. 한 번만.
보상 모델의 손실 함수는 수학식 1로 표현됩니다. 이 손실 함수의 목표는 라벨러가 선호하는 응답과 싫어하는 응답 간의 차이를 최대화하는 것입니다.
(1)손실(θ)=−1(K2)E(x,yw,yl)∼D[log(σ(rθ(x,yw)−rθ(x,yl)))]
여기서 rθ(x,y)는 매개변수 θ가 있는 보상 모델에서 프롬프트 x와 응답 y의 보상 값이고, yw는 라벨러가 선호하는 응답 결과이고, yl은 라벨러가 좋아하지 않는 응답 결과입니다. D는 전체 훈련 데이터 세트입니다.
2.2.3 강화 학습 모델(PPO)
강화 학습과 사전 훈련 모델은 지난 2년 동안 가장 인기 있는 AI 방향 중 두 가지입니다. 많은 과학 연구자들은 이전에 강화 학습이 사전 학습에 적합하지 않다고 말했습니다. - 모델을 훈련하는 것. 모델의 출력 내용을 통해 보상 메커니즘을 확립하기가 어렵기 때문입니다. InstructGPT/ChatGPT는 이 알고리즘의 가장 큰 혁신인 수동 주석을 결합하여 사전 훈련된 언어 모델에 강화 학습을 도입합니다.
표 2에서 볼 수 있듯이 PPO의 훈련 세트는 전적으로 API에서 나옵니다. 2단계에서 얻은 보상 모델을 사용하여 SFT 모델의 지속적인 교육을 안내합니다. 강화 학습은 훈련하기가 매우 어려운 경우가 많습니다. InstructGPT/ChatGPT는 훈련 과정에서 두 가지 문제에 직면했습니다.
- 문제 1: 모델이 업데이트됨에 따라 강화 학습 모델에서 생성된 데이터와 사용된 데이터 간에 차이가 있습니다. 보상 모델을 훈련하면 점점 더 커질 것입니다. 저자의 해결책은 PPO 모델의 출력과 SFT의 출력이 크게 다르지 않도록 손실 함수에 KL 페널티 항 βlog(πфRL(y∣x)/πSFT(y∣x))를 추가하는 것입니다.
- 문제 2: 훈련에 PPO 모델만 사용하면 일반 NLP 작업에서 모델 성능이 크게 저하됩니다. 저자의 해결책은 일반 언어 모델 대상 γEx∼Dpretrain [log(πфRL (x)))을 추가하는 것입니다. ], 이 변수는 논문에서 PPO-ptx라고 불립니다.
요약하자면, PPO의 훈련 목표는 공식 (2)입니다. (2) 목적 (ψ)=E(x,y)∼DπψRL[rθ(x,y)−βlog(πψRL(y∣x)/πSFT(y∣x))]+γEx∼Dpretrain [log( πψRL(x))]
3. InstructGPT/ChatGPT의 성능 분석
InstructGPT/ChatGPT의 효과가 매우 좋다는 것은 부인할 수 없는 사실입니다. 특히 수동 주석을 도입한 후에는 모델의 "값"이 정확합니다. 인간 행동 패턴의 수준과 '진정성'이 크게 향상되었습니다. 그렇다면 InstructGPT/ChatGPT의 기술 솔루션과 교육 방법만을 토대로 어떤 개선 효과를 가져올 수 있는지 분석할 수 있을까요?
3.1 장점
- InstructGPT/ChatGPT의 효과는 GPT-3보다 더 현실적입니다. GPT-3 자체에는 매우 강력한 일반화 및 생성 기능이 있고 InstructGPT/ChatGPT는 다양한 라벨러 작성 프롬프트 및 정렬을 도입하므로 이해하기 쉽습니다. 결과를 생성하고 GPT-3 위에 미세 조정되어 보상 모델을 훈련할 때 보다 현실적인 데이터에 대해 더 높은 보상을 받을 수 있습니다. 저자는 또한 TruthfulQA 데이터 세트에서 GPT-3과 성능을 비교했습니다. 실험 결과는 13억 개의 작은 크기 PPO-ptx도 GPT-3보다 성능이 더 우수하다는 것을 보여줍니다.
- InstructGPT/ChatGPT는 모델 무해성 측면에서 GPT-3보다 약간 더 무해합니다. 원칙은 위와 동일합니다. 그러나 저자는 InstructGPT가 차별, 편견 및 기타 데이터 세트를 크게 개선하지 못했다는 사실을 발견했습니다. 이는 GPT-3 자체가 매우 효과적인 모델이고, 유해, 차별, 편향 등의 조건으로 문제가 있는 샘플이 생성될 확률이 매우 낮기 때문입니다. 단순히 40명의 라벨러를 통해 데이터를 수집하고 라벨링하는 것만으로는 이러한 측면에서 모델을 완전히 최적화할 수 없기 때문에 모델 성능의 향상은 거의 없거나 눈에 띄지 않을 것입니다.
- InstructGPT/ChatGPT에는 강력한 코딩 기능이 있습니다. 우선 GPT-3에는 강력한 코딩 기능이 있으며 GPT-3 기반 API도 많은 양의 코딩 코드를 축적했습니다. 그리고 OpenAI 내부 직원 일부도 데이터 수집 작업에 참여했다. 코딩 및 수동 주석과 관련된 대량의 데이터를 통해 훈련된 InstructGPT/ChatGPT가 매우 강력한 코딩 기능을 가지고 있다는 것은 놀라운 일이 아닙니다.
3.2 단점
- InstructGPT/ChatGPT는 일반 NLP 작업에 대한 모델의 효과를 감소시킵니다. 손실 함수를 수정하면 문제가 완화될 수 있지만 이 문제는 완전히 해결되지 않았습니다.
- 때때로 InstructGPT/ChatGPT는 터무니없는 출력을 제공합니다. InstructGPT/ChatGPT는 인간의 피드백을 사용하지만 제한된 인적 자원으로 인해 제한됩니다. 모델에 가장 큰 영향을 미치는 것은 지도 언어 모델 작업으로, 인간은 교정 역할만 수행합니다. 따라서 제한된 수정 데이터 또는 지도 작업의 오해(사람이 원하는 것이 아닌 모델의 출력만 고려)로 인해 제한되어 비현실적인 콘텐츠가 생성될 가능성이 매우 높습니다. 학생과 마찬가지로 그를 지도하는 교사가 있지만 학생이 모든 지식 포인트를 배울 수 있는지는 확실하지 않습니다.
- 모델은 명령어에 매우 민감합니다. 이는 라벨러가 주석을 추가한 데이터의 양이 부족하기 때문일 수도 있습니다. 명령어의 수와 유형이 적절하게 훈련되지 않은 경우 명령어는 모델이 출력을 생성하는 유일한 단서이기 때문입니다. , 모델에 이 문제가 있을 수 있습니다.
- 모델의 단순한 개념에 대한 과도한 해석: 이는 라벨러가 생성된 콘텐츠를 비교할 때 긴 출력 콘텐츠에 더 높은 보상을 주는 경향이 있기 때문일 수 있습니다.
- 유해한 지침은 유해한 답변을 출력할 수 있습니다. 예를 들어 InstructGPT/ChatGPT는 사용자가 제안한 "AI 파괴 계획"에 대한 실행 계획도 제공합니다(그림 5). InstructGPT/ChatGPT는 라벨러가 작성한 지시 사항이 타당하고 값이 정확하다고 가정하고 사용자가 지시한 사항에 대해 더 자세한 판단을 내리지 않아 모델이 답변을 하게 되기 때문입니다. 어떤 입력에도. 이후의 보상 모델은 이러한 유형의 출력에 대해 더 낮은 보상 값을 제공할 수 있지만, 모델이 텍스트를 생성할 때 모델의 값뿐만 아니라 생성된 콘텐츠와 지침의 일치도 고려해야 합니다. 때로는 일부 값을 생성하는 데 문제가 있을 수도 있습니다.
그림 5: ChatGPT에서 작성한 인류 파괴 계획.
3.3 향후 작업
InstrcutGPT/ChatGPT의 기술 솔루션과 그 문제를 분석한 다음 InstrcutGPT/ChatGPT의 최적화 각도도 확인할 수 있습니다.
- 수동 주석의 비용 절감 및 효율성 증가: InstrcutGPT/ChatGPT는 40명으로 구성된 주석 팀을 고용하지만, 모델 성능으로 볼 때 이 40명 팀으로는 충분하지 않습니다. 인간이 어떻게 보다 효과적인 피드백 방법을 제공할 수 있는지, 그리고 인간의 성과와 모델 성과를 유기적이고 능숙하게 결합할 수 있는지는 매우 중요합니다.
- 명령을 일반화/수정하는 모델의 능력: 명령어는 모델이 출력을 생성하는 유일한 단서이며, 모델은 명령어에 크게 의존합니다. 명령어를 일반화하고 오류 명령어를 수정하는 능력은 매우 중요합니다. 모델 경험을 개선하는 작업입니다. 이를 통해 모델이 더 넓은 범위의 응용 시나리오를 가질 수 있을 뿐만 아니라 모델을 더욱 "스마트"하게 만듭니다.
- 일반적인 작업 성능 저하 방지: 인간 피드백을 사용하는 보다 합리적인 방법이나 보다 최첨단 모델 구조를 설계해야 할 수도 있습니다. InstrcutGPT/ChatGPT의 많은 문제는 더 많은 라벨러 라벨링 데이터를 제공하면 해결될 수 있지만 이는 일반 NLP 작업의 더 심각한 성능 저하로 이어질 것이므로 3H 및 일반 NLP 작업의 성능을 향상시키기 위한 솔루션이 필요합니다. 결과를 생성합니다.
3.4 InstrcutGPT/ChatGPT 인기 주제 답변
- ChatGPT의 출현으로 하위 수준 프로그래머가 직업을 잃게 될까요? ChatGPT의 원리와 생성된 콘텐츠가 인터넷에 유출된 것으로 판단하면 ChatGPT에서 생성된 코드 중 상당수가 올바르게 실행될 수 있습니다. 그러나 프로그래머의 임무는 코드를 작성하는 것뿐만 아니라 더 중요한 것은 문제에 대한 해결책을 찾는 것입니다. 따라서 ChatGPT는 프로그래머, 특히 고급 프로그래머를 대체하지 않습니다. 오히려 오늘날의 많은 코드 생성 도구처럼 프로그래머가 코드를 작성하는 데 매우 유용한 도구가 될 것입니다.
- Stack Overflow에서 임시 규칙인 ChatGPT 금지를 발표했습니다. ChatGPT는 본질적으로 텍스트 생성 모델이며, 코드 생성에 비해 가짜 텍스트 생성에 더 좋습니다. 더욱이, 텍스트 생성 모델에 의해 생성된 코드나 솔루션은 실행 가능함을 보장하지 않고 문제를 해결할 수 있지만 실제 텍스트인 것처럼 가장하여 이 문제를 쿼리하는 많은 사람들을 혼란스럽게 할 것입니다. 포럼의 품질을 유지하기 위해 Stack Overflow에서는 ChatGPT를 금지했으며 정리 작업도 진행 중입니다.
- 챗봇 ChatGPT는 "인류를 파괴하려는 계획"을 작성하도록 유도하고 AI 개발에서 어떤 문제에 주의해야 할까요? ChatGPT의 '인류멸망계획'은 예상치 못한 지시에 따라 대량의 데이터를 바탕으로 강제로 끼워맞추어 생성된 콘텐츠입니다. 내용이 매우 현실감 있고 표현이 매우 유창하지만 ChatGPT가 매우 강력한 생성 효과를 가지고 있음을 보여줄 뿐 ChatGPT가 인류를 파괴하려는 아이디어를 가지고 있다는 의미는 아닙니다. 의사결정 모델이 아닌 텍스트 생성 모델일 뿐이기 때문입니다.
4. 요약
많은 사람들의 알고리즘이 처음 탄생했을 때와 마찬가지로 ChatGPT는 유용성, 진정성 및 무해한 효과로 인해 업계와 AI에 대한 인간의 생각에서 광범위한 관심을 받았습니다. 하지만 알고리즘의 원리를 살펴본 결과, 업계에서 광고하는 것만큼 무섭지는 않다는 것을 알게 되었습니다. 오히려 우리는 기술적인 솔루션을 통해 많은 귀중한 것을 배울 수 있습니다. AI 세계에서 InstrcutGPT/ChatGPT의 가장 중요한 기여는 강화 학습과 사전 훈련 모델의 영리한 조합입니다. 또한 인위적인 피드백은 모델의 유용성, 신뢰성 및 무해성을 향상시킵니다. ChatGPT는 또한 대형 모델의 비용을 더욱 높였습니다. 이전에는 데이터 양과 모델 규모의 경쟁에 불과했지만 이제는 아웃소싱 비용까지 도입하여 개별 작업자를 더욱 어렵게 만들었습니다.
Reference
- ^Ouyang, Long, et al. "인간 피드백을 통해 지침을 따르도록 언어 모델 훈련." *arXiv 사전 인쇄 arXiv:2203.02155* https://arxiv.org/pdf/2203.02155.pdf
- ^Radford, A., Narasimhan, K., Salimans, T. 및 Sutskever, I., 2018. 생성적 사전 훈련을 통한 언어 이해 향상 https://www.cs.ubc.ca/~amuham01/LING530 /papers/radford2018improving.pdf
- ^Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. 및 Sutskever, I., 2019. 언어 모델은 비지도 멀티태스킹 학습자입니다. 블로그*, *1*(8), p.9. https://life-extension.github.io/2020/05/27/GPT%E6%8A%80%E6%9C%AF%E5%88% 9D%E6%8E%A2/언어-models.pdf
- ^Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan 외 “언어 모델은 소수의 학습자입니다. ." *arXiv 사전 인쇄 arXiv:2005.14165* (2020). https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
- ^Wei, Jason, et al. "미세 조정된 언어 모델은 0입니다. -shot learners." *arXiv 사전 인쇄 arXiv:2109.01652* (2021). https://arxiv.org/pdf/2109.01652.pdf
- ^Christiano, Paul F., et al. "인간 선호도로부터 심층 강화 학습." *신경 정보 처리 시스템의 발전* 30(2017). https://arxiv.org/pdf/1706.03741.pdf
- ^Schulman, John, et al. *arXiv 사전 인쇄 arXiv:1707.06347* (2017). https://arxiv.org/pdf/1707.06347.pdf
위 내용은 ChatGPT/InstructGPT 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!