>  기사  >  기술 주변기기  >  ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

WBOY
WBOY앞으로
2023-05-30 15:00:081200검색

0. 서문

OpenAI는 11월 30일 대중이 무료로 테스트할 수 있는 AI 챗봇인 ChatGPT를 출시했는데, 단 며칠 만에 전체 네트워크에서 인기를 얻었습니다.

헤드라인과 공개 계정에서 여러 프로모션을 한 것으로 볼 때, 코드 작성과 버그 확인뿐만 아니라 소설 쓰기, 게임 기획, 학교에 지원서 작성 등 모든 것이 가능한 것 같습니다.

과학(좋은) 학습(이상함)의 정신으로 ChatGPT를 테스트하고 확인하는 데 시간을 쏟았고 **ChatGPT가 왜 그렇게 "강한"지 정리했습니다**.

저자가 AI를 전문적으로 연구하지 않았고 에너지가 부족하기 때문에 짧은 시간 안에 AI-003과 같은 심층적인 기술 장은 더 이상 없을 것입니다.

이 글에는 기술적인 용어가 많이 나올 예정인데, 이해의 어려움을 줄이도록 노력하겠습니다.

그러나 저는 AI 전문가가 아니기 때문에 오류나 누락된 부분이 있으면 지적 부탁드립니다.

감사의 글: 원고를 검토해주신 두 전문가 X와 Z에게 매우 감사드리며, 특히 X의 전문성에 감사드립니다

1. GPT란 무엇인가요

Chat GPT에는 두 단어가 있는데 하나는 Chat​, 즉 대화를 나눌 수 있습니다. 또 다른 단어는 GPT입니다.

GPT​의 전체 이름은 Generative Pre-Trained Transformer(생성 사전 훈련 Transformer 모델)입니다.

Generative, Pre-Trained, Transformer 총 3개의 단어를 볼 수 있습니다.

어떤 독자들은 위에서 Transformer를 중국어로 번역하지 않았다는 것을 눈치챌 수도 있습니다.

트랜스포머는 기술적인 용어라서 어렵게 번역하면 트랜스포머입니다. 하지만 원래의 의미를 잃기 쉬우므로 번역하지 않는 것이 좋습니다.

Transformer에 대해서는 아래 3장에서 설명하겠습니다.

2. GPT의 기술 진화 연대표

GPT의 탄생부터 현재까지의 개발 내역은 다음과 같습니다.

2017년 6월 Google은 "Attention is all you need"라는 논문을 발표하여 Transformer 모델을 처음으로 제안했습니다. , 이는 GPT Base 개발의 기초가 되었습니다. 논문 주소: https://arxiv.org/abs/1706.03762

2018년 6월 OpenAI는 "Improving Language Understanding by Generative Pre-Training"(Improving Language Understanding through Generative Pre-Training)이라는 논문을 발표하고 최초로 GPT를 제안했습니다. 시간 모델(생성 사전 훈련). 논문 주소: https://paperswithcode.com/method/gpt.

2019년 2월 OpenAI는 "Language Models are Unsupervised Multitask Learners"(언어 모델은 비지도 멀티태스크 학습자여야 함)라는 논문을 발표하고 GPT-2 모델을 제안했습니다. 논문 주소: https://paperswithcode.com/method/gpt-2

2020년 5월 OpenAI는 "Language Models are Few-Shot Learners"(Language model should be aful-shot learner)라는 논문을 발표하고 GPT를 제안했습니다. -3 모델. 논문 주소: https://paperswithcode.com/method/gpt-3

2022년 2월 말, OpenAI는 "인간 피드백으로 지침을 따르도록 언어 모델 훈련"이라는 논문을 발표했습니다(인간 피드백 지침 흐름 사용). ) (언어 모델 훈련), Instruction GPT 모델 발표 논문 주소: https://arxiv.org/abs/2203.02155

2022년 11월 30일 OpenAI가 ChatGPT 모델을 출시하고 시험용으로 제공했습니다. 참고: AI. -001-인터넷에서 인기 있는 챗봇인 ChatGPT는 무엇을 할 수 있나요? 3. GPT의 T-Transformer(2017)

1절에서 Transformer에 적합한 번역이 없다고 했습니다

하지만 Transformer입니다. GPT(Generative Pre-Training Transformer)에서 가장 중요하고 기본적인 키워드

(참고: GPT의 Transformer는 Google 논문의 원래 Transformer에 비해 단순화되었으며 Decoder 부분만 유지됩니다. 이 기사의 섹션 4.3 참조)

3.1 . 좋은 사람이 되는 것이 더 중요한가요?

가장 중요한 것은 좋은 사람이 되는 것인가요?

독자 여러분, 맞나요?

둘 다 아닙니다. , 인간이 아니라 인간입니다.

글쎄, 조금 혼란스럽습니다. 인간의 용어로 이야기하고 확장해 보겠습니다. 의미론적으로는 기초와 측면에서 초점이 맞춰져 있습니다. 전제, 초점은 사람입니다

3.2. 미안해요, 당신은 좋은 사람이에요

확장해서 "미안해요, 당신은 좋은 사람이에요"는 어떻습니까?

의미론의 초점은 미안이 됩니다. 의미론은 여전히 ​​사람입니다

3.3. 다시 본론으로 돌아가서 Transfomer가 무엇인지

"10분 안에 Transfomer 이해하기"(https://zhuanlan.zhihu.com/p/82312421) 이해하시면 읽어보실 수 있습니다. 그렇다면 Transfomer에 대한 다음 내용을 무시하고 4장으로 바로 이동하세요. 제가 이해한 내용을 읽으시면 이전 세대 RNN 모델의 주요 결함

에 대한 참고가 될 수 있습니다.

Transformer 모델이 나오기 전에는 RNN(Recurrent Neural Network) 모델이 대표적이었습니다. NLP 모델 아키텍처는 RNN을 기반으로 하며 다른 변형 모델도 있습니다(이름을 무시하면 Transformer가 나온 후에는 더 이상 중요하지 않습니다). out) 그러나 모두 동일한 문제가 있어서 잘 해결되지 않습니다.

RNN의 기본 원리는 각 단어 벡터를 왼쪽에서 오른쪽으로 탐색하고(예: 개) 각 단어의 데이터를 유지하며 각 후속 단어는 이전 단어에 따라 달라집니다.

RNN의 핵심 이슈: 순차적이고 순차적으로 계산되어야 합니다. 책이나 기사에 많은 수의 단어가 포함되어 있고 순서 종속성으로 인해 병렬화할 수 없으므로 효율성이 매우 낮다고 상상할 수 있습니다.

이것은 모든 사람이 이해하기 쉽지 않을 수 있습니다. 예를 들어보겠습니다(간단한 이해, 실제 상황과 약간 다름):

RNN 루프에서 "당신은 좋은 사람입니다"라는 문장을 어떻게 계산합니까? "?

1), You and You are a good man​이 계산되고, $You​를 기준으로 결과 세트 $You

2), 그리고 Are와 You are a good man​이 $Are

를 계산하는 데 사용됩니다.

3) $You, $Are​를 기준으로 계속해서 $a

4)를 계산하고, $is, $good, $man​을 계산하여 최종적으로 You are a good man 계산의 모든 요소를 ​​완성합니다.

계산 과정이 하나씩, 순차 계산, 단일 파이프라인이고 후속 프로세스가 이전 프로세스에 따라 달라지므로 매우 느린 것을 볼 수 있습니다.

3.3.2, All in Attention of Transformer

앞서 언급한 바와 같이, 2017년 6월 구글은 "Attention is all you need"라는 논문을 발표하면서 GPT 개발의 기반이 된 Transformer 모델을 처음으로 제안했습니다. 논문 주소: https://arxiv.org/abs/1706.03762

Transfomer가 실제로 "All in Attention"을 옹호한다는 것은 "Attention is all you need"라는 제목에서 알 수 있습니다.

그럼 어텐션이란 무엇인가요?

"Attention is all you need"라는 논문에서 다음과 같이 정의를 볼 수 있습니다.

Self-Attention(때때로 내부 주의라고도 함)은 계산하기 위해 단일 시퀀스 힘 메커니즘의 다양한 위치를 연결하는 주의입니다. 시퀀스의 표현. Self-attention은 독해, 추상 요약, 담화 포함 및 작업 독립적인 문장 표현 학습과 같은 다양한 작업에 성공적으로 사용되었습니다. 이 벡터로 설명됩니다.

예를 들어 당신은 좋은 사람입니다​(당신은 좋은 사람입니다). AI가 당신의 주의 벡터를 분석할 때 다음과 같이 분석할 수 있습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분당신은 좋은 사람입니다라는 문장에서​ 주의 메커니즘을 통해 이후 계산 결과, 당신과 당신(자신) 사이의 관심 상관 확률은 가장 높습니다(0.7,70%). 결국 당신(당신)이 당신(당신)이므로 당신과 당신의 관심 벡터는 0.7

입니다. and man (사람)의 관심 상관관계는 (0.5, 50%)​, 당신(당신)은 사람(man)이므로 You와 man의 관심 벡터는 0.5입니다

You와 good(good)의 관심 상관관계 ) ​역시(0.4, 40%), 당신은 인간적으로는 여전히 좋은 사람입니다. 따라서 You,good의 attention 벡터 값은 0.4

You,are입니다. 벡터 값은 0.3이고 You,a의 벡터 값은 0.2입니다.

그래서 최종 You's attention 벡터 목록은 [0.7, 0.3, 0.2, 0.4, 0.5]입니다(이 문서에서는 예시만 해당).

3.4 논문의 Attention 및 Transformer에 대한 가치 설명

논문에서 Google의 Attention 및 Transformer에 대한 설명은 주로 기존 모델의 순차적 종속성을 강조합니다. Transformer 모델은 현재 재귀 모델을 대체하고 의존성을 줄일 수 있습니다. 입력과 출력의 순서.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

3.5 Transformer 메커니즘의 광범위한 중요성ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

Transformer의 출현 이후 이는 순환 신경망 RNN의 일련의 변형을 빠르게 대체하고 주류 모델의 기초가 되었습니다. 건축학.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분병렬성과 빠른 속도가 외부인과 일반 대중에게는 직관적이지 않은 기술적 특징이라면, 현재 ChatGPT의 충격적인 효과에서 이를 엿볼 수 있습니다.

**Transformer는 두 가지 주요 장애물을 근본적으로 해결하며 출시는 혁신적이고 혁명적입니다**.

3.5.1 수동으로 레이블이 지정된 데이터 세트 제거(수작업 횟수 대폭 감소)

이 주요 장애물은 다음과 같습니다. 과거 교육에서 딥 러닝 모델을 교육하려면 대규모- 스케일 레이블이 지정된 데이터 세트(데이터 세트). 이러한 데이터 세트에는 수동 주석이 필요하며 이는 비용이 매우 많이 듭니다.

예를 들어, 기계 학습에는 기계가 학습하고 훈련하는 데 많은 양의 교재와 많은 수의 입력 및 출력 샘플이 필요합니다. 이 교재는 맞춤형으로 제작되어야 하며 수요도 엄청납니다.

예를 들어 예전에는 교재를 편찬하는 데 10,000~100,000명의 교사가 필요했지만 이제는 수천 배나 줄어든 10명만 필요합니다.

이 문제를 해결하는 방법은 무엇입니까? 간단히 설명하자면 마스크 메커니즘을 사용하여 기존 기사의 세그먼트를 차단하고 AI가 공백을 채울 수 있도록 합니다.

기존 기사나 시의 한 문장을 차단하고 학습된 모델과 이전 문장을 기반으로 기계가 다음 문장을 채우도록 하는 것과 같습니다.

아래 그림과 같이:

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

이렇게 하면 이미 만들어진 많은 기사, 웹 페이지, Zhihu Q&A, Baidu Zhizhi 등이 자연 주석이 달린 데이터 세트입니다(한 단어, 매우 경제적).

3.5.2. 순차 계산을 병렬 계산으로 변환하여 훈련 시간을 대폭 단축합니다

수동 주석 외에도 섹션 3.3.1에서 언급한 RNN의 주요 결함은 순차 계산과 단일 파이프라인의 문제입니다.

Self-Attention 메커니즘과 마스크 메커니즘 및 알고리즘 최적화가 결합되어 기사, 문장 및 단락의 병렬 계산이 가능합니다.

당신은 좋은 사람입니다. 컴퓨터 수가 많을수록 Transformer가 얼마나 빠른지 확인할 수 있습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

4. )-2018 6 Month

다음은 ChatGPT의 전신인 GPT(1) 차례입니다.

2018년 6월, OpenAI는 GPT 모델(Generative Pre-Training)을 최초로 제안한 "Improving Language Understanding by Generative Pre-Training"(Improving Language Understanding through Generative Pre-Training)이라는 논문을 발표했습니다. 논문 주소: https://paperswithcode.com/method/gpt.

4.1. GPT 모델의 핵심 명제 1 - 사전 훈련

GPT 모델은 Transformer가 순차적 상관 관계와 종속성을 제거한다는 전제에 의존하고 건설적인 명제를 제시합니다.

먼저 대량의 비지도 사전 훈련을 통과합니다.

참고: 비지도는 사람의 개입이나 레이블이 지정된 데이터 세트가 필요하지 않은 사전 훈련을 의미합니다(교재와 교사가 필요하지 않음).

그런 다음 소량의 감독 미세 조정을 사용하여 이해 능력을 교정합니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

4.1.1 예를 들어

예를 들어 아이를 두 단계로 훈련시키는 것과 같습니다:

1) 대규모 자율 학습 단계(천만 권의 자율 학습, 아니오) Teacher): AI에 충분한 컴퓨팅 성능을 제공하고 Attention 메커니즘을 기반으로 AI가 스스로 학습하도록 합니다.

2) 소규모 지도 단계(10권 가르치기): 10권을 바탕으로 '셋'

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

4.1.2 논문의 첫 장에 대한 설명

소위 명확한 의미, 서두부터 GPT 모델의 지도 학습 설명과 데이터 수동 주석도 볼 수 있습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

4.2. GPT 모델 2-Generative

의 핵심 제안에는 판별 모델과 생성 모델이라는 두 가지 차이점이 있습니다.

GPT(Generative Pre-Training)는 이름에서 알 수 있듯이 생성 모델을 사용합니다.

생성 모델은 정확한 샘플(수동으로 레이블이 지정된 유효한 데이터 세트)에 더 적합한 판별 모델보다 빅 데이터 학습에 더 적합합니다. 사전 훈련을 더 잘 구현하려면 생성 모델이 더 적합합니다.

참고: 이 섹션의 초점은 위 문장에 있습니다(빅 데이터 학습에 더 적합함). 이해하기 복잡하다고 생각되면 이 섹션의 나머지 부분을 읽지 마세요.

위키 생성 모델 자료(https://en.wikisensitivity.org/wiki/Generative_model)에는 둘 사이의 차이점을 설명하기 위해 다음 예가 제공됩니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

보기만 하기는 쉽지 않을 수 있습니다. 위의 내용을 이해하고 여기에 보충 설명이 있습니다.

위의 의미는 4개의 샘플이 있다고 가정할 때입니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

그러면 생성 모델의 특징은 확률이 그룹화되지 않는다는 점입니다(샘플 내 확률을 계산하여 샘플의 합으로 나눕니다). 예를 들어 위 표에서는 총 1 x=1, y=0이므로 x=1로 간주하고, y=0일 확률은 1/4(총 샘플 수는 4개)입니다.

마찬가지로 총 2개의 x=2, y=0이 있고 x=2, y=0의 확률은 2/4입니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

차별 모델의 특징은* *확률 그룹화 계산(그룹 내 확률을 계산하고 그룹 내 합계로 나눕니다)**. 위의 표를 예로 들면, x=1, y=0에 대해서는 총 1개의 샘플이 있고, x=1인 그룹에 대해서는 총 2개의 샘플이 있으므로 확률은 1/2이다.

마찬가지로 x=2, y=0이 총 2개 있습니다. 그리고 동시에 x=2인 그룹에는 2개의 샘플이 있으므로 x=2, y=0일 확률은 2/2=1(즉, 100%)입니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

4.3 원본 Transfomer 대비 GPT 모델 개선

다음은 GPT의 모델 설명입니다. GPT는 12레이어 디코더 전용 디코더(디코더 전용, 인코더 없음)를 학습하여 모델을 더 단순하게 만듭니다.

참고 1: Google 논문 "Attention is all you need"의 원래 Transformer에는 인코더와 디코더의 두 부분이 포함되어 있습니다. 전자(인코더)는 번역에 해당하고 후자(디코더)는 생성에 해당합니다.

참고 2: Google은 인코더를 핵심으로 하는 BERT(BiDirectional Encoder Representations from Transformers, BiDirectional Encoder Representations from Transformers) 모델을 구축했습니다. 내부의 양방향은 BERT가 상위 및 하위 컨텍스트를 모두 사용하여 단어를 예측하므로 BERT가 자연어 이해 작업(NLU)을 더 잘 처리한다는 것을 의미합니다.

참고 3: 이 섹션의 요점은 GPT가 Transformer를 기반으로 하지만 Transformer에 비해 모델이 단순화되고 인코더가 제거되고 디코더만 유지된다는 것입니다. 동시에 BERT의 컨텍스트 예측(양방향)과 비교하여 GPT는 단어의 컨텍스트만을 사용하여 단어를 예측(단방향)하여 모델을 더 간단하고 빠르게 계산하며 극단적인 생성에 더 적합하도록 옹호합니다. 따라서 GPT가 처리 능력이 더 뛰어납니다. 자연어 생성 작업(NLG)은 우리가 AI-001에서 발견한 것입니다. 인터넷에서 인기 있는 챗봇인 ChatGPT가 할 수 있는 작업은 "작문"을 작성하고 거짓말을 만드는 데 매우 능숙합니다. . 이 단락을 이해한 후에는 이 섹션의 나머지 부분을 읽을 필요가 없습니다.

참고 4: 인간 시뮬레이션의 관점에서 볼 때 GPT의 메커니즘은 실제 인간과 더 유사합니다. 인간도 위(앞서 말한 것)를 바탕으로 다음(즉, 다음)을 추론하기 때문입니다. .. 틀린 말이라 할지라도 나쁜 말은 사람의 마음에 상처를 주고, 그 말을 통해서만 치유되고 설명될 수 있습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

4.3.1 아키텍처 다이어그램 비교

다음 그림은 Transformer 모델 아키텍처와 GPT 모델 아키텍처의 비교를 보여줍니다("Attention is all you need" 및 "Improving Language Understanding by"). Generative Pre-Training" 각각 )

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

4.4. GPT 모델의 학습 규모

앞서 언급했듯이 생성 모델은 대규모 데이터 세트의 사전 학습에 더 도움이 되므로 GPT에서는 얼마나 큰 데이터 세트를 사용합니까?

논문에서 언급했듯이 7,000권 이상의 미출판 도서가 포함된 BooksCorpus라는 데이터 세트를 사용합니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

5, GPT-2 (2019년 2월)

2019년 2월 OpenAI는 "Language Models are Unsupervised Multitask Learners"(언어 모델은 비지도 멀티태스크 학습자여야 함)라는 논문을 발표하여 GPT -2 모델을 제안했습니다. 논문 주소: https://paperswithcode.com/method/gpt-2

5.1 GPT-1과 비교한 GPT-2 모델의 핵심 변경

앞서 언급했듯이 GPT의 핵심 제안에는 Generative(생성), 사전 훈련. 동시에 GPT 교육에는 두 단계가 있습니다:

1) 대규모 자율 학습 단계(사전 교육, 천만 권의 자율 학습, 교사 없음): AI에 충분한 컴퓨팅 성능을 제공하고 Attention 메커니즘을 기반으로 스스로 학습하도록 하세요.

2) 소규모 지도 단계(미세 조정, 10권 가르치기): 10권의 책을 바탕으로 "3"에 대한 추론을 도출합니다.

GPT-2가 되면 OpenAI는 감독된 미세 조정을 제공합니다- 튜닝단계를 직접 제거하고 비지도모델로 전환하였습니다.

동시에 **멀티태스크(multitask)**라는 키워드가 추가되었는데, 이는 논문 제목 "Language Models are Unsupervised Multitask Learners"(언어 모델은 비지도 멀티태스킹 학습자여야 함)에서도 알 수 있습니다. ) .

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

5.2. 왜 그런 조정이 이루어졌나요? 제로샷 문제를 해결하려고 합니다

GPT-2는 왜 이렇게 조정된 걸까요? 논문의 설명으로 볼 때 제로샷(제로샷 학습 문제)**을 해결하려고 하는 것입니다.

제로샷(제로샷 학습)의 문제점은 무엇인가요? 간단히 말해서 추론 능력으로 이해될 수 있다. 즉, 알 수 없는 사물에 직면했을 때 AI가 자동으로 이를 인식할 수 있다는 것, 즉 추론 능력이 있다는 뜻이다.

예를 들어, 동물원에 가기 전에, 팬더처럼 흑백이고 검은색과 흰색 줄무늬가 있는 말 같은 동물이 얼룩말이라고 아이들에게 알려줬어요. 얼룩말.

5.3. 멀티태스킹을 이해하는 방법?

기존 ML에서는 모델을 교육하려면 특수 AI를 교육하기 위한 특수 주석이 달린 데이터 세트가 필요합니다.

예를 들어 개 이미지를 인식할 수 있는 로봇을 훈련시키려면 개라는 라벨이 붙은 이미지 100만 개가 필요합니다. 훈련 후에는 AI가 개를 인식할 수 있게 됩니다. 이 AI는 단일 작업이라고도 불리는 전용 AI입니다.

멀티태스크​ 멀티태스크는 전용 AI를 훈련시키는 것이 아니라, 엄청난 양의 데이터를 공급한 후 모든 작업을 완료하는 것을 옹호합니다.

5.4, GPT-2 데이터 및 훈련 규모

데이터 세트가 웹페이지 800만개, 크기 40GB로 늘어났습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

모델 자체도 최대 15억 개의 매개변수에 도달하며 Transformer 스택은 48개 레이어에 도달합니다. 간단한 비유는 15억 개의 인간 뉴런을 시뮬레이션하는 것과 같습니다(일례일 뿐 완전히 동일하지는 않음).

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

6, GPT-3 (2020년 5월)

2020년 5월 OpenAI는 "Language Models are Few-Shot Learners"(언어 모델은 Few-Shot Learners여야 함)라는 논문을 발표하고 GPT-3을 제안했습니다. 3 모델. 논문 주소: https://paperswithcode.com/method/gpt-3

6.1. GPT-3의 획기적인 효과 진행

효과는 다음과 같이 논문에 설명되어 있습니다.

1. GPT-3의 번역과 문제점은 강력하게 입증됩니다. 단어를 해독하고 문장에서 새로운 단어를 사용하거나 3자리 계산을 수행하는 동시에 대답 및 클로즈 능력을 발휘합니다.

2. GPT-3는 인간이 더 이상 구별할 수 없는 뉴스 기사 샘플을 생성할 수 있습니다.

아래와 같습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

6.2 GPT-2와 비교한 GPT-3의 핵심 변경 사항

앞서 언급했듯이 GPT-2는 비지도, 제로 샷(Zero-Shot Learning)을 추구하고 있지만, 실제로 GPT-2에서도 OpenAI는 논문에서 결과가 기대에 미치지 못했다고 밝혔습니다. 이는 분명히 조정이 필요하므로 GPT-3는 관련 조정을 수행했습니다. "Language Models are Few-Shot Learners"(언어 모델은 Few-Shot Learners여야 함)라는 제목에서도 알 수 있습니다.

솔직히 말하면 제로샷(제로샷 학습)은 신뢰할 수 없습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

또한 훈련 과정에서 Zero-shot 학습은 One-shot(단일 샘플 학습), Few-shot(소수의 샘플 학습) 및 미세 조정 인공 미세 조정 방법을 비교합니다. .

마지막으로 대부분의 경우 퓨샷(소수의 샘플)의 전반적인 성능은 무감독 모드에서 최적이지만 미세 조정 모드보다 약간 약합니다.

다음 논문의 표와 그래픽을 보면 퓨샷의 전반적인 성능이 미세 조정보다 약하다는 것도 알 수 있습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

6.3, GPT-3 훈련 규모

GPT-3은 필터링 전 45TB의 압축 텍스트를 사용하며 필터링 후에도 여전히 570GB의 대용량 데이터가 있습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

모델 매개변수 측면에서 GPT-2의 15억에서 1,750억으로 증가했으며, Transformer Layer도 48에서 96으로 110배 이상 증가했습니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

7. Instruction GPT (2022년 2월)

2022년 2월 말, OpenAI는 "인간 피드백으로 지시를 따르도록 언어 모델 훈련"(인간 피드백 지시 흐름을 사용하여 언어 모델 훈련)이라는 논문을 발표했습니다. GPT 모델. 논문 주소: https://arxiv.org/abs/2203.02155

7.1 GPT-3과 비교한 Instruction GPT의 핵심 변경

Instruction GPT는 GPT-3을 기반으로 한 향상된 최적화 라운드이므로 GPT라고도 합니다. - 3.5.

앞서 언급했듯이 GPT-3​는 비지도 학습을 주장하면서 퓨샷 퓨샷 학습을 옹호합니다.

하지만 실제로는 미세 조정 감독 방식보다 퓨샷의 효과가 확실히 더 나쁩니다.

그럼 우리는 어떻게 해야 할까요? 미세 조정을 감독하기 위해 미세 조정으로 돌아가시겠습니까? 당연히 아니.

OpenAI가 새로운 답을 제시합니다. GPT-3를 기반으로 수동 피드백(RHLF)을 기반으로 보상 모델(보상 모델)을 학습한 다음 보상 모델(보상 모델, RM)을 사용하여 학습 모델을 학습합니다.

맙소사, 난 너무 어려. . 이제는 기계(AI)를 활용하여 기계(AI)를 훈련시키는 시대입니다. .

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

7.2 GPT 교육의 핵심 훈련 단계

GPT 교육은 총 3단계로 구성됩니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

1) GPT-3에서 **미세 조정(감독 미세 조정)**을 수행합니다. .

2) 그런 다음 보상 모델(RM)을 ​​훈련하고

3) 마지막으로 강화 학습을 통해 SFT를 최적화합니다

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

2단계와 3단계가 완전히 가능하다는 점은 주목할 가치가 있습니다. 반복 및 반복이 수행됩니다. 여러 번.

7.3 Instruction GPT의 훈련 규모

기본 데이터 규모는 GPT-3과 동일하지만(섹션 6.3 참조) 3단계가 추가됩니다(감독 미세 조정 SFT, 보상 모델 훈련 보상 모델, 강화). 학습 최적화 RPO) .

아래 사진의 라벨러는 OpenAI에서 고용 또는 관련되어 있는 **라벨러**를 의미합니다.

그리고 고객은 GPT-3 API를 호출하는 사용자(예: 다른 기계 학습 연구원, 프로그래머 등)를 의미합니다.

이번 ChatGPT 출시 이후에는 사용자가 100만명을 넘었다고 하며, 우리 각자가 고객입니다. 따라서 향후 GPT-4가 출시되면 고객 규모가 더욱 커질 것으로 예상됩니다. 최소 100만은 되어야 합니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

8. ChatGPT(2022년 11월)

2022년 11월 30일 OpenAI는 ChatGPT 모델을 출시하고 평가판을 제공하여 전체 네트워크에서 인기를 얻었습니다.

참조: AI-001 - 인기 있는 챗봇 ChatGPT가 할 수 있는 작업

8.1, ChatGPT 및 Instruction GPT

ChatGPT와 InstructionGPT는 본질적으로 InstructionGPT를 기반으로 채팅을 추가한 것뿐입니다. 보다 효과적인 주석이 달린 데이터를 생성하기 위해 테스트 및 교육을 위해 대중에게 공개됩니다.

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

8.2. [중요, 아래 추천 영상 시청을 권장합니다] 인간의 직관적 이해의 관점에서 ChatGPT의 핵심 원리를 보완해 드립니다

"ChatGPT는 어떻게 만들어지나요?" 영상을 참고해주세요. "라고 국립대만대학교 리훙이 교수가 말했다. GPT 사회화 과정'에 대해 잘 설명되어 있습니다.

https://www.inside.com.tw/article/30032-chatgpt-possible-4-steps-training

GPT는 단방향 생성, 즉 위 내용을 바탕으로 다음과 같이 생성됩니다.

예를 들어 다음 문장이 있습니다.

GPT 모델에 입력 안녕하세요, 다음 단어는 당신을 데리러 오는 것입니다, 그렇죠? 당신은 잘 생겼어요? 너 키가 너무 커? 당신은 얼마나 아름답습니까? 잠깐만요, GPT는 확률을 계산하고 가장 높은 확률을 답으로 제공합니다.

그리고 명령(또는 프롬프트)이 주어지면 ChatGPT는 위(프롬프트)를 기반으로 다음(답변)도 계산하고 동시에 위의 답변 중 가장 높은 확률을 선택합니다.

아래와 같이:

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분

9. 요약

요약:

1) 2017년 Google은 "Attention is all you need"라는 논문을 발표하고 GPT의 초석을 다진 Transformer 모델을 제안했습니다.

2) 2018년 6월, OpenAI는 BooksCorpus 대규모 데이터 세트(7000권)를 통해 훈련된 GPT 생성 사전 훈련 모델을 출시했으며, 대규모, 비지도 사전 훈련(pre-training) + 감독 벌금을 옹호했습니다. -모델 구축을 위한 튜닝.

3) 2019년 2월 OpenAI는 GPT-2 모델을 출시하여 훈련 규모를 더욱 확장했습니다(최대 15억 개의 매개변수가 있는 40GB 데이터 세트 사용). 동시에 아이디어 측면에서는 미세 조정 과정을 제거하고 제로샷(제로샷 학습)과 멀티태스킹(멀티태스크)을 강조한다. 하지만 결국 제로샷 효과는 미세 조정에 비해 현저히 떨어지게 됩니다.

4) 2020년 5월 OpenAI는 **훈련 규모(570GB 데이터 세트 및 1,750억 개의 매개변수 사용)**를 더욱 확장한 GPT-3 모델을 출시했습니다. 동시에 퓨샷(소수의 샘플) 학습 모델을 채택하여 우수한 결과를 얻습니다. 물론 실험에서는 미세 조정을 동시에 비교했는데, 미세 조정보다 효과가 약간 나빴습니다.

5) 2022년 2월 OpenAI는 Instruction GPT 모델을 출시했습니다. 이번에는 주로 GPT-3 기반의 Supervised Fine-tuning 링크를 추가했으며, 이를 기반으로 RM 훈련 모델인 Reward Model 보상을 추가했습니다. 학습 모델에서 RPO 강화 학습 최적화를 수행하는 데 사용됩니다.

6), 2022년 11월 30일, OpenAI는 여러 번의 반복 훈련을 거쳐 InstructionGPT로 이해할 수 있는 ChatGPT 모델을 출시했고, 이를 기반으로 Chat 대화 기능이 추가되었습니다.

10. 미래(GPT-4 또는 ?)

다양한 지표로 보면 2023년에 GPT-4가 공개될 수도 있다? 얼마나 강력할까요?

동시에 ChatGPT의 효과는 업계에서 많은 관심을 끌었습니다. 저는 앞으로 더 많은 GPT 기반 훈련 모델과 그 응용이 번성할 것이라고 믿습니다.

미래가 어떻게 될지 기다려 보겠습니다.

몇 가지 참고자료

ai.googleblog.com/2017/08/transformer-novel-neural-network.html

https://arxiv.org/abs/1706.03762

https://paperswithcode.com/method / gpt

https://paperswithcode.com/method/gpt-2

https://paperswithcode.com/method/gpt-3

https://arxiv.org/abs/2203.02155

https:// /zhuanlan.zhihu.com/p/464520503

https://zhuanlan.zhihu.com/p/82312421

https://cloud.tencent.com/developer/article/1656975

https://cloud. tencent.com/developer/article/1848106

https://zhuanlan.zhihu.com/p/353423931

https://zhuanlan.zhihu.com/p/353350370

https://juejin.cn/post /6969394206414471175

https://zhuanlan.zhihu.com/p/266202548

https://en.wikisensitivity.org/wiki/Generative_model

https://zhuanlan.zhihu.com/p/67119176

https ://zhuanlan.zhihu.com/p/365554706

https://cloud.tencent.com/developer/article/1877406

https://zhuanlan.zhihu.com/p/34656727

https :// zhuanlan.zhihu.com/p/590311003

위 내용은 ChatGPT의 기술적 논리와 진화(전생, 현생)를 이해하는 10분의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제