>기술 주변기기 >일체 포함 >GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

WBOY
WBOY앞으로
2023-04-30 23:34:10659검색

최근에는 대형 언어 모델 무기 전쟁이 친구들 사이에서 대부분의 공간을 차지했습니다. 이 모델이 무엇을 할 수 있는지, 그리고 이들의 상업적 가치가 무엇인지 논의하는 기사가 많이 있었습니다. 하지만 수년간 인공지능 분야에 푹 빠져 있던 젊은 연구자로서 저는 이 군비 경쟁의 이면에 있는 기술적 원리와 이러한 모델이 어떻게 인류에게 이익이 되도록 설계되는지에 대해 더 관심을 갖고 있습니다. 이러한 모델이 어떻게 돈을 벌 수 있는지, 더 많은 사람들에게 혜택을 제공하도록 설계될 수 있는지를 살펴보는 것보다, 제가 탐구하고 싶은 것은 이러한 현상의 원인과 AI가 인간을 대체하기 전에 "AI로 대체"를 달성하기 위해 우리 연구자들이 할 수 있는 일이 무엇인지입니다. .그러면 명예롭게 은퇴하세요”라고 말하고 이에 대해 뭔가를 하세요.

3년 전, GPT-3가 기술계에 소란을 일으켰을 때, 나는 GPT 뒤에 숨은 대가족을 역사적 방식으로 분석해 보았습니다. GPT의 기술적 맥락을 연대순으로 정리하고(그림 1), GPT 성공의 기술적 원리를 설명하려고 노력했습니다. 올해는 GPT-3의 둘째 아들인 ChatGPT가 좀 더 똑똑해진 것 같고, 채팅을 통해 사람들과 소통할 수 있게 되면서 자연어 처리 분야의 최신 발전을 더 많은 사람들이 알 수 있게 됐다. 이 역사적인 순간에 우리는 AI 역사학자로서 최근 몇 년간 무슨 일이 일어났는지 되돌아보는 시간을 가져야 할 것입니다. 첫 번째 글은 GPT-3를 출발점으로 삼았기에 이 시리즈는 사실 포스트 GPT 시대의 기록(포스트 GPT 책)이다. Transformer에 추가되었으므로 이 문서의 이름은 Transformer 제품군입니다.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 1. GPT 오래된 계보

이전 검토

Transformer 제품군을 공식적으로 소개하기 전에 그림 1에 따라 과거에 어떤 일이 일어났는지 검토해 보겠습니다. Word Embedding [1,2]에서 시작하여 벡터(숫자 문자열)는 이상하지만 효과적인 방식으로 텍스트의 의미를 포함합니다. 그림 2는 이 표현을 보여줍니다. 숫자(왕 - 남자 + 여자 =) 여왕). 이를 바탕으로 이 거대한 NLP(자연어 처리) 제품군이 탄생했습니다.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 2. Word2Vec 다이어그램(King - Man + Woman = Queen)

이후 그의 장남 ELMo[3]는 다음 두 문장과 같이 맥락의 중요성을 발견했습니다.

“오! 내가 제일 좋아하는 피자를 샀어, 정말 사랑해!”

“아, 내가 제일 좋아하는 피자를 샀어! 정말 사랑해요"라는 말은 분명 다른 뜻이다. ELMo는 "모델에 단어 문자열을 제공한 후 모델에 다음 단어와 이전 단어(컨텍스트)를 예측하도록 요청"함으로써 이 문제를 성공적으로 해결했습니다.

동시에, Word Embedding의 먼 사촌은 또 다른 문제를 발견했습니다. 사람들이 문장을 이해할 때 어떤 단어에 집중할 것이라는 분명한 현상은 우리가 모국어로 읽고 있다는 것입니다. 그 구절을 이해할 때 우리의 관심이 거기에 집중되지 않기 때문에 쉽게 무시됩니다. 그래서 그는 Attention 메커니즘을 제안했지만[4], 이때 Attention 메커니즘은 매우 초기 단계이고 단독으로 작동할 수 없어 RNN, LSTM과 같은 시퀀스 모델에만 첨부할 수 있었습니다. 그림 3은 Attention 메커니즘과 RNN의 결합 과정을 보여주며 Attention 자체가 단독으로 작동할 수 없는 이유를 설명합니다. NLP 모델의 작동 과정에 대해 간략하게 설명하겠습니다. 먼저 "I love you China"라는 문장이 있습니다. 이는 그림 3에서 x_1-x_5로 변환될 수 있는 5개의 문자입니다. 그림 3에서 단어 임베딩(숫자 문자열)은 h_1-h_5이고, 최종적으로 "I love China"(번역 작업)와 같은 출력이 됩니다. 그림 3 . 그림 3의 나머지 부분은 그림 3의 A인 주의 메커니즘입니다. 이는 각 h에 가중치를 할당하는 것과 동일하므로 현재 단어를 변환할 때 어떤 단어가 더 중요한지 알 수 있습니다. 구체적인 내용은 제가 원래 쓴 글(word2vec로 시작하여 GPT의 거대한 가계도에 대해 이야기함)을 참조하세요. 여기에서 디지털 표현은 전체 작업의 기초라는 것을 알 수 있으며, 이것이 바로 Attention 메커니즘이 단독으로 작동할 수 없는 이유입니다.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 3. 초기 사진 - Attention과 RNN의 강력한 조합 (출처: Attention for RNN Seq2Seq Models(1.25x 속도 권장) - YouTube)

이때 자랑스러운 직통 라인으로 왕실 친척 중 Transformer는 이러한 타인에 대한 의존성을 인식하지 못합니다. "Attention is all you need"(주의 메커니즘만 있으면 충분합니다)[5]라는 논문에서 Transformer는 다음과 같은 독립적인 방법을 제안했습니다. 즉, 어텐션 메커니즘만을 사용하여 일련의 숫자를 생성할 수 있는 "self-attention 메커니즘"이 됩니다. 우리는 이러한 변화를 설명하기 위해 전통 한의학을 사용합니다. 초기 Attention 메커니즘은 각 물질의 복용량이라고 할 수 있지만 최종적으로 약을 사러 가면 약은 RNN이나 LSTM과 같은 약 선택기의 손에 있습니다. 물론 우리가 처방하는 처방도 그래야 합니다. 약국(RNN, LSTM에는 어떤 약이 있나요?)을 기반으로 합니다. Transformer가 하는 일은 약을 수집할 권리를 되찾은 다음(값 매트릭스 추가) 약 처방 방식을 변경하는 것(키 및 쿼리 매트릭스 추가)입니다. 이때, Source는 한약방의 보관함이라고 볼 수 있는데, 보관함에 들어있는 약품은 주소 Key(약품명)와 Value(약물)로 구성되어 있습니다. (처방전), 목적은 보관함에서 해당 값(약)을 꺼내는 것인데, 이것이 바로 Attention 값입니다. 주소 지정은 쿼리와 저장 상자에 있는 키 요소의 주소 간의 유사성을 비교하여 수행됩니다. 이를 소프트 주소 지정이라고 하는 이유는 저장 상자에서 하나의 약물을 찾을 수 있을 뿐만 아니라 저장 상자에서도 찾을 수 있다는 의미입니다. 검색된 콘텐츠의 중요도(금액)는 Query와 Key 간의 유사성을 기준으로 결정됩니다. 그런 다음 Value에 가중치가 부여되고 합산되어 최종 Value(한 쌍)가 됩니다. 한의학)을 검색할 수 있으며 이는 주의 가치입니다. 따라서 많은 연구자들은 Attention 메커니즘을 소프트 어드레싱의 특별한 경우로 간주하며, 이 또한 매우 합리적입니다[6].

이때부터 Transformer는 공식적으로 가족을 번영으로 이끌기 시작했습니다.

트랜스포머 성공

사실 그림 1을 보면 트랜스포머가 할아버지 집안에서 가장 번성한 계열이라는 것을 알 수 있는데, 이는 당시 "관심만 있으면 된다"는 화두가 참으로 잘 맞았음을 반증하기도 한다. 설립되었습니다. 방금 그가 제안한 self-attention 메커니즘이 무엇인지에 대해 이야기했지만, 이전 기사(word2vec로 시작하여 GPT의 거대한 가계도에 대해 이야기함)에서는 이미 Transformer의 진화 과정에 대해 자세히 설명했습니다. 학생들은 트랜스포머 아키텍처가 무엇인지 살펴보겠습니다.

간단히 말하면 Transformer를 "배우"라고 생각할 수 있습니다. 이 "배우"의 경우 인코더는 대사를 중간 표현(우리 마음에 추상화됨)으로 변환하는 역할을 담당하는 배우의 기억과 같습니다. 그게 뭔지는 모르겠지만, 즉 배우의 이해), 디코더는 배우의 연기와 같아서 마음 속의 이해를 화면의 디스플레이로 변환하는 역할을 담당합니다. 여기서 가장 중요한 셀프 어텐션 메커니즘은 배우의 집중력으로, 이는 자동으로 다양한 위치에서 배우의 주의를 조정할 수 있어 모든 대사를 더 잘 이해하고 다양한 상황에서 더 자연스럽고 원활하게 연기할 수 있도록 해줍니다.

더 구체적으로 말하면 Transformer를 대규모 "언어 처리 공장"이라고 생각할 수 있습니다. 이 팩토리에서 각 작업자(인코더)는 입력 시퀀스(예: 단어)의 위치를 ​​처리하고 이를 처리 및 변환한 후 다음 작업자(인코더)에게 전달하는 일을 담당합니다. 각 작업자는 현재 위치의 입력을 처리하는 방법과 이전 위치와의 연결을 설정하는 방법을 자세히 설명하는 자세한 작업 설명(자체 주의 메커니즘)을 가지고 있습니다. 이 공장에서는 각 작업자가 동시에 자신의 작업을 수행할 수 있으므로 공장 전체가 대량의 입력 데이터를 효율적으로 처리할 수 있습니다.

트랜스포머는 막강한 힘과 야심찬 두 아들(BERT와 GPT) 덕분에 긴장감 없이 단숨에 왕좌에 올랐습니다. BERT(BiDirectional Encoder Representations from Transformers)[1]는 Transformer의 Encoder 부분을 계승하여 전반전에서 우승했지만, 한계로 인해 범용성 측면에서 GPT에 패했습니다. 정직한 GPT(Generative Pre-trained Transformer)[7-10]는 Decoder 부분을 계승하고, 처음부터 정직하게 학습하고, 인간의 의사소통 방법을 학습하여 마침내 후반부에 추월을 달성했습니다.

물론, Transformer의 야망은 분명히 여기서 끝나지 않습니다. "Attention is all you need"는 NLP 분야에만 적용되는 것이 아닙니다. GPT와 BERT의 원한과 원한을 소개하기 전에 먼저 그들의 아버지가 한 일을 살펴 보겠습니다.

새 족보 - 많은 왕자

"아버지, 시대가 변했습니다. 저의 노력으로 우리 가족은 진정한 영광을 얻게 될 것입니다."

——트랜스포머

트랜스포머의 메커니즘을 이해한 후, 그 후, 트랜스포머(신계보)의 탄탄한 발전을 바탕으로 트랜스포머 제품군이 어디까지 발전해왔는지 살펴볼 수 있다. 앞선 '액터' 예시에서 볼 수 있듯이 Transformer는 인간의 논리와 일치하는 학습 방법을 나타내므로 텍스트뿐만 아니라 이미지도 처리할 수 있습니다. 그림 2에는 Transformer 제품군의 강력한 가족 배경이 요약되어 있습니다. GPT와 BERT가 원래 NLP(자연어 처리) 분야에서 계속해서 획기적인 발전을 이룰 수 있도록 하는 것 외에도 Transformer는 컴퓨터 비전 분야에도 참여하기 시작했습니다. 후배들(구글이 제안한 ViT 등)도 이 분야에서 빛을 발하고 있다. 2021년에는 Vision Transformer가 큰 폭발을 일으켰고 Vision Transformer를 기반으로 한 수많은 작업이 컴퓨터 비전 작업을 휩쓸었습니다. 자연스럽게 가족으로서 트랜스포머 가족은 늘 소통하게 되었고, 텍스트와 이미지(AI 페인팅)를 연결하는 CLIP이 탄생하게 되었습니다. 2022년 말에는 ChatGPT 이전에 Stable Diffusion이 큰 인기를 끌었습니다. 또한 CLIP은 Transformer 제품군의 다중 양식에 대한 새로운 문을 열어줍니다. 단어와 이미지 외에도 단어도 음악을 만들 수 있고, 그림도 그릴 수 있나요? 다중 모드 및 다중 작업 Transformer도 등장했습니다. 한마디로 모든 분야가 왕자다. NLP 분야에서 처음부터 시작한 트랜스포머는 열심히 발전한 끝에 왕자에게 맡길 수 있는 '주왕'이 됐다.

왕자가 많으니 번영하는 시대이겠군요.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 4. 점점 번영하는 Transformer 가족의 가계도

간단한 테스트 - Vision Transformer [12]

GPT에 대해 이야기하기 전에 먼저 가장 먼저 이야기해야 할 사항 Transformer는 과감한 시도를 했습니다. 즉, 제 작은 아들이 CV 분야에 참여하도록 하는 것입니다. 먼저 작은 아들의 삶을 살펴보겠습니다.

  • 그의 아버지 Transformer는 2017년 Attention is All You Need라는 신문에서 태어났습니다.
  • 2019년 Google은 CNN(Convolutional Layer)을 사용하지 않고 이미지를 직접 처리할 수 있는 ViT(Vision Transformer) 아키텍처를 제안했습니다. 논문의 제목은 "이미지는 16x16 단어의 가치가 있습니다"라는 매우 간단합니다. 그림 5와 같이 입력 이미지를 일련의 작은 블록으로 나누는 것이 기본 아이디어이며, 각 작은 블록은 과거 기사 처리 시 텍스트로 이해될 수 있으며, 이후 이 작은 블록을 벡터로 변환합니다. 일반 Transformer는 텍스트를 동일한 방식으로 처리합니다. 자연어 처리(NLP) 분야에서 Transformer의 어텐션 메커니즘이 텍스트의 서로 다른 단어 간의 관계를 포착하려고 시도했다면, 컴퓨터 비전(CV) 분야에서는 ViT가 텍스트의 서로 다른 부분 간의 관계를 포착하려고 시도합니다. 이미지.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 5. ViT가 이미지를 처리하는 방법(출처: 이미지 인식에서 Transformers가 CNN보다 우수합니까? | by Arjun Sarkar | Towards Data Science)

그 후 다양한 Transformer 기반 모델은 끝없이 등장하며 해당 작업에서 CNN 이상의 성과를 달성했습니다. 그렇다면 Transformer의 장점은 무엇입니까? 영화 예시로 돌아가서 Transformer와 CNN의 차이점을 살펴보겠습니다.

영화를 촬영하려면 배우를 배치하고 다양한 요소를 올바른 위치에 배치해야 하며, 올바른 조명을 사용하여 전체 사진이 보이도록 해야 합니다. 조화롭고 아름답습니다. CNN의 경우 각 프레임을 픽셀 단위로 캡처한 다음 가장자리 및 질감과 같은 일부 낮은 수준의 특징을 추출하는 전문 사진가와 같습니다. 그런 다음 이러한 특징을 결합하여 얼굴, 동작 등과 같은 더 높은 수준의 특징을 형성하고 최종적으로 프레임을 얻습니다. 영화가 진행됨에 따라 CNN은 영화 전체가 촬영될 때까지 이 과정을 반복합니다.

ViT의 경우 배경, 빛, 색상 등을 고려하여 전체 그림을 전체적으로 고려하고 각 배우에게 적절한 위치와 각도를 할당하고 작품을 만들어내는 아트 디렉터와 같습니다. a 완벽한 그림. 그런 다음 ViT는 이 정보를 벡터로 집계하고 다층 퍼셉트론을 사용하여 처리하여 프레임을 생성합니다. 영화가 진행되면서 ViT는 전체 영화가 만들어질 때까지 이 과정을 반복합니다.

이미지 처리 작업으로 돌아가서, 고양이의 224x224 픽셀 사진이 있고 신경망을 사용하여 분류하고 싶다고 가정해 보겠습니다. 전통적인 컨볼루션 신경망을 사용하는 경우 여러 컨볼루션 및 풀링 레이어를 채택하여 이미지 크기를 점진적으로 줄이고 최종적으로 더 작은 특징 벡터를 얻은 다음 완전 연결 레이어를 통해 분류할 수 있습니다. 이 방법의 문제점은 컨볼루션 및 풀링 과정에서 모든 픽셀 간의 관계를 동시에 고려할 수 없기 때문에 이미지의 정보가 점차 손실된다는 것입니다. 또한 컨볼루션 및 풀링 레이어의 순서 제한으로 인해 전역 정보 교환을 수행할 수 없습니다. 반대로 Transformer와 self-attention 메커니즘을 사용하여 이 이미지를 처리하면 전체 이미지를 시퀀스로 직접 처리하고 이에 대해 self-attention 계산을 수행할 수 있습니다. 이 방법은 픽셀 간의 관계를 잃지 않으며 전체 정보 상호 작용을 허용합니다.

또한, 셀프 어텐션 계산은 병렬화 가능하므로 전체 이미지를 동시에 처리할 수 있어 계산 속도가 크게 향상됩니다. 예를 들어, 6개의 단어가 포함된 "I like to eat ice cream"이라는 문장이 있다고 가정해 보겠습니다. 이제 이 문장을 이해하기 위해 self-attention 메커니즘 기반 모델을 사용한다고 가정하면 Transformer는 다음을 수행할 수 있습니다.

  • 각 계층의 전체 계산 복잡성을 최소화합니다. self-attention 메커니즘 기반 모델에서 우리는 각 단어와 다른 모든 단어 사이의 각 어텐션 가중치만 계산하면 됩니다. 따라서 각 레이어의 계산 노력은 은닉 레이어의 크기가 아니라 입력 길이에만 의존합니다. 이 예에서 입력 길이는 6개 단어이므로 각 레이어의 계산 복잡성은 이 6개 단어의 수에만 의존합니다.
  • 병렬화 가능한 계산량 최대화: self-attention 메커니즘을 기반으로 하는 모델은 각 단어와 다른 모든 단어 사이의 어텐션 가중치를 동시에 계산할 수 있으므로 계산이 고도로 병렬화될 수 있으므로 학습 및 학습 속도가 빨라집니다. 모델.

ViT가 잠재력을 최대한 발휘하려면 대규모 데이터 세트와 고해상도 이미지가 필요합니다. 따라서 Vision Transformers는 CV 분야에서 탁월한 성능을 발휘하지만 컴퓨터 분야에서는 CNN의 응용 및 연구가 중요합니다. 비전은 더욱 광범위하며 표적 탐지 및 세분화와 같은 작업에 장점이 있습니다.

하지만 상관없어요. 당신은 충분히 잘 해냈고, 당신의 아버지가 이력서에 참여하려는 원래 의도는 CNN을 대체하는 것이 아니라 더 야심찬 목표를 가지고 있었습니다.

이 목표의 기본은 앞서 말씀드린 '추가'입니다.

첫 등장 - CLIP [13]

앞서 말했듯 트랜스포머는 좀 더 야심찬 목표를 갖고 있는데, 바로 '빅 모델', 즉 초초대형 모델이다. 이전 기사에서 제가 말한 것 외에도 Transformer는 전역 정보를 더 잘 얻을 수 있고, 계산 복잡성이 줄어들고 병렬성이 향상되어 대형 모델을 지원하는 기반이 되었습니다.

2021년에는 Vision Transformer의 눈부신 발전에 더해, GPT에서는 GPT3.5도 집중적으로 준비하고 있습니다. 한시도 쉴 수 없는 모범적인 직장인 Transformer가 텍스트와 이미지를 연결하는 새로운 클라이맥스를 맞이했습니다. . 이 클라이맥스는 NLP 분야 외부의 '빅 모델' 프로젝트에 대한 첫 번째 발사이기도 했습니다. 이때 Transformer의 시각적 작업 단점이 여기서 장점으로 바뀌었습니다. "ViT가 잠재력을 최대한 발휘하려면 대규모 데이터 세트와 고해상도 이미지가 필요합니다." 달리 말하면 "ViT는 대규모 데이터 세트와 고해상도 이미지를 처리할 수 있습니다."

늘 그렇듯이 먼저 CLIP이 무엇인지부터 이야기해보겠습니다.

CLIP의 전체 이름은 Contrastive Language-Image Pre-Training입니다. 분명히 기본 아이디어는 전통적인 CV 분야의 Contrastive learning입니다. 우리는 새로운 지식을 배울 때 많은 정보를 얻기 위해 다양한 책과 기사를 읽습니다. 그러나 우리는 모든 책이나 기사에 나오는 모든 단어와 문장을 단순히 외우는 것이 아닙니다. 대신, 우리는 이 정보 사이의 유사점과 차이점을 찾으려고 노력합니다. 예를 들어, 주제가 설명되는 방식과 제시된 주요 개념이 책마다 다를 수 있지만 설명하는 개념은 본질적으로 동일하다는 것을 알 수 있습니다. 유사점과 차이점을 찾는 이러한 방법은 대조 학습의 기본 아이디어 중 하나입니다. 각 책이나 기사는 서로 다른 샘플로 생각할 수 있고, 동일한 주제에 대한 책이나 기사는 동일한 카테고리의 다른 사례로 생각할 수 있습니다. 대조 학습에서는 이러한 다양한 샘플 범주를 구별하여 유사점과 차이점을 학습하는 방법을 학습하도록 모델을 훈련합니다.

다음으로 좀 더 학문적으로 접근하여 자동차 브랜드를 식별하기 위해 모델을 훈련한다고 가정해 보겠습니다. "Mercedes-Benz", "BMW", "Audi" 등과 같은 브랜드 라벨이 붙은 자동차 이미지 세트를 가질 수 있습니다. 기존 지도 학습에서는 이미지와 브랜드 라벨을 모델에 함께 입력하고 모델이 올바른 브랜드 라벨을 예측하는 방법을 학습하도록 합니다.

그러나 대조 학습에서는 레이블이 지정되지 않은 이미지를 사용하여 모델을 훈련할 수 있습니다. 레이블이 지정되지 않은 자동차 이미지 세트가 있다고 가정하면 이러한 이미지를 포지티브 샘플과 네거티브 샘플의 두 그룹으로 나눌 수 있습니다. 포지티브 샘플은 동일한 브랜드를 다른 각도에서 본 이미지이고, 네거티브 샘플은 다른 브랜드의 이미지입니다. 다음으로, 대조 학습을 사용하여 동일한 브랜드의 긍정적인 샘플이 서로 더 가깝고 다른 브랜드의 부정적인 샘플이 서로 더 멀리 떨어져 있도록 모델을 훈련할 수 있습니다. 이러한 방식으로 모델은 각 이미지의 브랜드 라벨을 명시적으로 지정하지 않고도 이미지에서 브랜드별 특징을 추출하는 방법을 학습할 수 있습니다.

분명히 이것은 자기 지도 학습 모델입니다. CLIP도 유사한 자기 지도 학습 모델입니다. 단, 그 목표는 언어와 이미지를 연결하여 컴퓨터가 텍스트와 이미지 간의 관계를 이해할 수 있도록 하는 것입니다.

각 단어의 정의와 해당 이미지가 있는 일련의 어휘 목록을 학습한다고 상상해 보세요. 각 단어와 해당 이미지는 한 쌍으로 생각할 수 있습니다. 당신의 임무는 이러한 단어와 이미지 사이의 상관 관계, 즉 어떤 단어가 어떤 이미지와 일치하고 어떤 단어가 일치하지 않는지 찾는 것입니다.

그림 6에서 볼 수 있듯이 대조 학습 알고리즘의 경우 이러한 단어와 이미지 쌍은 소위 "앵커"(앵커 샘플) 및 "긍정적"(긍정적 샘플)입니다. "anchor"는 우리가 학습하고 싶은 객체를 의미하고, "Positive"는 "anchor"와 일치하는 샘플을 의미합니다. 그 반대는 "negative"(음수 샘플), 즉 "앵커"와 일치하지 않는 샘플입니다.

대조 학습에서는 '앵커'와 '긍정적'을 짝지어 구별하려고 노력합니다. 또한 “anchor”와 “negative”를 짝지어 구별해 보겠습니다. 이 프로세스는 "앵커"와 "긍정" 사이의 유사점을 찾고 "앵커"와 "부정" 사이의 유사점을 제거하는 것으로 이해될 수 있습니다.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 6. 대조 학습 그림 [14]. 앵커는 원본 이미지입니다. 포지티브는 일반적으로 잘리고 회전된 원본 이미지이거나 동일한 카테고리의 알려진 이미지입니다. 네거티브는 알 수 없는 이미지(동일한 카테고리일 수 있음) 또는 이미 알려진 다른 카테고리의 이미지로 간단하고 대략적으로 정의될 수 있습니다. .

이 목표를 달성하기 위해 CLIP은 먼저 다수의 이미지와 텍스트를 사전 학습한 다음 사전 학습된 모델을 사용하여 분류, 검색, 생성과 같은 다운스트림 작업을 수행합니다. CLIP 모델은 텍스트와 이미지를 동시에 처리하고 훈련을 통해 연결하는 방법을 학습하는 새로운 자기 지도 학습 방식을 사용합니다. 텍스트와 이미지 간의 주의 메커니즘을 공유하고 조정 가능한 간단한 매개변수 세트를 사용하여 이 매핑을 학습합니다. 변환기 기반 텍스트 인코더와 CNN 기반 이미지 인코더를 사용한 후 이미지와 텍스트 임베딩 간의 유사성을 계산합니다. CLIP은 데이터에 존재하는 이미지-텍스트 쌍 간의 일관성을 최대화하고 무작위로 샘플링된 이미지-텍스트 쌍 간의 일관성을 최소화하는 대조 학습 목표를 사용하여 이미지와 텍스트를 연관시키는 방법을 학습합니다.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 7. CLIP 일러스트레이션 [13]. 그림 6과 비교하면 그림 6의 긍정과 부정이 모두 텍스트라는 것을 간단히 이해할 수 있다.

예를 들어, CLIP을 사용하여 사진이 "red beach"인지 식별하려는 경우 이 텍스트 설명과 사진을 입력하면 CLIP은 관계를 나타내는 벡터 쌍을 생성합니다. 이 벡터 쌍 사이의 거리가 매우 작다면 그림이 "빨간 해변"일 수 있고 그 반대일 수도 있음을 의미합니다. 이러한 접근 방식을 통해 CLIP은 이미지 분류 및 이미지 검색과 같은 작업을 가능하게 합니다.

전체 이름으로 돌아가서 CLIP의 마지막 단어는 pretraining이므로 그 본질은 여전히 ​​pre-trained 모델이지만 이미지 분류, 제로화 등 이미지와 텍스트 매칭과 관련된 다양한 다운스트림 작업에 사용할 수 있습니다. -샷 학습 및 이미지 설명 생성 등 예를 들어, CLIP을 사용하면 이미지를 "개 사진" 또는 "풍경"과 같은 자연어 라벨로 지정된 카테고리로 분류할 수 있습니다. CLIP은 CLIP에서 추출한 이미지 특징을 조건으로 한 언어 모델을 사용하여 이미지에 대한 캡션을 생성하는 데에도 사용할 수 있습니다. 또한 CLIP을 사용하면 CLIP에서 추출한 텍스트 특징을 기반으로 한 생성 모델을 사용하여 텍스트에서 이미지를 생성할 수 있습니다.

DALL-E & Stable Diffusion

CLIP의 도움으로 새로운 왕자가 탄생했습니다. 그의 이름은 AIGC(AI 생성 콘텐츠)입니다. 사실 ChatGPT는 본질적으로 AIGC의 일종이지만, 이 섹션에서는 주로 AI 페인팅에 대해 이야기합니다. 먼저 작은 AI 페인팅 제품군의 개발 내역을 살펴보겠습니다.

  • 2021.01, OpenAI는 GPT-3가 이미지를 생성하도록 GPT-3를 개선하는 DALL-E [15](AI 페인팅 소프트웨어)를 출시했습니다. Text(Image Transformer Network) 대신
  • 거의 동시에(2021.01) OpenAI가 CLIP [13] 출시
  • 2021.05 Google Brain과 DeepMind가 Stable 확산[17]을 출시하며 계속해서 새로운 버전 출시 . 고정된 CLIP 텍스트 인코더를 사용하여 텍스트 단서를 기반으로 모델을 조정합니다. 안정적인 확산은 이미지 생성 프로세스를 런타임 "확산" 프로세스로 분해합니다. 노이즈만 시작하여 노이즈가 전혀 없을 때까지 이미지를 점차적으로 수정하여 제공된 텍스트 설명에 더 가깝게 만듭니다.
  • 2022.04, DALL-E-2 [16] 출시. 자연어 설명을 기반으로 사실적인 이미지와 작품을 만들 수 있습니다. DALL-E-2는 사전 및 디코더로 구성된 두 부분으로 구성된 모델을 사용합니다. 이전 모델은 텍스트 힌트를 기반으로 CLIP 이미지 임베딩을 생성하는 GPT-3 모델입니다. 디코더는 CLIP 임베딩을 기반으로 이미지를 생성하는 확산 모델입니다. DALL-E-2는 아웃페인팅, 인페인팅 및 기존 이미지 변경도 수행할 수 있습니다.

이 가문의 혈통을 엿볼 수 있는 맏형 CLIP은 이미지와 텍스트를 연결했고, 쌍둥이 형제 DALL-E는 이를 기회로 텍스트를 이미지로 만드는 작업을 제안했습니다. 이 작업을 개선하기 위해 먼 친척인 Stable Diffusion이 이미지 생성 알고리즘을 개선했습니다. 마침내 DALL-E-2는 서로 학습하고 GPT-3, CLIP 및 Stable Diffusion의 장점을 결합하여 자체 AI를 완성했습니다. 페인팅 시스템.

원래 DALL-E의 경우 당신이 화가이고 DALL-E가 도구 상자라고 가정해 보겠습니다. 이 비유에서 도구 상자에는 두 가지 주요 도구가 있습니다. 하나는 브러시이고 다른 하나는 팔레트입니다.

Brush는 주어진 텍스트 설명을 이미지로 변환하는 DALL-E의 디코더입니다. 팔레트는 모든 텍스트 설명을 특징 벡터로 변환할 수 있는 DALL-E의 인코더입니다.

텍스트 설명을 받으면 먼저 색상 팔레트를 사용하여 특징 벡터를 생성합니다. 그런 다음 붓을 사용하여 특징 벡터를 사용하여 설명과 일치하는 이미지를 생성할 수 있습니다. 세부 묘사가 필요할 때는 더 가는 브러시를 사용하고, 그렇지 않을 때는 더 거친 브러시를 사용합니다.

화가와 달리 DALL-E는 브러시와 팔레트 대신 신경망을 사용합니다. 이 신경망은 Image Transformer Network라는 구조를 사용합니다. 이미지를 생성할 때 DALL-E는 앞서 언급한 GPT-3 모델을 사용하여 텍스트 설명에 해당하는 CLIP 이미지 임베딩을 생성합니다. 그런 다음 DALL-E는 빔 검색 알고리즘을 사용하여 입력 텍스트 설명과 일치하는 가능한 이미지 시퀀스를 생성하고 이를 디코더에 공급하여 최종 이미지를 생성합니다. 이 임베딩 벡터는 비슷한 이미지와 텍스트를 인접한 공간에 임베딩하여 더 쉽게 결합할 수 있도록 하는 대조 학습이라는 기술을 사용하여 훈련됩니다. 여기서 DALLE에는 CLIP이 직접 포함되지 않지만 CLIP의 텍스트 및 이미지 임베딩을 사용하여 변환기와 VAE를 교육합니다.

이미지 생성 과정에서 사용되는 빔 탐색 알고리즘은 실제로 제한된 후보 집합에서 최적의 시퀀스를 찾을 수 있는 그리디 탐색 알고리즘입니다. 빔 탐색의 기본 개념은 현재 시퀀스가 ​​확장될 때마다 확률이 가장 높은 k개의 후보만 유지되고(k는 빔 폭이라고 함) 확률이 낮은 다른 후보는 폐기된다는 것입니다. 이는 검색 공간을 줄이고 효율성과 정확성을 향상시킵니다. 빔 검색을 사용하여 DALLE에서 이미지를 생성하는 구체적인 단계는 다음과 같습니다.

  • 입력 텍스트 설명을 벡터로 인코딩하고 변환기 모델의 초기 입력 역할을 합니다.
  • 특별한 시작 기호에서 시작하여 픽셀 단위로 이미지 시퀀스를 생성합니다. 픽셀이 생성될 때마다 변환기 모델을 사용하여 다음 픽셀의 확률 분포를 예측하고, 확률이 가장 높은 k개의 후보 픽셀을 현재 시퀀스의 확장으로 선택합니다.
  • 각 확장 시퀀스에 대해 누적 확률을 계산하고 확률이 가장 높은 k 시퀀스를 유지하고 다른 시퀀스를 삭제합니다.
  • 특수 종료 기호가 생성되거나 최대 길이 제한에 도달할 때까지 2단계와 3단계를 반복합니다.
  • 확률이 가장 높은 시퀀스를 최종 생성 이미지로 반환합니다.

같은 그림, 안정적인 확산을 그리는 방법은? 우리가 예술 작품을 그리려면 일반적으로 좋은 구성과 이를 구성할 특정 요소가 필요합니다. 안정적인 확산은 이미지를 생성하는 방법으로, 이미지 생성 프로세스를 확산 프로세스와 재구성 프로세스의 두 부분으로 나눕니다. 확산 과정을 흩어진 브러시, 페인트 및 캔버스를 함께 혼합하여 캔버스에 점점 더 많은 요소를 천천히 만드는 것으로 생각하십시오. 이 과정에서 우리는 최종 그림이 어떤 모습일지 알 수 없었고, 각 요소의 최종 위치를 결정할 수도 없었습니다. 그러나 전체 그림이 완성될 때까지 이러한 요소를 점진적으로 추가하고 조정할 수 있습니다. 그러면 입력된 텍스트 설명은 우리가 그리려는 작품에 대한 대략적인 설명과 같으며, 빔 검색 알고리즘을 사용하여 텍스트 설명과 생성된 이미지를 정밀하게 일치시킵니다. 이 과정은 우리가 원하는 그림과 더 잘 일치하도록 요소를 지속적으로 수정하고 조정하는 것과 같습니다. 궁극적으로 결과 이미지는 텍스트 설명과 거의 일치하여 우리가 상상한 예술 작품을 렌더링합니다.

그림 8에서 볼 수 있듯이 여기서 확산 모델은 데이터에 점차적으로 노이즈를 추가한 다음 원본 데이터를 복원하는 과정을 역으로 수행하여 데이터의 분포를 학습하는 생성 모델입니다. 안정적인 확산은 사전 훈련된 VAE(변형 자동 인코더)를 사용하여 이미지를 저차원 잠재 벡터로 인코딩하고 변환기 기반 확산 모델을 사용하여 잠재 벡터에서 이미지를 생성합니다. 안정적인 확산은 또한 고정된 CLIP 텍스트 인코더를 사용하여 텍스트 큐를 이미지 임베딩으로 변환하여 확산 모델을 조절합니다.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 8. 안정 확산 과정. 첫 번째는 위쪽 화살표로 사진에 노이즈가 계속 추가되고 최종적으로는 순수한 노이즈 이미지가 됩니다. 그런 다음 아래쪽 화살표를 사용하여 점차적으로 노이즈를 제거한 다음 원본 사진을 재구성합니다. (이미지 출처: DALL・E에서 Stable Diffusion까지: 텍스트-이미지 생성 모델은 어떻게 작동합니까? | Tryolabs)

Stable Diffusion의 확산 과정은 무작위 과정이므로 동일한 텍스트 설명이라도 생성된 이미지가 매번 다를 수 있다는 점은 주목할 가치가 있습니다. 이러한 무작위성은 생성된 이미지를 더욱 다양하게 만들고 알고리즘의 불확실성도 증가시킵니다. 생성된 이미지를 보다 안정적으로 만들기 위해 Stable Diffusion은 확산 과정에서 점진적으로 증가하는 노이즈를 추가하고 여러 재구성 프로세스를 사용하여 이미지 품질을 더욱 향상시키는 등 몇 가지 기술을 사용합니다.

Stable Diffusion은 DALL-E를 기반으로 큰 발전을 이루었습니다.

  • 해상도: 안정적인 확산은 최대 1024×1024 픽셀의 이미지를 생성할 수 있는 반면 DALL-E는 현재 256×256 픽셀 이미지만 생성할 수 있습니다.
  • 속도: 안정적인 확산을 위해서는 이미지를 생성하는 데 여러 번의 반복이 필요하므로 속도가 느립니다. DALL-E는 한 번에 이미지를 생성할 수 있어 속도가 더 빠릅니다.
  • 유연성: 안정적인 확산은 기존 이미지를 확장, 패치 및 변경할 수 있는 반면 DALL-E는 텍스트 프롬프트에서만 이미지를 생성할 수 있습니다.
  • 정확성: 안정적인 확산은 특히 복잡하고 추상적인 설명에서 더욱 사실적이고 상세한 이미지를 생성할 수 있습니다. DALL-E는 물리적 법칙이나 상식에 맞지 않는 일부 이미지를 생성할 수 있습니다.

이것이 DALL-E-2도 모델에 확산 모델을 추가하는 이유입니다.

잠재 강국 - GPT3.5 [18]

& Instruct GPT [19]

다른 왕자들이 개혁을 본격화하는 동안 GPT 팀은 묵묵히 일하고 있습니다. 서두에서 언급했듯이 GPT-3는 처음 출시되었을 때 이미 강력한 성능을 가지고 있었지만 그 사용 방법이 그다지 "비기술적"이지 않았기 때문에 그것이 불러일으킨 파장은 모두 기술계에 있었고 그다지 열광적이지 않았습니다. 우선, 높은 수수료 때문에 점점 사라지고 있습니다.

Transformer에서 GPT가 고민하고 개편한 것에 대해 매우 불만을 갖고 있습니다!

개혁 요구에 가장 먼저 응답하고 첫발을 내딛은 것은 GPT 3.5였습니다.

“나는 멍청하고 개혁할 좋은 방법이 생각나지 않으니, 한 발 더 나아갑시다. 탄탄한 기초가 우선입니다.”

그래서 GPT3.5는 GPT-3을 기반으로 하며 텍스트 데이터를 기반으로 일부 프로그래밍 코드 데이터를 추가하는 Text+Code라는 유형의 학습 데이터를 사용합니다. 간단히 말해서, 더 큰 데이터 세트가 사용됩니다. 이를 통해 모델은 코드를 더 잘 이해하고 생성할 수 있어 모델의 다양성과 창의성이 높아집니다. Text+Code는 OpenAI가 웹에서 수집하고 구성하는 텍스트 및 코드 기반 학습 데이터입니다. 텍스트와 코드의 두 부분으로 구성됩니다. 텍스트란 기사, 댓글, 대화 등 자연어로 기술된 콘텐츠를 말합니다. 코드는 Python, Java, HTML 등과 같은 프로그래밍 언어로 작성된 것입니다.

Text+Code 교육 데이터를 사용하면 모델이 코드를 더 잘 이해하고 생성할 수 있어 모델의 다양성과 창의성이 향상됩니다. 예를 들어 프로그래밍 작업에서 모델은 텍스트 설명을 기반으로 해당 코드를 생성할 수 있으며 코드의 정확성과 가독성이 높습니다. 콘텐츠 생성 작업에서 모델은 코드 설명을 기반으로 해당 텍스트를 생성할 수 있으며 텍스트의 일관성과 관심도가 높습니다. 텍스트+코드 교육 데이터를 사용하면 모델이 다중 언어, 다중 모달, 다중 도메인 데이터 및 작업을 더 잘 처리할 수 있습니다. 예를 들어, 언어 번역 작업에서 모델은 서로 다른 언어 간의 대응을 기반으로 정확하고 원활한 번역을 수행할 수 있습니다. 이미지 생성 작업에서 모델은 텍스트나 코드 설명을 기반으로 해당 이미지를 생성할 수 있으며 이미지의 선명도와 충실도가 높습니다.

두 번째로 전화에 응답한 사람은 새로운 문제를 발견한 Instruct GPT였습니다.

"인간과 통합되려면 인간의 의견을 더 효과적으로 들어야 합니다."

그래서 유명한 새로운 해외 원조가 등장했는데, 바로 RLHF 훈련 전략이다. RLHF는 강화 학습을 기반으로 한 훈련 전략이며, 정식 이름은 Reinforcement Learning from Human Feedback입니다. 핵심 아이디어는 훈련 과정에서 모델에 몇 가지 지침을 제공하고 모델의 출력에 따라 보상하거나 처벌하는 것입니다. 이를 통해 모델은 지침을 더 잘 따를 수 있고 모델의 제어 가능성과 신뢰성이 향상됩니다. 실제로 GPT-3.5에는 인간의 피드백도 있습니다. 그렇다면 강화학습(Reinforcement Learning)을 추가한 후 어떤 변화가 일어났을까요?

  • GPT3.5의 인간 피드백은 모델의 매개변수를 미세 조정하는 데 직접 사용되는 반면, Instruct GPT의 RLHF는 보상 모델을 훈련하는 데 사용된 다음 이 보상 모델을 사용하여 모델의 행동을 안내합니다. 모델.
  • GPT3.5의 인간 피드백은 단일 출력 평가를 기반으로 하는 반면, Instruct GPT의 RLHF는 여러 출력 간의 비교를 기반으로 합니다.
  • GPT3.5의 인간 피드백은 한 번만 수행되는 반면, Instruct GPT의 RLHF는 여러 반복을 수행하여 지속적으로 새로운 비교 데이터를 수집하고, 새로운 보상 모델을 훈련하고, 새로운 전략을 최적화할 수 있습니다.

즉, 인력 투자가 덜 필요하지만 모델에 더 큰 이점을 가져옵니다. L r 그림 9. RLHF 프로세스(출처: GPT-4(openai.com))

그림 9와 같이 RLHF 훈련 전략은 사전 훈련과 미세 조정의 두 단계로 구분됩니다. 사전 훈련 단계에서 모델은 비지도 학습을 위한 GPT-3과 동일한 데이터 세트를 사용하여 언어의 기본 지식과 규칙을 학습합니다. 미세 조정 단계에서 모델은 강화 학습을 위해 수동으로 레이블이 지정된 일부 데이터를 사용하여 지침에 따라 적절한 출력을 생성하는 방법을 학습합니다.

수동으로 라벨이 지정된 데이터에는 지침과 피드백이라는 두 부분이 포함됩니다. 지침은 "봄에 관한 시를 써 보세요" 또는 "개에 대한 농담을 들려주세요"와 같이 자연어로 설명된 작업입니다. 피드백은 숫자 등급입니다(예: 불량함은 "1", 우수함은 "5"). 피드백은 모델 출력을 기반으로 인간 주석자가 제공하며 모델 출력의 품질과 합리성을 반영합니다. GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

미세 조정 단계에서 모델은 강화 학습을 위해 Actor-Critic이라는 알고리즘을 사용합니다. Actor-Critic 알고리즘은 Actor와 Critic의 두 부분으로 구성됩니다. 액터는 명령에 따라 출력을 생성하는 생성기입니다. Critic은 피드백을 기반으로 출력 보상 값을 평가하는 평가자입니다. 배우와 비평가는 서로 협력하고 경쟁하며 보상 가치를 높이기 위해 자신의 매개 변수를 지속적으로 업데이트합니다. RLHF 훈련 전략은 모델이 지침을 더 잘 따르도록 만들고 모델의 제어 가능성과 신뢰성을 향상시킬 수 있습니다. 예를 들어, 글쓰기 작업에서 모델은 지침에 따라 다양한 스타일과 주제의 텍스트를 생성할 수 있으며 텍스트는 높은 일관성과 논리를 갖습니다. 대화 작업에서 모델은 지침에 따라 다양한 감정과 어조로 응답을 생성할 수 있으며 응답은 관련성이 높고 예의바르다.

마침내 전임자들의 개혁과 축적 이후, GPT 가문의 보다 유연한 둘째 아들인 ChatGPT는 이제 Instruct GPT를 기반으로 인간에 더 부합하는 대화 모드를 출시할 때가 되었다고 느꼈습니다. 인류 사회에 직접적으로 거대한 혁명을 일으켰고, 수년간의 휴면 끝에 GPT 가문은 마침내 블록버스터가 되었고 트랜스포머 가문의 가장 사랑받는 왕자가 되었습니다. .그는 후계투쟁에서 직접 승리하여 왕자가 되었다.

동시에 ChatGPT에서는 왕자가 전부가 아닙니다. ChatGPT는 Transformer의 거대한 야망을 물려받았습니다.

"현재 상황은 너무 혼란스럽습니다. 강력한 왕조에는 그렇게 많은 왕자가 필요하지 않습니다. time to 통일 "

왕자통일 - 빅모델의 시대

GPT-4:" 이 시대는 빅모델의 시대라고, 나는 "(부시)

.

현재 ChatGPT는 이미 GPT-4를 기반으로 합니다. GPT-4는 경쟁사의 빠른 대응을 두려워하기 때문에 대부분의 기술적 세부 사항은 실제로 비공개입니다. 그러나 그 기능에서 GPT-4는 텍스트 대화 외에도 AI 매핑 기능도 추가하여 다양한 왕자를 통합하려는 야망을 보였습니다. GPT 패밀리는 지난 몇 년간의 휴면 경험을 통해 빅 모델이 곧 정의라는 진리를 깨달았고, 이 진리를 다양한 분야로 확장하고자 합니다.

이 원리에 대한 추론을 더 깊이 파고 들면 대형 모델을 훈련시키는 방법일 수도 있습니다. GPT-3은 현재 가장 큰 언어 모델 중 하나이며, 이전 GPT-2보다 100배 더 많은 1,750억 개의 매개변수를 가지고 있으며, 이전 최대 규모의 유사 NLP 모델보다 10배 더 많습니다. 큰 예측 모델.

먼저 GPT-3의 모델 아키텍처와 훈련 방법이 어떻게 이러한 규모와 성능을 달성하는지 살펴보겠습니다.

  • 분산 훈련: GPT-3는 분산 훈련 방법, 즉 모델과 데이터를 사용합니다. 여러 컴퓨팅 노드에 분산되어 있으며 통신 프로토콜을 통해 조정 및 동기화됩니다. 이를 통해 여러 노드의 컴퓨팅 리소스와 메모리 공간을 활용하여 모델 교육 프로세스의 속도를 높이고 대규모 모델과 데이터를 지원할 수 있습니다.
  • GPT-3은 분산 학습을 위해 약 2000개의 GPU 노드를 사용합니다. 각 노드에는 여러 개의 GPU가 있으며 각 GPU에는 동일한 비디오 메모리가 있습니다.
  • GPT-3은 데이터 병렬성과 모델 병렬성의 두 가지 분산 학습 방법을 사용합니다.
  • 데이터 병렬성이란 데이터를 여러 하위 집합으로 나누고, 각 노드가 하나의 하위 집합을 처리하고, 각 노드의 모델 매개변수를 업데이트한 다음 모든 노드 간에 매개변수를 동기화하는 것을 의미합니다.
  • 모델 병렬성이란 모델을 여러 부분으로 나누어 각 노드가 하나의 부분을 처리하고 각 노드에서 해당 부분의 출력과 기울기를 계산한 다음 출력과 기울기를 모든 노드에 전달하는 것을 말합니다.
  • GPT-3은 하이브리드 데이터 병렬 처리와 모델 병렬 처리 접근 방식을 사용합니다. 즉, 데이터 병렬 처리는 각 노드 내에서 사용되고 모델 병렬 처리는 서로 다른 노드 간에 사용됩니다. 이를 통해 GPU의 컴퓨팅 성능과 통신 대역폭을 완전히 활용하는 동시에 통신 오버헤드와 메모리 사용량을 줄일 수 있습니다.
  • 활성화 함수 체크포인트: GPT-3는 활성화 함수 체크포인트라는 기술을 사용합니다. 즉, 모델의 순전파 과정에서 값 대신 일부 레이어의 활성화 함수 값만 저장합니다. ​모든 레이어에 . 활성화 함수의 값이 비디오 메모리의 대부분을 차지하므로 비디오 메모리 공간을 절약할 수 있습니다. 모델의 역전파 과정에서 특정 레이어의 활성화 함수 값을 사용해야 하는 경우 비디오 메모리에서 해당 값을 읽는 대신 다시 계산합니다. 이는 더 많은 비디오 메모리 공간을 확보하는 대신 일부 계산 시간을 희생하여 더 큰 모델과 배치 크기를 허용합니다.
  • Sparse Attention 메커니즘: GPT-3는 Sparse Attention 메커니즘이라는 기술을 사용합니다. 즉, Self Attention을 계산할 때 모든 단어 대신 입력 시퀀스의 일부 단어만 고려합니다. self-attention의 복잡성은 입력 시퀀스의 길이와 직결되기 때문에 계산량과 메모리 사용량을 줄일 수 있습니다. GPT-3는 입력 시퀀스를 여러 블록으로 나누는 로컬 창과 전역 블록을 기반으로 하는 희소 주의 메커니즘을 사용하며, 각 블록은 여러 개의 인접한 블록에 대해서만 주의 계산을 수행하고 각 블록은 무작위로 선택된 일부 전역 블록에 대해서도 주의 계산을 수행합니다. 이를 통해 모델은 로컬 및 글로벌 정보를 모두 캡처하는 동시에 계산 복잡성과 메모리 사용량을 줄일 수 있습니다.

이것을 보고 ChatGPT는 약간 눈살을 찌푸리고 GPT-3 솔루션에 대해 약간 불만스러운 표정을 지었습니다. "이것만으로는 충분하지 않습니다."

"대형 모델은 확실히 요즘 추세이지만 그냥 사용해서는 안됩니다. 규모를 맹목적으로 추구합니다. 대규모 모델을 훈련하기 전에 안정적이고 효율적으로 실행되고 유용한 결과를 얻을 수 있도록 더 많은 세부 사항과 기술적 과제를 고려해야 합니다. "

" 먼저 적절한 훈련을 선택합니다. 매개변수 및 모델 초기화는 학습률, 배치 크기, 반복 횟수와 같은 하이퍼 매개변수의 선택이 모델의 수렴 속도, 안정성 및 성능에 중요한 영향을 미치는 반면 모델 초기화는 가중치 값을 결정합니다. 이는 훈련이 시작되기 전에 결과의 품질에 영향을 미칩니다. 모델의 최적 성능을 보장하려면 경험적 실험이나 이론적 분석을 기반으로 이러한 매개 변수를 신중하게 조정해야 합니다.”

“둘째, 높은 처리량을 얻고 병목 현상을 방지하려면 하드웨어 구성, 네트워크 대역폭, 데이터 로딩 속도, 모델 아키텍처 등과 같은 훈련 프로세스의 다양한 측면을 최적화해야 합니다. 이러한 측면을 최적화하면 학습 속도가 크게 향상될 수 있습니다. 모델의 처리 속도와 효율성. 예를 들어, 더 빠른 저장 장치나 데이터 형식을 사용하면 데이터 로딩 시간이 줄어들 수 있습니다. .”

“마지막으로 대규모 모델을 학습할 때 수치 오류, 과적합, 하드웨어 오류, 데이터 품질 문제 등 다양한 불안정성과 실패 상황에 직면할 수 있습니다. 이러한 문제를 피하거나 복구하려면 다음이 필요합니다. 모델의 동작과 성능을 면밀히 모니터링하고 디버깅 도구와 기술을 사용하여 오류나 결함을 식별하고 수정합니다. 또한 클리핑, 정규화, 삭제, 노이즈 주입, 데이터 필터링과 같은 다양한 안전 조치와 보호 장치를 사용할 수 있습니다. "이 시대에는 대형 모델이 정말 중요하지만 규모만 추구하면 모델이 유용한 결과를 얻을 수 없습니다. 세심한 훈련과 최적화를 통해서만 대형 모델을 만들 수 있습니다." 모델은 진정으로 자신의 잠재력을 깨닫고 인류에게 더 많은 가치를 제공합니다.”

왕자의 말이 맞습니다.

쇠퇴하는 강력한 왕자 - BERT

결국 BERT는 말보다 크다. 비록 최근 BERT가 GPT의 그늘에 가려졌지만, GPT의 거침없는 발전 속에 결국 BERT는 강력한 왕자가 됐다. 여전히 자신의 영토를 유지하고 있습니다. 자연어 처리 모델에 대해 이야기할 때 BERT(Bidirection Encoder Representations from Transformers)는 많은 작업에서 매우 좋은 성능을 발휘했기 때문에 한때 매우 인기 있는 모델이었습니다. 처음 출시되었을 때는 거의 무적이었고 GPT보다 훨씬 더 성공적이었습니다. BERT는 GPT와는 다른 목표와 장점을 가지고 설계되었기 때문입니다.

BERT는 텍스트 분류 및 질문 답변과 같은 다운스트림 작업을 더 잘 지원하기 위해 컨텍스트 모델링 기능을 완전히 새로운 수준으로 끌어올리는 것을 목표로 합니다. 양방향 Transformer 인코더를 훈련하여 이 목표를 달성합니다. 이 인코더는 입력 시퀀스의 왼쪽과 오른쪽을 모두 고려하여 더 나은 컨텍스트 표현을 제공하므로 BERT는 컨텍스트를 더 잘 모델링하여 다운스트림 작업에서 모델 성능을 향상시킬 수 있습니다.

그러나 시간이 지남에 따라 GPT 시리즈 모델의 출현으로 GPT-3는 여러 작업에서 BERT를 능가할 수 있었습니다. 한 가지 가능한 이유는 GPT 시리즈의 모델이 텍스트 생성 및 대화 시스템과 같은 생성 작업에 더 중점을 두도록 설계된 반면 BERT는 분류 및 질문 및 답변 작업에 더 중점을 두기 때문입니다. 또한 GPT 시리즈 모델은 훈련을 위해 더 큰 매개변수와 더 많은 데이터를 사용하므로 더 넓은 범위의 작업에서 더 나은 성능을 달성할 수 있습니다.

물론 BERT는 여전히 매우 유용한 모델입니다. 특히 텍스트를 분류하거나 질문에 답해야 하는 일부 작업에서는 더욱 그렇습니다. GPT 시리즈 모델은 텍스트 생성 및 대화 시스템과 같은 생성 작업에 더 적합합니다. 전반적으로 두 모델 모두 고유한 장점과 한계가 있으므로 특정 작업의 요구 사항에 따라 적절한 모델을 선택해야 합니다.

후손을 위한 전쟁 - 위협적인 SAM(Segment Anything Model) [20]

앞서 언급한 것처럼 형 GPT가 조용히 일하는 동안 모델 작업자 Transformer는 CV 분야(ViT)에 있고 멀티모달 필드(CLIP)는 모두 상당한 파문을 불러일으켰지만, 결국 그들은 모두 경험아가 되었다. 그들은 늙은 아버지 트랜스포머에게 총애받는 왕자 GPT에게 가르침을 받고, 마침내 소위 GPT-4의 통일을 이뤘다. .

뼈에 트랜스포머의 피가 흐르는 ViT와 CLIP은 확실히 행복하지 않습니다. "Xiang Ning 왕자는 용기가 있습니까? 맏형이 우리에게서 배우고 있지 않습니까? 우리도 그에게서 배울 수 있습니다."

"하지만 그는 NLP에 있습니다. 필드가 너무 강력해서 새로운 전장을 찾아야 합니다."

그래서 SAM이 탄생했습니다. 공식 웹사이트에서는 다음과 같이 설명합니다.

Segment Anything Model(SAM): 단 한 번의 클릭으로 이미지에 있는 모든 개체를 "잘라낼" 수 있는 Meta AI의 새로운 AI 모델

간단히 말하면 SAM은 다양한 입력 프롬프트를 통해 이미지 속 다양한 개체를 정확하게 식별하고 분할할 수 있는 효율적인 "이미지 편집 마스터"라고 생각할 수 있습니다. 예를 들어, 마우스로 이미지의 한 점을 클릭하면 숙련된 화가처럼 점이 있는 개체를 자동으로 잘라냅니다. "고양이"라는 단어를 입력하면 SAM은 탐정처럼 똑똑하게 행동합니다. , 이미지에 있는 모든 고양이를 자동으로 찾아 잘라냅니다. SAM에 대상 감지 프레임을 제공하면 SAM은 숙련된 외과 의사처럼 프레임의 개체를 정확하게 잘라냅니다. SAM의 제로 샘플 일반화 기능은 SAM을 진정한 "범용 편집 마스터"로 만듭니다. 즉, 자동차, 나무, 건물과 같은 흔한 물체이든 공룡, 외계인, 마술 지팡이와 같은 희귀한 물체이든 SAM이 쉽게 식별하고 절단할 수 있다는 의미입니다. 이 강력한 기능은 고급 모델 설계와 대규모 데이터 세트에서 비롯됩니다. SAM이 수행할 수 있는 작업을 설명하기 위해 원본 논문(그림 10)에서 매우 복잡한 장면 예제 4개를 선택했습니다.

GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요

그림 10. SAM 효과의 예. 효율적인 PS 마스터(이미지 편집 마스터)에 해당하는 사진의 모든 색상을 편집하고 추출할 수 있습니다.

간단히 말하면 사람들이 우리에게 자신의 필요 사항을 신나게 물어볼 때 우리는 항상 무기력하게 물어봐야 했습니다. 잠깐만요. 어떤 종류의 데이터를 제공할 수 있습니까? 지금은 필요하지 않습니다. 적어도 CV 분야에서는 AI에 대한 비기술적 군중의 이해에 더 가깝습니다.

위에서 언급한 강력한 기능을 실현하기 위해 ViT와 CLIP이 어떻게 크게 공모하는지 살펴보겠습니다.

ViT: “이전에는 이미지 분류 작업을 주로 했지만 내 아키텍처는 이미지 분할에도 적용 가능합니다. . Transformer 아키텍처를 사용하여 이미지를 일련의 블록으로 분해한 다음 병렬로 처리하기 때문에 내 장점을 통합하면 SAM은 효율적인 이미지 분할을 달성하기 위해 병렬 처리 및 글로벌 관심의 장점을 계승할 수 있습니다.” CLIP: "그럼 공동 훈련 방법으로 투자하겠습니다. 이 아이디어를 바탕으로 SAM은 다양한 유형의 입력 프롬프트(질문 프롬프트 및 시각적 프롬프트)도 처리할 수 있습니다.

그래서 SAM의 모델 아키텍처는 가 형성되고(그림 11) ViT는 이미지 인코더로 사용되며 CLIP은 프롬프트 정보 인코딩에 사용됩니다. 아이디어는 좋지만 실행 방법은 물론 형님에게서 배우세요!

“언어 모델이 텍스트를 생성하거나 예측할 수 있도록 텍스트 프롬프트(프롬프트)를 사용하는 것처럼 이미지 분할 작업에 사전 훈련된 언어 모델을 사용하고 싶습니다. CLIP을 사용하면 프롬프트가 매우 풍부해질 수 있습니다. 이미지에서 무엇을 분할할지 알려주는 점, 상자, 마스크 및 텍스트 우리의 목표는 힌트가 주어지더라도 효과적인 표현을 얻는 것입니다. 모호한 경우(예: 셔츠 또는 사람) 출력은 객체 중 하나에 대해 합리적인 마스크여야 합니다. 이는 하나에 대해 일관적인 응답을 제공할 수 있는 빅 브라더 GPT와 같습니다. 이 작업을 통해 자연스러운 방식으로 언어 모델을 사전 훈련하고 힌트를 통해 다양한 분할 작업으로 제로샷 전환을 달성할 수 있기 때문입니다. 그 결과, 앞서 언급한 강력한 기능을 통해 이 아이디어의 실현 가능성이 확인되었습니다. 그러나 SAM은 더 이상 모델을 재교육할 필요가 없지만 chatGPT가 처음 출시되었을 때와 같이 여전히 몇 가지 제한 사항이 있다는 점을 언급해야 합니다. 논문의 제한 사항 섹션에서 저자 페이지는 세부 사항, 연결성, 경계 등의 결함뿐만 아니라 대화형 분할, 실시간, 텍스트 프롬프트와 같은 작업과 같은 SAM의 일부 제한 사항과 결함을 명확하게 지적합니다. , 의미론 및 파노라마 분할 문제를 해결하는 동시에 일부 도메인별 도구의 장점도 인정합니다.

예를 들어 데모에서 두 가지 간단한 테스트를 수행했습니다. 하나는 의료 이미지 분야의 병변 감지입니다. 병변이 너무 작아서 감지하기 어렵습니다. 두 번째는 세로 자르기, 잘라낸 세로는 보이는 것 같습니다. 좋아요. 하지만 아직 머리카락이 자연스럽지 않고, 자세히 보면 절단 자국이 보입니다.

물론, 이제 막 사업을 시작하고 아직도 열심히 일하고 있는 두 사람은 좋은 시작이네요. 그럼, 이 전투의 결과가 어떻게 될지 기다려 보겠습니다!

요약

Transformer의 거대한 제품군은 분명히 이 기사에서 설명할 수 있는 것이 아닙니다. Transformer를 기반으로 한 결과에 관해서 우리는 이 분야의 지속적인 혁신을 볼 수 있습니다. ViT(Vision Transformer)는 다음과 같은 역할을 보여줍니다. Transformer in 컴퓨터 비전 분야의 성공적인 응용 프로그램으로 수동 기능 엔지니어링 없이 이미지 픽셀 데이터를 직접 처리할 수 있습니다. DALL-E와 CLIP은 Transformer를 이미지 생성 및 이미지 분류 작업에 적용하여 시각적 의미 이해에서 탁월한 성능을 입증했습니다. Stable Diffusion은 확률 분포를 모델링할 수 있는 안정적인 확산 프로세스를 제안하며, 이는 이미지 분할 및 생성과 같은 작업에 적용할 수 있습니다. 이러한 결과는 Transformer 모델의 광범위한 적용 가능성을 공동으로 보여주며, 미래에는 "주의만 있으면 된다"는 사실을 인정해야 합니다.

요컨대, 우리는 이러한 결과에서 인공지능 분야의 지속적인 혁신의 생명력을 확인할 수 있습니다. GPT든 BERT든 Vision Transformer, DALL-E, CLIP, Stable Diffusion 등 이러한 성과는 인공지능 분야의 최신 발전을 의미합니다.

큰 시험(ChatGPT)이 진행되고 있는 지금, 현재 상황은 아마도 이렇습니다:

이번 학기 상위권 학생들이 수업을 잘 들었습니다. 책을 펼치면 의 목소리가 떠오릅니다. 그 수업에서 선생님이 이 지식에 대해 이야기했을 때 나는 웃으면서 다음 학기 공부 계획을 세우기 시작했습니다.

매일 수업에 찾아와 맨 앞줄을 점유하고 교과서를 펼쳐보지만 헷갈리는 사이비 학식의 스승들과 불량학생들 사이에는 '하루 한 권, 일주일에 한 학기'가 시작된다. 교과서가 새 것이 아니라는 점은 교과서 내용에 대한 약간의 기억이 아직 남아있어 새로운 지식에 대한 완전한 학습으로 간주되지 않는다는 것입니다.

진짜 쓰레기들은...

"지식은 온다, 지식은 온다, 지식은 사방에서 온다"

실제로는 가짜 학자든 쓰레기든 머물러야 한다고 생각합니다 기말고사 전에 차분하게 마음을 가라앉히고, 이번 학기에 배운 내용을 살펴보고, 상위권 학생들에게 노트를 빌리거나, 시험을 연기하는 등의 선택을 해보세요. 최고의 학자들에게는 속도가 자연스럽게 나옵니다. 가짜 학자와 쓰레기들에게는 속도가 해롭습니다.

인공지능 분야의 경쟁에서는 지속적인 혁신이 중요합니다. 그러므로 연구자로서 우리는 이 분야의 최신 발전에 세심한 주의를 기울이고, 인공지능 분야의 지속적인 발전을 도모하기 위해 겸손하고 열린 마음을 유지해야 합니다.

위 내용은 GPT-3부터 계속해서 Transformer의 거대한 가계도를 작성하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제