인공지능은 최근 몇 년 사이 가장 화두가 되었고, 순수 공상과학으로만 여겨졌던 서비스가 이제 신경망의 발달로 현실화되고 있습니다. 대화 에이전트에서 미디어 콘텐츠 생성에 이르기까지 인공 지능은 우리가 기술과 상호 작용하는 방식을 변화시키고 있습니다. 특히, 머신러닝(ML) 모델은 자연어 처리(NLP) 분야에서 상당한 발전을 이루었습니다. 핵심 혁신은 "self-attention"과 시퀀스 처리를 위한 Transformers 아키텍처의 도입으로, 이전에 해당 분야를 지배했던 몇 가지 핵심 문제를 해결할 수 있게 되었습니다.
이 기사에서는 혁신적인 Transformers 아키텍처와 그것이 NLP를 어떻게 변화시키고 있는지 살펴보고 BERT에서 Alpaca까지 Transformers 모델에 대한 포괄적인 검토를 제공하여 각 모델의 주요 기능과 그 기능을 강조합니다. 잠재적인 응용.
첫 번째 부분은 Transformer 인코더 기반 모델로 벡터화, 분류, 시퀀스 라벨링, QA(질문 및 답변), NER(명명된 엔터티 인식) 등에 사용됩니다.
Transformer 인코더, 워드피스 토큰화(30K 어휘). 입력 임베딩은 레이블 벡터, 학습 가능한 위치 벡터, 조각 벡터(첫 번째 텍스트 또는 두 번째 텍스트)의 세 가지 벡터로 구성됩니다. 모델 입력은 CLS 토큰 임베딩, 첫 번째 텍스트 임베딩, 두 번째 텍스트 임베딩입니다.
BERT에는 MLM(Masked Language Modeling)과 NSP(다음 문장 예측)라는 두 가지 훈련 작업이 있습니다. MLM에서는 토큰의 15%가 마스크되고, 80%는 MASK 토큰으로 대체되고, 10%는 무작위 토큰으로 대체되고, 10%는 변경되지 않은 상태로 유지됩니다. 모델은 올바른 토큰을 예측하며 손실은 차단된 토큰의 15%에 대해서만 계산됩니다. NSP에서 모델은 두 번째 텍스트가 첫 번째 텍스트 뒤에 오는지 여부를 예측합니다. CLS 토큰의 출력 벡터에 대한 예측이 이루어집니다.
훈련 속도를 높이기 위해 먼저 훈련의 90%는 128개 토큰의 시퀀스 길이에서 수행되고 나머지 10% 시간은 보다 효과적인 위치 임베딩을 얻기 위해 512개 토큰에서 모델을 훈련하는 데 사용됩니다.
BERT의 개선된 버전으로 MLM에서만 훈련되며(NSP는 덜 유용하다고 간주되기 때문에) 훈련 순서가 더 깁니다(512개 토큰). 동적 마스킹(동일한 데이터가 다시 처리되면 다른 토큰이 마스킹됨)을 사용하여 학습 하이퍼파라미터를 신중하게 선택합니다.
XLM에는 MLM과 번역이라는 두 가지 교육 작업이 있습니다. 번역은 본질적으로 한 쌍의 텍스트에 대한 MLM과 동일하지만 텍스트는 무작위 마스크 및 세그먼트 임베딩 인코딩 언어를 사용하여 서로 병렬 번역됩니다.
4. Transformer-XL Carnegie Mellon University / 2019
긴 텍스트는 여러 세그먼트로 나누어 한 번에 한 세그먼트씩 처리됩니다. 이전 세그먼트의 출력은 캐싱되며, 현재 세그먼트의 self-attention을 계산할 때 현재 세그먼트와 이전 세그먼트의 출력을 기반으로 키와 값을 계산합니다(그냥 연결했을 뿐입니다). 그라데이션은 현재 세그먼트 내에서만 계산됩니다.
이 방법은 절대 위치에서는 작동하지 않습니다. 따라서 Attention 가중치 공식은 모델에서 다시 매개변수화됩니다. 절대 위치 인코딩 벡터는 마커 위치 사이의 거리 사인과 모든 위치에 공통된 학습 가능한 벡터를 기반으로 하는 고정 행렬로 대체됩니다.
5. ERNIE Tsinghua University, Huawei / 2019
6. XLNet Carnegie Mellon University / 2019
XLNet은 MASK를 직접 사용하는 대신 짧은 컨텍스트에서 토큰을 예측하는 방법을 학습하는 PLM(대체 언어 모델링) 작업을 제외하고 Transformer-XL을 기반으로 합니다. 이렇게 하면 모든 마커에 대해 그라데이션이 계산되고 특수 마스크 마커가 필요하지 않습니다.
컨텍스트의 토큰은 뒤섞여 있지만(예: i번째 토큰은 i-2 및 i+1번째 토큰을 기반으로 예측할 수 있음) 위치는 여전히 알려져 있습니다. 이는 현재 위치 인코딩(Transformer-XL 포함)에서는 불가능합니다. 컨텍스트의 일부가 주어진 토큰의 확률을 예측하려고 할 때 모델은 토큰 자체를 알아야 하지만 컨텍스트에서 토큰의 위치를 알아야 합니다. 이 문제를 해결하기 위해 그들은 self-attention을 두 개의 스트림으로 나눕니다.
미세 조정 중에 쿼리 벡터를 무시하면 모델이 일반 Transformer-XL처럼 작동합니다.
실제로 모델에서는 모델이 올바르게 학습할 수 있을 만큼 컨텍스트가 충분히 길어야 합니다. RoBERTa와 동일한 양의 데이터로 학습하여 비슷한 결과를 얻었지만 구현의 복잡성으로 인해 모델이 RoBERTa만큼 인기를 끌지는 못했습니다.
품질 저하 없이 BERT 단순화:
모델은 MLM 및 SOP(문장 순서 예측)에 대해 훈련되었습니다.
BERT를 최적화하는 또 다른 방법은 증류입니다.
BERT 기반 다국어 벡터화 모델. MLM 및 TLM(마커의 20%가 마스크됨)에 대해 훈련된 다음 미세 조정됩니다. 100개 이상의 언어를 지원하며 50만 개의 태그된 어휘가 포함되어 있습니다.
생성적 적대 방법을 사용하여 BERT 훈련 가속화:
훈련 데이터 숫자는 RoBERTa 또는 XLNet과 동일하며 모델은 비슷한 수준의 품질로 BERT, RoBERTa 및 ALBERT보다 빠르게 학습합니다. 훈련 기간이 길어질수록 성능이 향상됩니다.
마커 벡터의 내용과 위치를 두 개의 개별 벡터로 분리하는 또 다른 모델:
완전한 Transformer를 기반으로 한 모델. 적용 범위는 매우 광범위합니다. 이전 섹션의 작업 외에도 대화 에이전트, 기계 번역, 논리적 및 수학적 추론, 코드 분석 및 생성, 기본적으로 텍스트 생성도 포함됩니다. 가장 크고 "가장 똑똑한" 모델은 일반적으로 디코더 아키텍처를 기반으로 합니다. 이러한 모델은 미세 조정 없이 퓨샷 및 제로샷 모드에서 잘 작동하는 경우가 많습니다.
디코더는 인과 LM(왼쪽 컨텍스트를 기반으로 다음 토큰 예측) 작업에 대해 훈련되었습니다. 아키텍처 관점에서 볼 때 몇 가지 사소한 변경 사항이 있습니다. 즉, 각 디코더 블록에서 교차 주의 레이어를 제거하고 LayerNorm을 사용하는 것입니다
사용된 토크나이저는 바이트 수준 BPE(50K 어휘)이며 ("dog", "dog!", "dog.")와 같은 유사한 하위 문자열을 사용하지 않습니다. 최대 시퀀스 길이는 1024입니다. 레이어 출력은 이전에 생성된 모든 태그를 캐시합니다.
MLM에 대한 전체 사전 훈련(토큰의 15%가 마스크됨), 코드로 마스크된 범위(
토큰 제거
이것은 Sparse Transformer 아키텍처와 2048개 토큰의 증가된 시퀀스 길이를 갖춘 GPT-2 모델입니다. 아직도 그 문장을 기억하시나요? Don't Ask, Ask it is GPT3
6, mT5 Google / 2020 T5 모델을 기반으로 유사한 훈련을 받았지만 다국어 데이터를 사용합니다. ReLU 활성화는 GeGLU로 대체되었으며 어휘는 250K 토큰으로 확장되었습니다. 7, GLAM Google / 2021이 모델은 개념적으로 Switch Transformer와 유사하지만 미세 조정보다는 몇 장의 샷 모드로 작업하는 데 더 중점을 둡니다. 다양한 크기의 모델은 32~256개의 전문가 레이어(K=2)를 사용합니다. Transformer-XL의 상대 위치 인코딩을 사용합니다. 토큰을 처리할 때 네트워크 매개변수의 10% 미만이 활성화됩니다. 8, LaMDA Google / 2021gpt 같은 모델. 이 모델은 인과 LM에 대해 사전 훈련되고 생성 및 판별 작업에 대해 미세 조정된 대화형 모델입니다. 모델은 외부 시스템(검색, 번역)을 호출할 수도 있습니다. 9. GPT-NeoX-20B EleutherAI / 2022이 모델은 GPT-J와 유사하며 회전 위치 인코딩도 사용합니다. 모델 가중치는 float16으로 표시됩니다. 최대 시퀀스 길이는 2048입니다. 10, BLOOM BigScience / 2022 46개 언어, 13개 프로그래밍 언어로 지원되는 최대 오픈소스 모델입니다. 모델을 교육하기 위해 약 500개의 공개 데이터 세트가 포함된 ROOTS라는 대규모 집계 데이터 세트가 사용됩니다. 11, PaLM Google / 2022이것은 Adafactor를 사용하여 훈련하고 사전 훈련 중에 드롭아웃을 비활성화하고 미세 조정 중에 0.1을 사용하는 대규모 다국어 디코더 모델입니다. 12, LLaMA Meta/2023다중 교육 모델을 훈련하는 데 사용된 과학 연구용 오픈 소스 대규모 gpt형 LM입니다. 이 모델은 Pre-LayerNorm, SwiGLU 활성화 및 RoPE 위치 임베딩을 사용합니다. 오픈소스이기 때문에 코너에서 추월하기 위한 주요 모델 중 하나입니다. 텍스트용 안내 모델이러한 모델 캡처는 모델 출력(예: RLHF)을 수정하여 대화 및 작업 해결 중 응답 품질을 향상시키는 데 사용됩니다. 1. InstructGPT OpenAI/2022이 작업은 지침을 효율적으로 따르도록 GPT-3를 적용합니다. 이 모델은 인간이 일련의 기준에 따라 좋다고 생각하는 힌트와 답변으로 구성된 데이터 세트에서 미세 조정됩니다. InstructGPT를 기반으로 OpenAI는 현재 ChatGPT로 알려진 모델을 만들었습니다. 2, Flan-T5 Google / 2022T5에 적합한 안내 모델입니다. 일부 작업에서는 Flan-T5 11B가 이러한 미세 조정 없이 PaLM 62B보다 성능이 뛰어났습니다. 이 모델은 오픈 소스로 출시되었습니다. 3. Sparrow DeepMind / 2022 기본 모델은 선택된 고품질 대화에서 Chinchilla를 미세 조정하여 얻은 것이며 레이어의 처음 80%는 동결됩니다. 그런 다음 모델은 대화를 안내하는 큰 프롬프트를 사용하여 추가로 훈련되었습니다. Chinchilla를 기반으로 여러 보상 모델도 훈련되었습니다. 모델은 검색 엔진에 액세스하여 응답이 될 수 있는 최대 500자의 스니펫을 검색할 수 있습니다. 추론 중에 보상 모델은 후보자 순위를 매기는 데 사용됩니다. 후보는 모델에 의해 생성되거나 검색에서 얻은 다음 가장 좋은 후보가 응답이 됩니다.위의 LLaMA 안내 모델. 주요 초점은 GPT-3을 사용하여 데이터 세트를 구축하는 프로세스입니다.
총 52K개의 고유한 트리플이 LLaMA 7B에서 생성되고 미세 조정되었습니다.
이것은 명령어 데이터에 대한 LLaMA를 미세 조정하는 것이지만 위의 알파카와 달리 GPT-3와 같은 대형 모델에서 생성된 데이터에 대해서만 미세 조정하는 것이 아닙니다. 데이터 세트의 구성은 다음과 같습니다.
텍스트 설명을 기반으로 하는 이미지 생성기. 변환기와 결합된 확산 모델이 이 분야를 지배하여 이미지 생성뿐만 아니라 콘텐츠 조작 및 해상도 향상도 가능하게 합니다.
이 작업은 이미지 라벨링 교육과 텍스트 및 이미지의 공동 생성 모델 학습의 두 단계로 수행됩니다.
사용된 주요 모델은 스파스 트랜스포머 디코더입니다. 텍스트 토큰과 이미지 토큰을 입력으로 사용하여 모델은 공동 분포(Causal LM)를 학습한 후 텍스트를 기반으로 이미지 토큰을 생성할 수 있습니다. dVAE는 동일한 토큰을 기반으로 이미지를 생성합니다. 텍스트 태그의 체중 감량은 1/8이고, 이미지 태그의 체중 감량은 7/8입니다.
텍스트 태그에는 일반 임베딩과 위치 임베딩이 있고, 이미지 태그에는 일반 임베딩, 열 위치 임베딩, 행 위치 임베딩이 있습니다. 텍스트 토큰 시퀀스의 최대 길이는 256이고 토큰화는 BPE(16K 어휘)입니다.
2. GLIDE OpenAI / 2021
픽셀 수준에서 작동하고 텍스트로 제어되는 확산 모델(DM)입니다. Convolution, Attention 및 Residual Connection을 갖춘 U-Net 아키텍처를 기반으로 합니다. 생성을 제어하려면 다양한 방법을 사용하십시오. CLIP
픽셀 공간에서 작동하는 확산 모델에는 주로 2가지 모델이 포함됩니다:
A 잠재 공간 차원 축소 및 생성에서 생성된 VAE 자동 인코더의 내부 표현에 대한 DM이 다재다능한 모델은 텍스트를 이미지로 변환, 색상화, 페인팅, 초해상도 등 다양한 작업에 맞게 훈련할 수 있습니다.
4, Imagen Google / 2022
Imagen의 주요 아이디어는 텍스트 인코더의 크기를 늘리면 DM 크기를 늘리는 것보다 생성 모델에 더 많은 이점을 가져올 수 있다는 것입니다. 그래서 CLIP은 T5-XXL로 교체되었습니다.
이 섹션의 모델은 다양한 성격의 데이터를 분석하면서 텍스트를 생성하기 때문에 다중 모드 모델이라고도 합니다. 생성된 텍스트는 자연어이거나 로봇과 같은 명령 집합일 수 있습니다.
별도의 이미지 인코더(ViT 또는 CNN) + 공유 디코더. 전반부는 텍스트를 처리하고 후반부는 이미지 인코더의 출력과 함께 텍스트를 처리합니다.
디코더 전반부 출력은 문장 끝 부분의 텍스트 벡터와 CLS 토큰 벡터로, 문장형(64K 어휘)을 사용하여 토큰화됩니다. 텍스트와 이미지 벡터는 크로스어텐션을 통해 디코더의 후반부에서 병합됩니다.
두 손실의 가중치는 다음과 같습니다.
이미지의 주의 풀 벡터와 이미지 설명 쌍 텍스트의 CLS 태그 벡터 간의 유사성. 전체 디코더 출력에 대한 자동 회귀 손실(이미지에 따라 다름)이미지는 ViT로 인코딩되고, 출력 벡터와 텍스트 토큰 및 명령이 PaLM에 공급되고 PaLM이 출력 텍스트를 생성합니다.
PaLM-E는 VQA, 물체 감지, 로봇 작동을 포함한 모든 작업에 사용됩니다.
이것은 알려진 세부 사항이 거의 없는 폐쇄형 모델입니다. 아마도 주의력이 희박하고 다중 모드 입력을 갖춘 디코더가 있을 것입니다. 이는 8K에서 32K까지의 시퀀스 길이를 갖는 자동 회귀 훈련 및 미세 조정 RLHF를 사용합니다.
0 및 소수의 샘플을 사용하여 인간 시험에서 테스트되었으며 인간과 유사한 수준에 도달했습니다. 이미지 기반 문제(수학적 문제 포함)를 즉각적이고 단계별로 해결하고, 이미지를 이해하고 해석하며, 코드를 분석하고 생성할 수 있습니다. 소수 언어를 포함한 다양한 언어에도 적합합니다.
다음은 간략한 결론입니다. 불완전하거나 단순히 부정확할 수 있으며 참조용으로만 제공됩니다.
자동 그래픽 카드를 채굴할 수 없게 된 이후 다양한 대형 모델이 몰려들고 모델의 저변도 성장했지만 단순한 레이어 증가와 데이터 세트의 증가는 이를 가능하게 하는 다양한 더 나은 기술로 대체되었습니다. 품질 개선(외부 데이터 및 도구 사용, 향상된 네트워크 구조 및 새로운 미세 조정 기술 사용) 그러나 점점 더 많은 연구 결과에 따르면 교육 데이터의 품질이 양보다 더 중요하다는 사실이 드러났습니다. 데이터 세트를 올바르게 선택하고 구성하면 교육 시간을 줄이고 결과의 품질을 향상시킬 수 있습니다.
OpenAI는 이제 비공개 소스로 전환되어 GPT-2의 가중치를 공개하지 않으려고 시도했지만 실패했습니다. 그러나 GPT4는 블랙박스입니다. 최근 몇 달 동안 오픈 소스 모델의 미세 조정 비용과 추론 속도를 개선하고 최적화하는 추세로 인해 오픈 소스 모델도 빠르게 따라잡으면서 대규모 프라이빗 모델의 가치가 크게 떨어졌습니다. 코너에서 다시 추월할 수 있는 품질의 거인입니다.
최종 오픈 소스 모델의 요약은 다음과 같습니다.
위 내용은 참고용입니다.
위 내용은 트랜스포머 리뷰: BERT에서 GPT4까지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!