>  기사  >  기술 주변기기  >  대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

WBOY
WBOY앞으로
2023-04-07 21:21:011857검색

1950년대 튜링 테스트가 제안된 이후 사람들은 기계가 언어 지능을 처리하는 능력을 탐구해 왔습니다. 언어는 본질적으로 문법 규칙에 따라 관리되는 인간 표현의 복잡한 시스템입니다. 따라서 언어를 이해하고 마스터할 수 있는 강력한 AI 알고리즘을 개발하는 데는 큰 어려움이 있습니다. 지난 20년 동안 통계적 언어 모델, 신경 언어 모델 등 언어 모델링 방법이 언어 이해 및 생성을 위해 널리 사용되었습니다.

최근 몇 년 동안 연구자들은 대규모 말뭉치에서 Transformer 모델을 사전 학습하여 사전 학습된 언어 모델(PLM)을 제작했으며, 다양한 NLP 작업을 해결하는 데 강력한 역량을 입증했습니다. 그리고 연구진은 모델 스케일링이 성능 향상을 가져올 수 있다는 사실을 발견하고 모델 크기를 늘려 스케일링 효과를 더 연구했습니다. 흥미롭게도 매개변수 크기가 특정 수준을 초과하면 이 더 큰 언어 모델은 상당한 성능 향상을 달성하고 컨텍스트 학습과 같이 작은 모델에는 존재하지 않는 기능을 나타냅니다. PLM과 구별하기 위해 이러한 모델을 LLM(대형 언어 모델)이라고 합니다.

2019년 Google T5부터 OpenAI GPT 시리즈까지, 폭발적인 매개변수 크기를 갖춘 대형 모델이 계속해서 등장하고 있습니다. 특히, 지난해 11월 말 대규모 대화 모델인 ChatGPT가 등장하면서 각계각층에서 폭넓은 관심을 끌었습니다. LLM의 기술 발전은 전체 AI 커뮤니티에 중요한 영향을 미쳤으며 사람들이 AI 알고리즘을 개발하고 사용하는 방식에 혁명을 일으킬 것입니다.

LLM의 급속한 기술 발전을 고려하여 중국 인민대학교의 24명 이상의 연구원은 사전 교육과 LLM의 조정, 사용 및 기능 평가. 또한 LLM에 사용 가능한 리소스를 요약 및 개발하고 향후 개발 방향 및 기타 문제에 대해 논의했습니다. 이 리뷰는 해당 분야의 연구자와 엔지니어에게 매우 유용한 학습 리소스입니다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

논문 링크: https://arxiv.org/abs/2303.18223

텍스트를 입력하기 전에 먼저 다양한 대형 언어 모델(수천억 개의 매개변수)을 살펴보겠습니다. 위) 노란색으로 표시된 대형 모델이 오픈소스로 공개된 타임라인.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

LLM 개요

첫 번째 섹션에서 연구원은 LLM의 배경, 역량, 핵심 기술을 자세히 소개했습니다.

LLM의 배경

일반적으로 LLM(대형 언어 모델)은 GPT 모델과 같이 대량의 텍스트 데이터에 대해 훈련된 수천억 개(또는 그 이상)의 매개변수를 포함하는 언어 모델을 나타냅니다. 3, PaLM, Galactica 및 LLaMA. 특히 LLM은 매우 깊은 신경망에 다중 헤드 주의 레이어가 쌓인 Transformer 아키텍처를 기반으로 구축되었습니다. 기존 LLM은 주로 작은 언어 모델과 유사한 모델 아키텍처(예: Transformer)와 사전 학습 목표(예: 언어 모델링)를 사용합니다. 주요 차이점으로 LLM은 모델 크기, 사전 학습 데이터 및 전체 계산(확장 요소)을 크게 확장합니다. 자연어를 더 잘 이해하고 주어진 컨텍스트(예: 프롬프트)를 기반으로 고품질 텍스트를 생성할 수 있습니다. 이러한 용량 향상은 부분적으로 모델 크기가 크게 증가하면 성능이 증가하는 확장 법칙으로 설명할 수 있습니다. 그러나 스케일링 법칙에 따르면 일부 능력(예: 상황별 학습)은 예측할 수 없으며 모델 크기가 특정 수준을 초과하는 경우에만 관찰할 수 있습니다.

LLM의 창발적 역량

LLM의 창발적 역량은 공식적으로 "소형 모델에는 없지만 대형 모델에서 나타나는 역량"으로 정의되며, 이는 LLM을 이전 PLM과 구별하는 것 중 하나입니다. 가장 독특한 특징. 이 새로운 기능이 등장하면 주목할만한 기능도 도입됩니다. 즉, 규모가 특정 수준에 도달하면 성능이 무작위보다 훨씬 높습니다. 비유하자면, 이 새로운 모델은 물리학의 상전이 현상과 밀접한 관련이 있습니다. 원칙적으로 이 능력은 일부 복잡한 작업과도 관련될 수 있는 반면, 사람들은 여러 작업을 해결하는 데 적용할 수 있는 일반적인 능력에 더 관심을 갖습니다. 다음은 LLM의 세 가지 대표적인 창발 역량에 대한 간략한 소개입니다.

상황별 학습. GPT-3는 상황별 학습 기능을 공식적으로 도입합니다. 언어 모델에 자연어 지침과 여러 작업 설명이 제공되었다고 가정하면 추가 교육이나 그라데이션 없이 입력 텍스트의 단어 시퀀스를 완성하여 테스트 인스턴스의 예상 출력을 생성할 수 있습니다. 업데이트.

따라야 할 지침. LLM은 명령 형식으로도 설명되는 자연어 설명(예: 명령)으로 형식화된 다중 작업 데이터 세트의 혼합을 미세 조정하여 작은 작업에서 잘 수행됩니다. 이 용량에서 명령 조정을 통해 LLM은 명시적 샘플을 사용하지 않고도 작업 명령을 이해함으로써 새로운 작업을 수행할 수 있으며, 이는 일반화 기능을 크게 향상시킬 수 있습니다.

단계별 추론. 소규모 언어 모델의 경우 수학 과목의 단어 문제와 같이 여러 추론 단계가 포함된 복잡한 작업을 해결하기 어려운 경우가 많습니다. 동시에 LLM은 사고 사슬 추론 전략을 통해 중간 추론 단계를 포함하는 신속한 메커니즘을 활용하여 최종 답에 도달하기 위한 과제를 해결할 수 있습니다. 아마도 이 능력은 코딩 훈련을 통해 획득될 수 있을 것이다.

주요 기술

다음으로 확장, 교육, 역량 강화, 정렬 최적화, 도구 활용 등 LLM의 핵심 기술을 살펴보겠습니다.

줌. 스케일링은 LLM의 모델 용량을 늘리는 핵심 요소입니다. 처음에 GPT-3는 모델 매개변수를 1,750억개로 늘렸고, 이후 PaLM은 모델 매개변수를 5,400억개로 더 늘렸습니다. 대규모 매개변수는 긴급 기능에 매우 중요합니다. 확장은 모델 크기뿐만 아니라 데이터 크기 및 총 계산 노력에 관한 것입니다.

훈련. 규모가 크기 때문에 강력한 역량을 갖춘 LLM을 성공적으로 교육하는 것은 매우 어렵습니다. 따라서 LLM의 네트워크 매개변수를 학습하려면 종종 다양한 병렬 전략의 조합을 사용하여 분산 훈련 알고리즘이 필요합니다. 분산 훈련을 지원하기 위해 DeepSpeed ​​및 Megatron-LM과 같은 최적화 프레임워크를 사용하여 병렬 알고리즘의 구현 및 배포를 촉진합니다. 또한 훈련 손실 급증 및 혼합 정밀도 훈련 다시 시작과 같은 최적화 기술은 훈련 안정성과 모델 성능에 중요합니다. 최근 GPT-4는 훨씬 작은 모델을 활용하여 대규모 모델의 성능을 예측할 수 있는 특수 인프라 및 최적화 방법을 개발했습니다.

능력자극. 대규모 코퍼스에 대한 사전 교육을 받은 LLM은 일반적인 작업을 해결할 수 있는 잠재적인 능력을 부여받습니다. 그러나 LLM이 특정 작업을 수행할 때 이러한 기능이 명시적으로 입증되지 않을 수 있습니다. 따라서 이러한 능력을 자극하기 위해 적절한 작업 지침이나 특정 상황별 전략을 설계하는 것은 매우 유용합니다. 예를 들어, 사고 체인 프롬프트는 중간 추론 단계를 통해 복잡한 추론 작업을 해결하는 데 도움이 될 수 있습니다. 또한 자연어 작업 설명을 사용하여 LLM에 대한 지침을 추가로 조정하여 보이지 않는 작업에 대한 일반화를 향상할 수 있습니다.

정렬 튜닝. LLM은 사전 훈련된 말뭉치(고품질 및 저품질 데이터 포함)의 데이터 특성을 캡처하도록 훈련되었으므로 독성이 있고 편견이 있으며 유해한 텍스트 콘텐츠를 생성할 가능성이 높습니다. LLM을 인간의 가치에 맞추기 위해 InstructGPT는 LLM이 예상 지침을 따를 수 있도록 강화 학습과 인간의 피드백을 활용하는 효율적인 조정 방법을 설계했습니다. ChatGPT는 InstructGPT와 유사한 기술을 기반으로 개발되었으며 고품질의 무해한 응답을 생성하는 강력한 정렬 기능을 입증했습니다.

도구 활용. LLM은 기본적으로 대규모 일반 텍스트 말뭉치에 대해 훈련된 텍스트 생성기이므로 텍스트가 제대로 표현되지 않는 수치 계산과 같은 작업에서는 제대로 수행되지 않습니다. 또한 LLM의 기능은 사전 교육 데이터로 인해 제한되며 최신 정보를 캡처할 수 없습니다. 이러한 문제에 대응하여 사람들은 계산기를 사용하여 정확한 계산을 수행하고 검색 엔진을 사용하여 알려지지 않은 정보를 검색하는 등 LLM의 단점을 보완하기 위해 외부 도구를 사용할 것을 제안했습니다. ChatGPT는 또한 외부 플러그인을 사용하여 온라인으로 새로운 지식을 학습합니다. 이 메커니즘은 LLM의 기능을 광범위하게 확장할 수 있습니다.

LLM 리소스

어려운 기술적 문제와 막대한 계산 리소스 요구 사항을 고려할 때 LLM을 개발하거나 복제하는 것은 결코 쉬운 작업이 아닙니다. 한 가지 가능한 접근 방식은 기존 LLM에서 배우고 점진적인 개발 또는 실험 연구를 위해 공개적으로 사용 가능한 리소스를 재사용하는 것입니다.

3장에서는 연구자가 주로 LLM에 유용한 오픈소스 모델 체크포인트나 API, 사용 가능한 말뭉치, 라이브러리 등을 요약합니다. 아래 표 1은 최근 몇 년간 100억 개가 넘는 매개변수를 가진 대형 모델의 통계 데이터를 보여준다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

아래 표 2에는 일반적으로 사용되는 데이터 소스가 나열되어 있습니다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

사전 교육

사전 교육은 LLM의 역량 기반을 구축합니다. LLM은 대규모 말뭉치에 대한 사전 교육을 통해 기본적인 언어 이해 및 제작 기술을 습득할 수 있습니다. 이 프로세스에서 사전 훈련 코퍼스의 크기와 품질은 LLM이 강력한 역량을 달성하는 데 핵심입니다. 또한 LLM을 효과적으로 사전 훈련하려면 모델 아키텍처, 가속 방법 및 최적화 기술을 모두 신중하게 설계해야 합니다. 섹션 4에서 연구자는 섹션 4.1에서 먼저 데이터 수집 및 처리에 대해 논의한 다음 섹션 4.2에서 일반적으로 사용되는 모델 아키텍처를 소개하고 마지막으로 섹션 4.3에서 LLM의 안정적이고 효과적인 최적화를 위한 훈련 기술을 소개합니다.

데이터 수집

강력한 LLM을 개발하려면 다양한 데이터 소스에서 대량의 자연어 코퍼스를 수집하는 것이 중요합니다. 기존 LLM은 주로 사전 훈련 말뭉치로 다양한 공개 텍스트 데이터 세트를 활용합니다. 아래 그림 2에는 기존 LLM에 대한 사전 훈련된 데이터 소스의 분포가 나열되어 있습니다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

대량의 텍스트 데이터를 수집한 후에는 잡음 제거, 중복 제거, 관련이 없고 잠재적으로 독성이 있는 데이터 제거를 포함하여 사전 훈련 코퍼스를 구축하기 위해 사전 훈련을 받아야 합니다. 아래 그림 3은 LLM용 데이터 사전 학습을 위한 사전 처리 파이프라인을 보여줍니다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

Architecture

이 섹션에서 연구원은 LLM의 아키텍처 설계, 즉 주류 아키텍처, 사전 학습 대상 및 세부 구성을 검토합니다. 아래 표 3에는 공개적으로 사용 가능한 세부 정보가 포함된 여러 대표적인 LLM의 모델 카드가 나열되어 있습니다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

Transformer 아키텍처는 뛰어난 병렬화 및 용량으로 인해 다양한 LLM 개발의 중추가 되어 언어 모델을 수천억 개의 매개변수로 확장할 수 있습니다. 일반적으로 기존 LLM의 주류 아키텍처는 크게 인코더-디코더, 임시 디코더, 접두사 디코더의 세 가지 주요 범주로 나눌 수 있습니다.

Transformer가 등장한 이후 훈련 안정성, 성능 및 계산 효율성을 향상시키기 위해 다양한 개선 사항이 제안되었습니다. 이 부분에서 연구원들은 정규화, 위치 인코딩, 활성화 기능, 주의 메커니즘 및 바이어스를 포함하여 Transformer의 네 가지 주요 부분의 해당 구성에 대해 논의합니다.

사전 훈련은 대규모 말뭉치의 일반 지식을 대규모 모델 매개변수로 인코딩하는 매우 중요한 역할을 합니다. LLM 교육에는 일반적으로 사용되는 두 가지 사전 교육 작업, 즉 언어 모델링과 노이즈 제거 자동 인코딩이 있습니다.

모델 교육

이 섹션에서 연구원은 LLM 교육을 위한 중요한 설정, 기술 및 기술을 검토합니다.

LLM의 매개변수 최적화를 위해 연구원들은 일반적으로 사용되는 배치 훈련, 학습 속도, 최적화 및 훈련 안정성 설정을 제안했습니다.

모델과 데이터 크기가 증가함에 따라 제한된 컴퓨팅 리소스로 LLM 모델을 효과적으로 교육하는 것이 어려워졌습니다. 특히 입력에 의한 훈련을 늘리고 더 큰 모델을 GPU 메모리에 로드하는 등 두 가지 주요 기술 문제를 해결해야 합니다. 이 섹션에서는 위의 두 가지 문제를 해결하기 위해 기존 작업에서 널리 사용되는 여러 가지 방법, 즉 3D 병렬성, ZeRO 및 혼합 정밀도 교육을 검토하고 이러한 방법을 교육에 활용하는 방법에 대한 제안을 제공합니다.

Adaptive Tuning of LLM

사전 교육을 받은 후 LLM은 다양한 작업을 해결하는 일반적인 능력을 습득할 수 있습니다. 그러나 점점 더 많은 연구 결과에 따르면 LLM의 기능이 특정 목표에 맞게 더욱 맞춤화될 수 있다고 합니다. 섹션 5에서 연구원들은 사전 훈련된 LLM을 튜닝하는 두 가지 주요 방법, 즉 명령 튜닝과 정렬 튜닝을 자세히 소개합니다. 전자의 접근 방식은 주로 LLM의 기능을 향상하거나 잠금 해제하는 것이고, 후자의 접근 방식은 LLM의 행동을 인간의 가치나 선호도와 일치하게 만드는 것입니다.

명령어 조정

본질적으로 명령 조정은 자연어 형식의 형식화된 예제 모음에 대해 사전 훈련된 LLM을 미세 조정하는 방법으로, 감독된 미세 조정 및 다중 작업 프롬프트 교육. 명령어 튜닝을 수행하려면 먼저 명령어 형식의 인스턴스를 수집하거나 구축해야 합니다. 그런 다음 일반적으로 이러한 형식의 인스턴스를 사용하여 지도 학습 방식(예: 시퀀스 간 손실을 사용하여 교육)으로 LLM을 미세 조정합니다. 지침이 조정되면 LLM은 다국어 환경에서도 보이지 않는 작업을 일반화하는 뛰어난 능력을 보여줄 수 있습니다.

최근 설문조사에서는 명령어 튜닝 연구에 대한 체계적인 개요를 제공합니다. 이와 대조적으로 이 문서에서는 명령 튜닝이 LLM에 미치는 영향에 중점을 두고 인스턴스 수집 및 튜닝에 대한 자세한 지침이나 전략을 제공합니다. 또한 본 논문에서는 InstructGPT, GPT-4 등 기존 LLM에서 널리 사용되어 온 사용자의 실제 요구 사항을 충족하기 위한 명령어 튜닝의 사용에 대해 논의합니다.

형식화된 인스턴스 구성: 일반적으로 명령어 형식의 인스턴스는 작업 설명(명령어라고 함), 입력-출력 쌍 및 소수의 데모(선택 사항)로 구성됩니다. 기존 연구에서는 중요한 공공 자원으로 자연어 형식의 라벨링된 데이터를 대량으로 공개했습니다(사용 가능한 자원 목록은 표 5 참조). 다음으로 이 기사에서는 형식화된 인스턴스를 구성하는 두 가지 주요 방법을 소개하고(그림 4의 그림 참조) 인스턴스 구성의 몇 가지 주요 요소에 대해 설명합니다.

명령 조정 전략: 사전 훈련과 달리 명령 조정은 훈련에 적당한 수의 인스턴스만 사용되기 때문에 일반적으로 더 효율적입니다. 명령 조정은 감독되는 훈련 프로세스로 간주될 수 있지만 최적화는 훈련 목표(예: 시퀀스 간 손실), 최적화 구성(예: 더 작은 배치 크기) 및 학습 속도와 같은 여러 측면에서 사전 훈련과 다릅니다. ), 실제로는 특별한 주의가 필요합니다. 이러한 최적화 구성 외에도 명령어 튜닝에서는 두 가지 중요한 측면도 고려해야 합니다.

  • 균형 잡힌 데이터 배포.
  • 지시 튜닝과 사전 교육이 결합되었습니다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

Alignment Tuning

이 섹션에서는 먼저 정렬의 배경과 정의 및 표준을 소개한 다음 LLM 정렬을 위한 인간 피드백 데이터 수집에 중점을 두고 마지막으로 The의 사용에 대해 논의합니다. 정렬 조정을 위한 인간 피드백 강화 학습의 핵심 기술입니다.

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

사용

사전 훈련 또는 적응 후 LLM을 사용하는 주요 방법 중 하나는 다양한 작업을 해결하기 위한 적절한 프롬프트 전략을 설계하는 것입니다. 일반적인 신속한 접근 방식은 자연어 텍스트 형식으로 작업 설명이나 데모를 공식화하는 상황 내 학습입니다. 또한, 사고 사슬 프롬프트 방법은 일련의 중간 추론 단계를 프롬프트에 통합하여 상황별 학습을 향상시킬 수 있습니다. 6장에서 연구자들은 이 두 가지 기술에 대해 자세히 소개한다.

상황별 학습


대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

상황별 학습(ICL)은 특별한 프롬프트 형태로 GPT-3에서 처음 제안되었으며 LLM을 활용하는 일반적인 방법이 되었습니다.

사고 연쇄 프롬프트

CoT(Chain of Thoughts)는 산술 추론, 상식 추론, 기호 추론과 같은 복잡한 추론 작업에서 LLM의 성능을 향상시킬 수 있는 향상된 프롬프트 전략입니다. CoT는 단순히 ICL과 같은 입력-출력 쌍으로 프롬프트를 구축하는 대신 최종 출력으로 이어지는 프롬프트 중간 추론 단계를 통합합니다. 섹션 6.2에서는 CoT와 ICL의 사용을 자세히 설명하고 CoT가 효과적인 시기와 이유를 논의합니다.

역량 평가

LLM의 효과와 우수성을 연구하기 위해 연구자들은 실증적 평가 및 분석을 위해 수많은 작업과 벤치마크를 활용했습니다. 섹션 7에서는 먼저 언어 생산 및 이해를 위한 세 가지 LLM의 기본 평가 작업을 소개한 다음 보다 복잡한 설정이나 목표를 가진 LLM의 여러 고급 작업을 소개하고 마지막으로 기존 벤치마크 및 실증 분석을 논의합니다.

기본 평가 작업

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰

그림 7: LLM을 노출하는 내부 및 외부 환상의 예(접근 날짜: 2023년 3월 19일). 내부 환각의 예로 LLM은 입력 내용과 모순되는 Cindy와 Amy의 관계에 대한 판단을 내립니다. 외적 환각의 경우 이 경우 LLM은 LLM이 의미하는 바를 정확하게 이해하고 있음에도 불구하고 RLHF(인간 피드백을 통한 강화 학습)의 의미를 잘못 이해하고 있는 것으로 보입니다.

고급 작업 평가

위의 기본 평가 작업 외에도 LLM은 특별 평가가 필요한 몇 가지 고급 능력도 보여줍니다. 섹션 7.2에서 연구자들은 수동 정렬, 외부 환경과의 상호 작용 및 도구 작동을 포함하여 몇 가지 대표적인 고급 기능과 해당 평가 방법을 논의합니다.

요약 및 향후 방향

마지막 섹션에서 연구원은 이번 설문조사에 대한 논의를 요약하고 LLM의 과제와 향후 발전 방향을 다음과 같은 측면에서 소개했습니다.

이론 및 원리: LLM의 기본 작동 메커니즘을 이해하기 위한 가장 큰 미스터리 중 하나는 매우 큰 심층 신경망을 통해 정보가 어떻게 배포, 구성 및 활용되는지입니다. LLM 역량의 기반을 구축하는 기본 원칙이나 요소를 밝히는 것이 중요합니다. 특히 스케일링은 LLM의 역량을 향상시키는 데 중요한 역할을 하는 것으로 보입니다. 기존 연구에 따르면 언어 모델의 매개변수 크기가 임계점(예: 10B)으로 증가하면 일반적으로 상황별 학습, 지침 따르기 및 단계적 학습을 포함하여 일부 새로운 기능이 예상치 못한 방식(성능의 급격한 도약)으로 나타납니다. 단계별 추론. 이러한 "창발" 능력은 매혹적이지만 수수께끼이기도 합니다. LLM은 언제, 어떻게 이러한 능력을 획득합니까? 최근의 일부 연구에서는 새로운 능력의 효과와 이를 가능하게 하는 요인을 조사하는 광범위한 실험을 수행하거나 기존의 이론적 틀을 사용하여 특정 능력을 설명했습니다. GPT 모델 제품군을 대상으로 하는 통찰력 있는 기술 게시물도 이 주제를 구체적으로 다루고 있지만 LLM의 기능이나 동작을 이해, 설명 및 설명하기 위한 보다 공식적인 이론과 원칙은 아직 부족합니다. 창발적 역량은 본질적으로 단계 전환과 매우 유사하므로 학제간 이론이나 원칙(예: LLM이 일종의 복잡한 시스템으로 간주될 수 있는지 여부)이 LLM의 동작을 설명하고 이해하는 데 도움이 될 수 있습니다. 이러한 근본적인 질문은 연구 커뮤니티에서 탐구할 가치가 있으며 차세대 LLM을 개발하는 데 중요합니다.

모델 아키텍처: 적층형 다중 헤드 Self-Attention 레이어로 구성된 Transformer는 확장성과 효율성으로 인해 LLM 구축을 위한 일반적인 아키텍처가 되었습니다. 신경망 구성 및 확장 가능한 병렬 훈련과 같은 이 아키텍처의 성능을 향상시키기 위한 다양한 전략이 제안되었습니다(섹션 4.2.2의 논의 참조). 모델의 용량(예: 다중 턴 대화 기능)을 더욱 향상시키기 위해 기존 LLM은 일반적으로 긴 컨텍스트 길이를 유지합니다. 예를 들어 GPT-4-32k는 32768 토큰의 매우 긴 컨텍스트 길이를 갖습니다. 따라서 실질적인 고려 사항은 표준 self-attention 메커니즘으로 인해 발생하는 시간 복잡도(원시적 2차 비용)를 줄이는 것입니다.

또한 GPT-3에서 사용된 Sparse Attention과 같이 보다 효율적인 Transformer 변형이 LLM 구축에 미치는 영향을 연구하는 것이 중요합니다. 치명적인 망각은 신경망에도 문제가 되어 LLM에 부정적인 영향을 미쳤습니다. LLM이 새로운 데이터로 조정되면 이전에 학습한 지식이 파괴될 가능성이 있습니다. 예를 들어 일부 특정 작업에 대해 LLM을 미세 조정하면 일반적인 기능에 영향을 미칠 수 있습니다. LLM이 인간 가치와 일치할 때 유사한 상황이 발생하며 이를 정렬 세금이라고 합니다. 따라서 데이터 업데이트 및 작업 전문화를 효과적으로 지원하기 위해 보다 유연한 메커니즘이나 모듈로 기존 아키텍처를 확장하는 것을 고려할 필요가 있습니다.

모델 교육: 실제로 사용 가능한 LLM을 사전 교육하는 것은 엄청난 계산 노력과 데이터 품질 및 교육 기술에 대한 민감성으로 인해 매우 어렵습니다. 따라서 모델 효율성, 효율성 최적화 및 훈련 안정성과 같은 요소를 고려하여 LLM을 최적화하기 위한 보다 체계적이고 경제적인 사전 훈련 방법을 개발하는 것이 특히 중요합니다. 훈련 초기에 이상 현상을 포착하기 위해 더 많은 모델 검사 또는 성능 진단 방법(예: GPT-4의 예측 가능한 확장)을 개발하십시오. 또한 컴퓨팅 클러스터의 리소스를 더 잘 구성하고 활용하려면 보다 유연한 하드웨어 지원이나 리소스 예약 메커니즘도 필요합니다. LLM을 처음부터 사전 훈련하는 것은 비용이 많이 들기 때문에 공개적으로 사용 가능한 모델 체크포인트(예: LLaMA 및 Flan-T5)를 기반으로 LLM을 지속적으로 사전 훈련하거나 미세 조정하도록 적합한 메커니즘을 설계해야 합니다. 이를 위해서는 데이터 불일치, 치명적인 망각, 작업 전문화 등 여러 기술적 문제를 해결해야 합니다. 지금까지는 완전한 전처리 및 훈련 로그(예: 사전 훈련 데이터를 준비하기 위한 스크립트)가 있는 재현 가능한 LLM에 대한 오픈 소스 모델 체크포인트가 여전히 부족합니다. LLM 연구를 위해 더 많은 오픈 소스 모델을 제공하는 것은 매우 가치 있는 일입니다. 또한 모델 역량을 효과적으로 자극하기 위해서는 보다 향상된 조정 전략과 연구 메커니즘을 개발하는 것도 중요합니다.

모델 사용: 실제 응용 프로그램에서는 미세 조정에 비용이 많이 들기 때문에 프롬프트는 LLM을 사용하는 주요 방법이 되었습니다. 작업 설명과 데모 예제를 프롬프트로 결합함으로써 상황별 학습(프롬프트의 특별한 형태)은 LLM에게 새로운 작업에 대한 우수한 성능을 제공하며 경우에 따라 전체 데이터 미세 조정 모델보다 뛰어난 성능을 발휘합니다. 또한 복잡한 추론 능력을 향상시키기 위해 중간 추론 단계를 프롬프트에 통합하는 CoT(사상 사슬) 전략과 같은 고급 프롬프트 기술이 제안되었습니다. 그러나 기존 프롬프트 방식은 여전히 ​​다음과 같은 단점을 갖고 있다. 첫째, 프롬프트를 설계할 때 많은 인력이 필요하므로 다양한 작업을 해결하기 위한 효과적인 프롬프트를 자동으로 생성하는 것이 매우 유용할 것입니다. 둘째, 일부 복잡한 작업(예: 형식 증명 및 수치 계산)에는 특정 지식이나 논리적 규칙이 필요합니다. 규칙은 자연어로 설명되거나 예제로 입증되지 않을 수 있으므로 더 많은 정보와 보다 유연한 작업 형식을 갖춘 프롬프트 방법을 개발하는 것이 중요합니다. 셋째, 기존 프롬프트 전략은 주로 단일 회전 성능에 중점을 두므로 매우 유용합니다. ChatGPT가 시연한 것처럼 복잡한 작업(예: 자연어 대화를 통해)을 해결하기 위한 대화형 프롬프트 메커니즘을 개발합니다.

안전 및 정렬: 상당한 기능에도 불구하고 LLM은 소규모 언어 모델과 유사한 보안 문제로 어려움을 겪습니다. 예를 들어, LLM은 합리적으로 보이지만 사실과 일치하지 않을 수 있는 환각 텍스트를 생성하는 경향을 보여줍니다. 더 나쁜 것은 LLM이 의도적인 지시에 따라 악성 시스템에 유해하거나 편향되거나 유해한 텍스트를 생성하도록 동기를 부여하여 잠재적인 남용 위험을 초래할 수 있다는 것입니다. LLM과 관련된 기타 보안 문제(예: 개인 정보 보호, 과도한 의존, 허위 정보, 영향 운영)에 대한 자세한 논의를 보려면 독자는 GPT-3/4 기술 보고서를 참조하세요. 이러한 문제를 피하기 위한 주요 방법으로 좋은 LLM을 개발하기 위해 인간을 훈련 루프에 통합하는 인간 피드백 강화 학습(RLHF)이 널리 사용되었습니다. 모델의 보안을 향상하려면 GPT-4에 표시된 것처럼 RLHF 프로세스 중에 보안 관련 프롬프트를 추가하는 것도 중요합니다. 그러나 RLHF는 전문 라벨러의 고품질 인간 피드백 데이터에 크게 의존하므로 실제로 올바르게 구현하기가 어렵습니다. 따라서 인간 라벨러의 작업을 줄이고 데이터 품질을 보장하기 위해 보다 효과적인 주석 방법을 찾기 위해 RLHF 프레임워크를 개선해야 합니다. 예를 들어 주석 작업을 지원하기 위해 LLM을 채택할 수 있습니다. 최근 LLM의 모델 보안을 개선하기 위해 레드팀이 채택되었습니다. 이는 수집된 적대적 프롬프트를 활용하여 LLM을 개선합니다(예: 레드팀 공격 방지). 또한 인간과의 소통을 통해 LLM의 학습 메커니즘을 구축하는 것 또한 의미가 있습니다. 인간이 채팅을 통해 제공하는 피드백은 LLM이 자기계발에 직접 활용할 수 있습니다.

응용 프로그램 및 생태계: LLM은 다양한 작업을 해결하는 데 강력한 기능을 나타내므로 광범위한 실제 응용 프로그램(예: 특정 자연어 지침 따르기)에서 사용할 수 있습니다. 중요한 발전으로서 ChatGPT는 인간이 정보에 액세스하는 방식을 변화시켜 새로운 Bing 출시로 이어질 가능성이 있습니다. 가까운 미래에는 LLM이 검색 엔진 및 인식 시스템을 포함한 정보 검색 기술에 상당한 영향을 미칠 것으로 예상됩니다.

또한 LLM의 기술 업그레이드로 지능형 정보 도우미의 개발 및 활용이 크게 촉진될 것입니다. 더 넓은 규모에서 이러한 기술 혁신의 물결은 인간의 삶과 밀접하게 관련될 LLM(예: ChatGPT의 플러그인 지원)에 의해 라이선스가 부여된 애플리케이션 생태계를 구축하는 경향이 있습니다. 마지막으로 LLM의 등장은 일반 인공 지능(AGI) 탐구에 영감을 제공합니다. 이는 이전보다 더 지능적인 시스템(잠재적으로 다중 모드 신호 포함)을 개발할 것을 약속합니다. 동시에, 이러한 개발 과정에서 인공지능의 안전성은 주요 관심사 중 하나가 되어야 합니다. 즉, 인공지능이 인류에게 해를 끼치는 것이 아니라 이익을 가져오도록 해야 합니다.

위 내용은 대규모 언어 모델에 대한 리뷰 새로 발표: T5부터 GPT-4까지 국내 연구자 20명 이상이 공동 집필한 가장 포괄적인 리뷰의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제