>기술 주변기기 >일체 포함 >대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 '먹기' 가이드입니다.

대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 '먹기' 가이드입니다.

王林
王林앞으로
2023-05-04 16:07:061150검색

실제 탐색 과정에서 실무자들은 자신의 응용 분야에 적합한 AI 모델을 찾는 데 어려움을 겪을 수 있습니다. LLM을 선택해야 할까요, 아니면 모델을 미세 조정해야 할까요? LLM을 사용하는 경우 어떤 것을 선택해야 합니까?

최근 Amazon, Texas A&M University, Rice University 및 기타 기관의 학자들이 ChatGPT와 같은 언어 모델의 개발 과정에 대해 논의했으며, 그들의 기사도 Yann LeCun에 의해 리트윗되었습니다.

대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 먹기 가이드입니다.

논문: https://arxiv.org/abs/2304.13712

관련 자료: https://github.com/Mooler0410/LLMsPracticalGuide

대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 먹기 가이드입니다.

이 글에서는 실무 적용의 관점에서 시작하여 LLM에 적합한 업무와 모델을 선택할 때 고려해야 할 모델, 데이터, 업무 등 실무적인 문제에 대해 논의하겠습니다.

1 소개

최근 몇 년간 대규모 언어 모델(LLM)의 급속한 발전은 자연어 처리(NLP) 분야에 혁명을 일으켰습니다. 이러한 모델은 매우 강력하며 자연어 이해(NLU)부터 생성 작업, 심지어 인공 일반 지능(AGI)까지 ​​다양한 종류의 NLP 작업을 해결할 수 있습니다. 그러나 이러한 모델을 효과적이고 효율적으로 사용하려면 NLP와 관련된 데이터 및 작업에 대한 이해뿐만 아니라 해당 모델의 기능과 한계에 대한 실질적인 이해가 필요합니다.

이 문서에서는 실무자와 최종 사용자에게 지침을 제공하기 위해 다운스트림 NLP 작업에서 LLM을 실제로 적용하는 다양한 측면에 중점을 둡니다. 이 가이드의 목표는 독자들에게 특정 작업에 LLM을 사용할지 여부와 가장 적합한 LLM을 선택하는 방법에 대한 실용적이고 유용한 조언을 제공하는 것입니다. 이 가이드에서는 모델 크기, 계산 요구 사항, 특정 도메인이 있는지, 사전 학습된 모델이 있는지 등 또한 이 기사에서는 실무자와 최종 사용자가 LLM의 기능을 성공적으로 활용하여 NLP 작업을 해결하는 데 도움이 될 수 있는 실제 적용 관점에서 LLM을 소개하고 설명합니다.

이 기사의 구성은 다음과 같습니다. 이 기사에서는 먼저 가장 중요한 GPT 스타일 및 BERT 스타일 아키텍처에 대해 논의할 LLM을 간략하게 소개합니다. 그런 다음 사전 학습 데이터, 학습 데이터/튜닝 데이터, 테스트 데이터 등 데이터 측면에서 모델 성능에 영향을 미치는 주요 요소에 대해 심층적으로 소개합니다. 마지막이자 가장 중요한 부분에서 이 기사에서는 다양한 특정 NLP 작업을 살펴보고 LLM이 지식 집약적 작업, 기존 NLU 작업 및 생성 작업에 적합한지 여부를 소개합니다. 또한 LLM이 제공하는 새로운 기능과 과제도 설명합니다. 이러한 모델은 계속해서 실제 적용 시나리오를 획득합니다. 실제로 LLM의 유용성과 한계를 강조하기 위해 자세한 예를 제공합니다.

대형 언어 모델의 기능을 분석하기 위해 이 기사에서는 이를 미세 조정 모델과 비교해 보겠습니다. LLM 및 미세 조정 모델의 정의에 대해 널리 받아들여지는 표준은 아직 없습니다. 실용적이고 효과적인 구분을 위해 이 기사에서 주어진 정의는 다음과 같습니다. LLM은 대규모 데이터 세트에 대해 사전 훈련된 대규모 언어 모델을 말하며 특정 작업에 맞게 데이터를 조정하지 않습니다. 모델은 일반적으로 더 작으며 사전 훈련되어 있습니다. 나중에 이 작업에 대한 성능을 최적화하기 위해 더 작은 작업별 데이터 세트에 대한 추가 미세 조정이 수행됩니다.

이 문서에는 LLM 사용에 대한 실용적인 지침이 요약되어 있습니다.

  • 자연어 이해. 실제 데이터가 훈련 데이터의 분포 범위를 벗어나거나 훈련 데이터가 매우 적은 경우에는 LLM의 뛰어난 일반화 능력을 활용할 수 있습니다.
  • 자연어 생성. LLM의 강력한 기능을 사용하여 다양한 응용 프로그램에 대해 일관되고 상황에 맞는 고품질 텍스트를 만드세요.
  • 지식 집약적인 작업. LLM에 저장된 방대한 지식을 활용하여 특정 전문 지식이나 일반적인 세계 지식이 필요한 작업을 처리합니다.
  • 추론 능력. LLM의 추론 기능을 이해하고 활용하여 다양한 상황에서 의사 결정 및 문제 해결 능력을 향상시킵니다.

2 모델에 대한 실용 가이드

대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 먹기 가이드입니다.

그림 1: 이 현대 LLM의 진화 트리는 최근 몇 년간의 언어 모델 개발을 추적하며 가장 잘 알려진 모델 중 일부를 강조합니다. 동일한 분기의 모델은 더 밀접하게 관련되어 있습니다. Transformer 기반 모델은 회색으로 표시되지 않습니다. 디코더 전용 모델은 파란색 분기, 인코더 전용 모델은 분홍색 분기, 인코더-디코더 모델은 녹색 분기로 표시됩니다. 타임라인에서 모델의 세로 위치는 모델이 출시된 시기를 나타냅니다. 채워진 사각형은 오픈 소스 모델을 나타내고, 빈 사각형은 폐쇄 소스 모델을 나타냅니다. 오른쪽 하단의 누적 막대 차트는 기업 및 기관별 모델 수를 나타냅니다.

이 섹션에서는 현재 가장 성과가 좋은 LLM을 간략하게 소개합니다. 이러한 모델에는 다양한 훈련 전략, 모델 아키텍처 및 사용 사례가 있습니다. LLM의 전체 그림을 더 명확하게 이해하기 위해 LLM을 인코더-디코더 또는 인코더 전용 언어 모델과 디코더 전용 언어 모델이라는 두 가지 광범위한 범주로 나눌 수 있습니다. 그림 1은 언어 모델의 발전 과정을 자세히 보여줍니다. 이 진화 트리를 기반으로 몇 가지 흥미로운 결론을 관찰할 수 있습니다.

a) 디코더 전용 모델은 점차 LLM 개발에서 지배적인 모델이 되고 있습니다. LLM 개발 초기 단계에서 디코더 전용 모델은 인코더 전용 및 인코더-디코더 모델만큼 인기가 없었습니다. 하지만 2021년 이후 GPT-3의 등장으로 업계 판도가 바뀌었고 디코더 모델만 폭발적인 발전을 이루었습니다. 동시에 BERT는 인코더 전용 모델에도 초기 폭발적인 성장을 가져왔지만 이후 인코더 전용 모델은 점차 시야에서 사라졌습니다.

b) OpenAI는 현재와 미래에도 LLM 방향에서 선두 위치를 계속 유지하고 있습니다. 다른 기업과 기관은 GPT-3 및 GPT-4와 비교할 수 있는 모델을 개발하기 위해 따라잡기 위해 노력하고 있습니다. OpenAI가 선두적인 위치를 점할 수 있었던 것은 초기에는 기술이 널리 인식되지 않았음에도 불구하고 기술에 대한 지속적인 투자 때문일 수 있습니다.

c) Meta는 오픈 소스 LLM 및 LLM 연구 촉진에 탁월한 기여를 했습니다. Meta는 자신이 개발한 모든 LLM을 오픈 소스화했기 때문에 오픈 소스 커뮤니티, 특히 LLM과 관련된 기여에 있어서 가장 관대한 상업 회사 중 하나로 돋보입니다.

d) LLM 개발에는 비공개 소스 경향이 있습니다. LLM 개발 초기 단계(2020년 이전)에는 대부분의 모델이 오픈 소스였습니다. 그러나 GPT-3가 출시되면서 PaLM, LaMDA, GPT-4와 같은 모델을 클로즈 소스로 선택하는 기업이 점점 늘어나고 있습니다. 따라서 학술 연구자들이 LLM 교육 실험을 수행하는 것이 점점 더 어려워지고 있습니다. 이로 인해 API 기반 연구가 학계에서 지배적인 접근 방식이 될 수 있습니다.

e) 기업과 기관이 여전히 이러한 유형의 아키텍처를 적극적으로 탐색하고 있고 대부분의 모델이 오픈 소스이기 때문에 인코더-디코더 모델은 여전히 ​​개발 전망이 있습니다. Google은 오픈소스 인코더-디코더에 상당한 기여를 해왔습니다. 그러나 디코더 전용 모델의 유연성과 다양성으로 인해 Google이 이 방향을 고집할 경우 성공 가능성은 희박해 보입니다.

표 1에는 다양한 대표적인 LLM의 특징이 간략하게 요약되어 있습니다.

대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 먹기 가이드입니다.

표 1: 대규모 언어 모델의 특성

2.1 BERT 스타일 언어 모델: 인코더-디코더 또는 인코더 전용

자연어 비지도 학습의 개발은 최근 자연어 데이터를 쉽게 사용할 수 있고 비지도 훈련 패러다임을 사용하여 매우 큰 규모의 데이터 세트를 더 잘 활용할 수 있기 때문에 큰 진전을 이루었습니다. 일반적인 접근 방식은 문맥을 기반으로 문장에서 가려진 단어를 예측하는 것입니다. 이 훈련 패러다임을 Masked Language Model이라고 합니다. 이 학습 방법을 통해 모델은 단어와 해당 컨텍스트 간의 관계를 더 깊이 이해할 수 있습니다. 이러한 모델은 Transformer 아키텍처와 같은 기술을 사용하여 대규모 텍스트 말뭉치에 대해 훈련되었으며 감정 분석 및 명명된 엔터티 인식과 같은 많은 NLP 작업에서 최첨단 성능을 달성했습니다. 유명한 마스크 언어 모델로는 BERT, RoBERTa 및 T5가 있습니다. 다양한 작업에 대한 성공적인 성능으로 인해 마스크된 언어 모델은 자연어 처리 분야에서 중요한 도구가 되었습니다.

2.2 GPT 스타일 언어 모델: 디코더 전용

언어 모델 아키텍처는 종종 작업에 구애받지 않지만 이러한 방법에는 특정 다운스트림 작업에 대한 데이터 세트를 기반으로 미세 조정이 필요합니다. 연구자들은 언어 모델의 크기를 늘리면 샘플이 거의 없거나 전혀 없는 경우에도 성능이 크게 향상될 수 있음을 발견했습니다. 샘플이 적거나 없는 상태에서 성능을 향상시키는 가장 성공적인 모델은 자동회귀 언어 모델입니다. 이 모델은 주어진 시퀀스의 이전 단어를 기반으로 다음 단어를 생성하도록 훈련되었습니다. 이러한 모델은 텍스트 생성 및 질문 답변과 같은 다운스트림 작업에 널리 사용되었습니다. 자동회귀 언어 모델에는 GPT-3, OPT, PaLM 및 BLOOM이 포함됩니다. 혁신적인 GPT-3은 힌트와 컨텍스트를 통한 학습이 소수/제로 샘플로도 합리적인 결과를 제공할 수 있다는 점을 처음으로 보여주었으며, 따라서 자동 회귀 언어 모델의 우수성을 입증했습니다.

코드 생성을 위한 CodeX, 금융 분야를 위한 BloombergGPT 등 특정 작업에 최적화된 모델도 있습니다. 최근의 주요 혁신은 다양한 실제 응용 프로그램에 대해 보다 대화형이고 일관되며 상황에 맞는 대화를 생성하는 대화 작업에 최적화된 GPT-3 모델인 ChatGPT입니다.

3 데이터 실용 가이드

이 섹션에서는 다운스트림 작업에 적합한 모델을 선택하는 데 있어 데이터의 중요한 역할을 소개합니다. 모델 효율성에 대한 데이터의 영향은 사전 훈련 단계에서 시작되어 훈련 및 추론 단계를 통해 계속됩니다.

핵심 포인트 1

(1) 적대적 표본을 사용하거나 데이터 도메인 변경을 사용하는 등 다운스트림 작업에서 분포 외부의 데이터를 사용하는 경우 LLM의 일반화 능력이 미세 조정 모델보다 좋습니다.

(2) 레이블이 지정된 데이터가 제한적인 경우 LLM이 미세 조정 모델보다 낫습니다. 레이블이 있는 데이터가 풍부하면 특정 작업 요구 사항에 따라 둘 다 합리적인 선택입니다.

(3) 사전 훈련에 사용된 데이터 도메인이 다운스트림 작업의 데이터 도메인과 유사한 모델을 선택하는 것이 좋습니다.

4 NLP 작업에 대한 실용 가이드

이 섹션에서는 LLM이 다양한 다운스트림 NLP 작업과 해당 모델 기능에 유용한지 여부를 자세히 논의합니다. 그림 2는 모든 논의를 요약한 의사결정 흐름도입니다. 특정 작업에 직면했을 때 이 프로세스를 기반으로 빠른 결정이 내려질 수 있습니다.

대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 먹기 가이드입니다.

그림 2: NLP 적용을 위해 LLM 또는 미세 조정 모델을 선택할 때 사용자의 의사 결정 프로세스. 이 결정 흐름 차트는 사용자가 현재 다운스트림 NLP 작업이 특정 기준을 충족하는지 평가하고 평가 결과를 기반으로 LLM 또는 미세 조정 모델이 해당 애플리케이션에 가장 적합한지 여부를 결정하는 데 도움이 됩니다. 그림의 의사결정 과정에서 Y는 조건이 충족된 것을 나타내고, N은 조건이 충족되지 않은 것을 나타낸다. 마지막 조건의 Y 옆에 있는 노란색 원은 현재 이 유형의 애플리케이션에 적합한 모델이 없음을 나타냅니다.

4.1 전통적인 NLU 작업

전통적인 NLU 작업은 텍스트 분류, 명명된 엔터티 인식(NER), 수반 예측 등을 포함하여 NLP 분야의 몇 가지 기본 작업입니다. 이러한 작업 중 다수는 지식 그래프 구성을 위해 NER를 사용하는 등 대규모 AI 시스템의 중간 단계로 사용될 수 있습니다.

LLM에는 적용되지 않음: GLUE 및 SuperGLUE와 같은 대부분의 자연어 이해 작업의 경우 작업에 이미 주석이 잘 달린 풍부한 데이터가 있고 테스트 세트의 극히 일부 데이터만 분포 외부에 있는 경우 미세 조정 모델 성능은 여전히 ​​더 좋습니다. 소규모 미세 조정 모델과 LLM 사이의 격차는 작업과 데이터세트가 다양할 때에도 달라집니다.

LLM에 적합: 그러나 LLM에서 처리하는 데 더 적합한 NLU 작업도 있습니다. 대표적인 두 가지 작업은 복잡한 텍스트 분류 문제와 적대적 자연어 추론입니다.

포인트 2

기존 자연어 이해 작업의 경우 일반적으로 미세 조정 모델이 LLM보다 더 나은 선택이지만, 작업에 강력한 일반화 기능이 필요한 경우 LLM이 도움이 될 수 있습니다.

4.2 생성 작업

자연어 생성의 목표는 대략 두 가지 주요 작업 범주를 포함하는 일관되고 의미 있고 상황에 맞는 기호 시퀀스를 만드는 것입니다. 첫 번째 작업 범주는 입력 텍스트를 새로운 기호 시퀀스로 변환하는 데 중점을 둡니다. 예로는 단락 요약 및 기계 번역이 있습니다. 작업의 두 번째 범주는 '개방형 생성'으로, 목표는 이메일 작성, 새 기사 작성, 가상 이야기 작성, 코드 작성 등 입력 설명과 정확하게 일치하도록 텍스트나 기호를 처음부터 생성하는 것입니다.

LLM에 적용 가능: 생성 작업을 수행하려면 모델이 입력 내용이나 요구 사항을 완전히 이해해야 하며 어느 정도의 창의성도 필요합니다. 이것이 바로 LLM이 뛰어난 점입니다.

해당되지 않음 LLM: 리소스가 풍부한 대부분의 번역 작업과 리소스가 거의 없는 번역 작업에서는 DeltaLM+Zcode와 같이 미세 조정된 모델이 더 나은 성능을 발휘합니다. 풍부한 리소스를 갖춘 기계 번역의 경우 미세 조정 모델이 LLM보다 약간 더 나은 성능을 발휘합니다. 영어-카자흐어 번역과 같이 리소스가 거의 없는 기계 번역의 경우 미세 조정 모델이 LLM보다 훨씬 뛰어난 성능을 보였습니다.

포인트 3

강력한 생성 능력과 창의성 덕분에 LLM은 대부분의 생성 작업에서 이점을 갖고 있습니다.

4.3 지식 집약적 작업

지식 집약적 NLP 작업은 배경 지식, 도메인별 전문 지식 또는 일반적인 실제 지식에 크게 의존하는 작업 범주를 나타냅니다. 이러한 작업에는 패턴 인식이나 구문 분석 이상의 것이 필요합니다. 그들은 현실 세계의 특정 실체, 사건 및 상식과 관련된 기억과 지식의 적절한 사용에 크게 의존합니다.

LLM에 적용 가능: 일반적으로 수십억 개의 훈련 토큰과 매개변수가 있는 경우 LLM에 포함된 실제 지식의 양은 미세 조정된 모델의 양을 훨씬 초과할 수 있습니다.

LLM에 해당되지 않음: 일부 다른 작업에는 LLM에서 배운 지식과 다른 지식이 필요합니다. 필요한 지식은 LLM이 실제 세계에 대해 배우는 것이 아닙니다. 이러한 작업에서 LLM은 뚜렷한 이점이 없습니다.

포인트 4

(1) 방대한 실무 지식 덕분에 LLM은 지식 집약적인 작업을 잘 처리합니다. (2) LLM은 지식 요구 사항이 학습된 지식과 일치하지 않거나 작업에 상황별 지식만 필요한 경우 어려움에 직면하게 되며 미세 조정 모델은 LLM과 동일한 성능을 달성할 수 있습니다.

4.4 확장 기능

LLM의 규모 확장(예: 매개변수, 훈련 계산 등)은 언어 모델 사전 훈련에 큰 도움이 될 수 있습니다. 모델 크기를 늘리면 여러 작업을 처리하는 모델의 능력이 향상되는 경우가 많습니다. 특정 지표에 반영된 모델 성능은 모델 크기와 거듭제곱 관계를 보여줍니다. 예를 들어, 언어 모델링 성능을 측정하는 데 사용되는 교차 엔트로피 손실은 모델 크기가 기하급수적으로 증가함에 따라 선형적으로 감소합니다. 이를 "확장 법칙"이라고도 합니다. 추론과 같은 일부 주요 기능의 경우 모델을 확장하면 이러한 기능을 매우 낮은 수준에서 사용 가능한 수준, 심지어 인간 수준에 가까운 수준까지 점차적으로 향상시킬 수 있습니다. 이 하위 섹션에서는 LLM의 기능과 동작에 대한 규모의 영향 측면에서 LLM의 사용을 소개합니다.

LLM 추론의 활용 사례: 추론은 정보 이해, 추론, 결정을 포함하며 인간 지능의 핵심 능력입니다. NLP의 경우 추론은 매우 어렵습니다. 기존의 많은 추론 작업은 상식 추론과 산술 추론이라는 두 가지 범주로 나눌 수 있습니다. 모델 확대는 LLM의 산술 추론 능력을 크게 향상시킬 수 있습니다. 상식 추론을 위해서는 LLM이 사실적 지식을 기억할 뿐만 아니라 사실에 대한 몇 가지 추론 단계를 수행해야 합니다. 상식 추론 능력은 모델의 크기가 커질수록 점차 향상됩니다. LLM은 대부분의 데이터세트에서 미세 조정된 모델보다 더 나은 성능을 발휘합니다.

긴급 기능의 LLM 사용 사례: 모델 크기를 늘리면 멱법칙 규칙을 뛰어넘는 전례 없는 놀라운 기능을 모델에 제공할 수도 있습니다. 이러한 능력을 "긴급 능력"이라고 합니다. "대형 언어 모델의 창발적 능력"이라는 논문에서 정의한 바와 같이, LLM의 창발적 능력은 소규모 모델에는 없지만 대규모 모델에서 나타나는 능력을 의미합니다. (이 논문에 대한 더 많은 해석은 "Jeff Dean 외의 신작: 다른 각도에서 언어 모델을 바라보기, 규모가 충분하지 않으면 발견할 수 없음"을 참조하십시오.) 이는 우리가 이 능력을 추론하고 예측할 수 없다는 것을 의미합니다. 소규모 모델의 성능 향상을 기반으로 일부 작업에서는 모델의 크기가 일정 수준을 초과하면 갑자기 뛰어난 성능을 얻을 수 있습니다. 새로운 기능은 예측할 수 없고 예상하지 못한 경우가 많으며, 이로 인해 무작위로 발생하거나 예상치 못한 작업을 모델이 처리할 수 있는 능력이 생길 수 있습니다.

LLM 및 출현 이해에는 적용되지 않음: 대부분의 경우 모델이 더 크고 성능이 더 뛰어나지만 여전히 예외가 있습니다.

일부 작업에서는 LLM 규모가 증가함에 따라 모델 성능이 저하되기 시작합니다. 이는 역스케일링 현상이라고도 알려져 있습니다. 또한 연구진은 규모와 관련된 또 다른 흥미로운 현상, 즉 U자형 현상도 관찰했습니다. 이름에서 알 수 있듯이 이 현상은 LLM 모델이 커질수록 특정 작업에 대한 성능이 처음에는 향상되었다가 감소하기 시작하고 다시 향상된다는 것을 의미합니다.

이 분야의 연구를 발전시키려면 창발적 역량, 카운터스케일링 현상, U자형 현상에 대해 더 깊이 이해해야 합니다.

Point 5

(1) 모델 크기가 기하급수적으로 증가함에 따라 LLM의 산술 추론 및 상식 추론 능력도 향상됩니다. (2) LLM의 규모가 커짐에 따라 창발적 능력은 워드 프로세싱 능력, 논리적 능력과 같은 새로운 용도를 우연히 발견할 수 있습니다. (3) 모델 기능은 규모에 따라 항상 증가하는 것은 아니며 대규모 언어 모델의 기능과 규모 간의 관계에 대한 이해는 여전히 제한적입니다.

4.5 기타 작업

LLM의 강점과 약점을 더 잘 이해하기 위해 위에서 다루지 않은 다른 작업에 대해 이야기해 보겠습니다.

LLM에는 적용되지 않음: 모델 목표가 교육 데이터와 다른 경우 LLM은 이러한 작업에서 종종 어려움을 겪습니다.

LLM에 적합: LLM은 특히 특정 작업에 적합합니다. 몇 가지 예를 들면, LLM은 요약 및 번역과 같은 특정 NLG 작업의 품질을 평가하는 데에도 매우 효과적입니다. LLM의 일부 기능은 해석 가능성과 같은 성능 향상 이외의 이점도 가져올 수 있습니다.

Point 6

(1) LLM의 사전 학습된 목표 및 데이터와는 거리가 먼 작업을 위한 미세 조정 모델 및 도메인별 모델이 있는 곳은 여전히 ​​있습니다. (2) LLM은 인간 모방, 데이터 주석 및 생성에 능숙합니다. 또한 NLP 작업의 품질 평가에도 사용할 수 있으며 해석 가능성과 같은 이점이 있습니다.

4.6 실제 "작업"

이 섹션에서는 마지막으로 실제 "작업"에 대한 LLM 적용 및 미세 조정 모델에 대해 설명합니다. 학문적 환경과 달리 실제 환경에는 잘 구성된 정의가 부족한 경우가 많기 때문에 여기서 "과제"라는 용어는 느슨하게 사용됩니다. 모델에 대한 많은 요구 사항은 NLP 작업으로 간주될 수도 없습니다. 모델이 직면한 실제 과제는 다음 세 가지 측면에서 비롯됩니다.

  • 시끄럽고 구조화되지 않은 입력. 실제 의견은 실제 사람들로부터 나오며, 이들 중 대부분은 전문가가 아닙니다. 그들은 모델과 적절하게 상호 작용하는 방법을 이해하지 못하고 텍스트를 유창하게 사용하지 못할 수도 있습니다. 따라서 실제 입력 데이터는 사전 훈련이나 미세 조정에 사용되는 잘 정의된 형식의 데이터와 달리 철자 오류, 구어체 텍스트, 다국어 뒤죽박죽으로 인해 지저분해질 수 있습니다.
  • 학계에서 공식화하지 않은 과제. 실제 시나리오의 작업은 학계에서 잘 정의되지 않는 경우가 많으며 다양성은 학술 연구 시나리오의 정의를 훨씬 뛰어넘습니다. 사용자는 사전 정의된 범주에 딱 들어맞지 않는 쿼리나 요청을 하는 경우가 많으며 때로는 단일 쿼리가 여러 작업을 포함하기도 합니다.
  • 사용자 지침을 따르세요. 사용자의 요청에는 여러 가지 암시적 의도(예: 출력 형식에 대한 특정 요구 사항)가 포함될 수도 있고, 후속 질문 없이 사용자가 예측하려는 내용이 명확하지 않을 수도 있습니다. 모델은 사용자의 의도를 이해하고 그러한 의도와 일치하는 출력을 제공해야 합니다.

기본적으로 사용자 요청으로 인한 이러한 실제 퍼즐은 특정 작업을 위해 설계된 NLP 데이터 세트의 배포 편차로 인해 발생합니다. 공개 NLP 데이터 세트는 이러한 모델이 사용되는 방식을 반영하지 않습니다.

포인트 7

미세 조정 모델에 비해 LLM은 실제 시나리오 처리에 더 적합합니다. 그러나 현실 세계에서 모델의 효과를 평가하는 것은 아직 해결되지 않은 문제로 남아 있습니다.

5 기타 측면

LLM은 다양한 다운스트림 작업에 적합하지만 효율성, 신뢰성 등 고려해야 할 다른 요소도 있습니다. 효율성과 관련된 문제로는 LLM의 훈련 비용, 추론 지연 시간, 효율적인 매개변수 활용을 위한 튜닝 전략 등이 있습니다. 신뢰성 측면에서는 LLM 견고성 및 교정 기능, 공정성과 편향, 잠재적인 오류 상관 관계 및 보안 문제를 고려해야 합니다. 요점 8(1) 작업이 비용에 민감하거나 대기 시간 요구 사항이 엄격한 경우 경량 로컬 미세 조정 모델을 우선시해야 합니다. 모델을 배포하고 제공할 때 매개변수를 효율적으로 사용하도록 조정하는 것을 고려하세요. (2) LLM의 제로샷 접근 방식은 미세 조정 모델에서 흔히 발생하는 작업별 데이터 세트에서 지름길을 학습하는 것을 방지합니다. 그럼에도 불구하고 LLM에는 여전히 특정 지름길 학습 문제가 있습니다. (3) LLM의 잠재적으로 유해하거나 편향된 출력 및 환각 문제는 심각한 결과를 초래할 수 있으므로 LLM과 관련된 보안 문제는 가장 큰 관심을 기울여야 합니다. 인간 피드백과 같은 방법은 이러한 문제를 완화할 것을 약속합니다.

6 요약 및 향후 과제

이 실용적인 가이드는 LLM에 대한 통찰력과 다양한 NLP 작업에서 LLM을 사용하기 위한 모범 사례를 제공합니다. 이것이 연구자와 실무자가 LLM의 잠재력을 활용하고 언어 기술 혁신을 주도하는 데 도움이 되기를 바랍니다.

물론 LLM에도 해결해야 할 몇 가지 과제가 있습니다.

  • 실제 데이터 세트에서 모델을 평가합니다. 기존 딥러닝 모델은 주로 ImageNet과 같은 표준 학술 데이터세트를 기반으로 평가되지만, 표준 학술 데이터세트는 제한적이며 실제 모델의 성능을 정확하게 반영하지 못합니다. 모델이 발전함에 따라 실제 요구 사항을 반영하는 보다 다양하고 복잡하며 현실적인 데이터를 기반으로 모델을 평가해야 합니다. 학문적 데이터세트와 실제 데이터세트 모두에서 모델을 평가하면 모델을 더욱 엄격하게 테스트할 수 있으며 실제 애플리케이션에서의 효율성을 더 잘 이해할 수 있습니다. 이를 통해 모델은 실제 문제를 해결하고 실용적이고 사용 가능한 솔루션을 제공할 수 있습니다.
  • 모델 정렬. 점점 더 강력해지고 자동화된 모델이 인간의 가치와 우선순위에 부합하는지 확인하는 것이 중요합니다. 우리는 모델이 예상대로 작동하는지 확인하고 원하지 않는 결과에 대해 모델을 최적화하지 않는 방법을 찾아야 합니다. 모델 개발 과정 초기부터 정확한 기술을 통합하는 것이 중요합니다. 모델의 투명성과 해석 가능성도 정확성을 평가하고 보장하는 데 중요합니다. 또한, 미래를 내다보면 초인적인 시스템의 정확한 실행이라는 훨씬 더 어려운 과제가 대두되고 있습니다. 이 작업은 현재 우리의 요구 사항을 초과하지만 Hezhun과 같은 고급 시스템은 고유한 복잡성과 윤리적 문제를 야기할 수 있으므로 이를 고려하고 준비하는 것이 중요합니다.
  • 안전 정렬. AI가 제기하는 실존적 위험에 대해 논의하는 것도 중요하지만, 첨단 AI가 안전하게 개발될 수 있도록 실질적인 연구가 필요합니다. 여기에는 해석 가능성, 확장 가능한 감독 및 거버넌스, 모델 속성의 공식 검증을 위한 기술이 포함됩니다. 모델 구축 시 보안은 추가 기능으로 간주되지 않고 전체의 필수적인 부분으로 간주되어야 합니다.
  • 크기 변화에 따른 모델 성능을 예측합니다. 모델 크기와 복잡성이 크게 증가하면 모델의 성능을 예측하기가 어렵습니다. 모델이 확장되거나 새로운 아키텍처를 사용할 때 모델이 어떻게 작동할지 더 잘 예측할 수 있는 기술을 개발해야 합니다. 이를 통해 리소스를 보다 효율적으로 사용하고 개발 속도를 높일 수 있습니다. 몇 가지 가능성이 있습니다. 더 작은 "시드" 모델을 훈련하고 외삽을 통해 성장을 예측하고, 모델 확장 또는 조정의 효과를 시뮬레이션하고, 다양한 크기의 모델 테스트 벤치에서 반복하여 확장 법칙을 구축합니다. 이를 통해 모델을 구축하기 전에 모델이 어떻게 작동할지에 대한 아이디어를 얻을 수 있습니다.

위 내용은 대규모 언어 모델의 진화 트리, ChatGPT에 대한 매우 자세한 '먹기' 가이드입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제