>기술 주변기기 >일체 포함 >ChatGpt의 진화 이해 : Part 2 – GPT-2 및 GPT-3

ChatGpt의 진화 이해 : Part 2 – GPT-2 및 GPT-3

PHPz
PHPz원래의
2025-02-25 21:02:11704검색

이 기사는 GPT-2 및 GPT-3에 중점을 둔 OpenAI의 GPT 모델의 진화를 탐구합니다. 이 모델은 LLM (Lange Language Model) 훈련에 대한 접근 방식의 상당한 변화를 나타냅니다. 전통적인 "사전 훈련과 미세 조정"패러다임에서 "사전 훈련 전용"접근법으로 이동합니다.

이 변화는 GPT-1의 제로 샷 기능에 대한 관찰에 의해 주도되었습니다. 즉, 특별히 훈련되지 않은 작업을 수행하는 능력. 이것을 더 잘 이해하려면 주요 개념을 탐구합시다 :

1 부 : 패러다임 전환과 그 anablers Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

특히 보이지 않는 NLP 작업의 광대 한 배열에 대한 미세 조정의 한계는 작업에 대한 연약한 학습으로의 움직임에 동기를 부여했습니다. 소규모 데이터 세트에서 대형 모델을 미세 조정하면 지나치게 적합하고 일반화가 좋지 않습니다. 대규모 감독 데이터 세트없이 언어 작업을 배우는 인간의 능력은 이러한 변화를 더욱 뒷받침합니다. 세 가지 주요 요소는이 패러다임 전환을 용이하게했습니다

태스크-비석 학습 (메타 학습) : 이 접근법은 훈련 중에 광범위한 기술을 갖춘 모델을 활용하여 더 이상 미세 조정없이 새로운 작업에 빠르게 적응할 수 있습니다. MAML (Model-Agnostic Meta-Learning) 은이 개념을 보여줍니다

스케일 가설 :

이 가설은 더 큰 데이터 세트에 대해 더 큰 모델이 훈련 된 긴장 기능을 보여줍니다. 예기치 않게 모델 크기 및 데이터가 증가하는 능력이 나타납니다. GPT-2 및 GPT-3.이를 테스트하기위한 실험으로 사용되었습니다

    텍스트 내 학습 :
  • 이 기술은 모델에 자연 언어 지침과 추론 시간에 몇 가지 예 (데모)를 제공하여 그라디언트 업데이트없이 이러한 예제에서 작업을 배울 수 있습니다. 제로 샷, 원샷 및 소수의 학습 학습은 다른 수준의 예제 조항을 나타냅니다.

Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3 2 부 : gpt-2-디딤돌

    GPT-2는 GPT-1의 아키텍처를 기반으로 몇 가지 개선 사항을 사용하여 수정 된 Layernorm 배치, 잔류 층의 중량 스케일링, 확장 어휘 (50257), 컨텍스트 크기 증가 (1024 토큰) 및 더 큰 배치 크기 (512). 4 가지 모델은 117m에서 1.5b 범위의 매개 변수 수로 훈련되었습니다. 교육 데이터 세트 인 WebText는 약 45m 링크로 구성되었습니다. GPT-2는 특히 언어 모델링에서 유망한 결과를 보여 주었지만 독해 및 번역과 같은 작업에 대한 최첨단 모델보다 뒤떨어졌습니다.

    파트 3 : GPT-3-도약 전진

    GPT-3은 GPT-2와 유사한 아키텍처를 유지했으며, 주로 조밀하고 희소 한주의 패턴의 사용이 주로 다릅니다. 125m에서 175b 매개 변수 범위의 8 가지 모델이 훈련되었습니다. 교육 데이터는 품질에 따라 데이터 세트의 신중한 큐 레이션 및 가중치로 훨씬 더 크고 다양했습니다. GPT-3의 평가에서 얻은 주요 결과는 척도 가설과 텍스트 내 학습의 효과를 보여줍니다. 성능은 컴퓨팅 증가로 부드럽게 스케일링되었으며 대형 모델은 제로 샷, 원샷 및 소수의 학습 환경에서 우수한 성능을 보여주었습니다. Understanding the Evolution of ChatGPT: Part 2 – GPT-2 and GPT-3

    4 부 : 결론

    GPT-2 및 GPT-3은 LLM 개발에서 상당한 발전을 나타내며, 향후 출현 능력, 교육 패러다임, 데이터 청소 및 윤리적 고려 사항에 대한 미래의 연구를위한 길을 열어줍니다. 그들의 성공은 작업에 대한 비수성 학습의 잠재력과 모델 크기와 교육 데이터를 모두 확장 할 수있는 힘을 강조합니다. 이 연구는 GPT-3.5 및 InstructGpt와 같은 후속 모델의 개발에 계속 영향을 미칩니다. 이 시리즈의 관련 기사에 대해서는 : 를 참조하십시오 1 부 : chatgpt의 진화 이해 : 1 부-GPT-1에 대한 심층적 인 모습과 영감을 얻은 것. 3 부 : Codex 및 OrtuctGpt의 통찰력

위 내용은 ChatGpt의 진화 이해 : Part 2 – GPT-2 및 GPT-3의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.