인공지능의 중요한 목표는 강력한 일반화 능력을 갖춘 모델을 개발하는 것입니다. 자연어 처리(NLP) 분야에서는 사전 훈련된 언어 모델이 이와 관련하여 상당한 진전을 이루었습니다. 이러한 모델은 종종 새로운 작업에 적응하도록 미세 조정됩니다.
최근 Google 연구원들은 확장 기능이 명령어 미세 조정에 미치는 영향을 포함하여 다양한 명령어 미세 조정 방법을 분석했습니다. 실험에 따르면 명령 미세 조정은 실제로 작업 수와 모델 크기에 따라 잘 확장될 수 있으며 최대 5,400억 개의 매개변수까지 모델이 상당한 이점을 얻을 수 있다는 사실이 밝혀졌습니다. 향후 연구에서는 작업 수와 모델 크기가 더욱 확대되어야 합니다. 또한 이번 연구에서는 미세 조정이 모델의 추론 수행 능력에 미치는 영향도 분석했는데, 그 결과는 매우 매력적이었습니다.
그 결과 Flan-T5에는 1,800개 이상의 언어 작업에 대한 지침이 미세 조정되어 프롬프트와 다단계 추론 기능이 크게 향상되었습니다. 30억 개의 매개변수로 벤치마크를 실행하면 GPT-3의 1,750억 개의 매개변수를 초과할 수 있습니다.
Google은 대형 모델의 기능을 향상시키기 위해 또 다른 방법을 찾은 것 같습니다. 하지만 이 연구는 기계 학습 커뮤니티의 환영을 받았을 뿐만 아니라 Gary Marcus의 불만도 불러일으켰습니다.
Google의 모델이 왜 Google의 유명한 과학자 Geoffrey Hinton의 생년월일을 잘못 입력했나요? 그는 분명히 1947년생의 노인이었습니다.
Google Brain의 수석 과학자이자 논문 저자 중 한 명인 Quoc Le는 상황을 바로잡기 위해 재빨리 나섰습니다. 논문에서 임시 직원 사진이 잘못되었지만 실제로 Flan-T5 모델은 그렇지 않았습니다. Geoff의 출생연도를 잘못 입력했습니다. 증명서 사진이 있습니다.
그런데 1963년생의 유명한 AI 학자는 위르겐 슈미트후버입니다.
AI 모델이 잘못된 것이 아니기 때문에 Google의 새로운 방식이 사전 훈련된 모델에 어떤 변화를 가져올 수 있는지 살펴보겠습니다.
논문: Scaling Instruction-Finetuned Language Models
이 연구는 540B 매개변수 모델을 사용하여 Flan-PaLM을 훈련하는데, 괜찮습니다. -작업 수를 1800개 이상으로 늘렸고 Chain of Thought(CoT; Wei et al., 2022b) 데이터를 포함합니다. 훈련된 Flan-PaLM은 PaLM보다 성능이 뛰어나며 여러 벤치마크에서 새로운 SOTA에 도달합니다. 추론 기능 측면에서 Flan-PaLM은 CoT 및 자체 일관성(Wang et al., 2022c)을 활용하여 대규모 다중 작업 언어 이해(MMLU; Hendrycks et al., 2020)에서 75.2% 정확도를 달성할 수 있습니다. 비율.
또한 Flan-PaLM은 가용성이 크게 향상되어 까다로운 개방형 생성 문제 세트에서 PaLM보다 훨씬 더 나은 성능을 발휘합니다.
전반적으로 이 Google 연구는 모델 성능을 향상시키기 위해 지침 미세 조정을 사용하는 구체적인 방법을 조명합니다.
구체적으로 이 연구는 주로 (1) 작업 수 확장, (2) 모델 크기 확장, (3) 명령 미세 조정을 포함하여 명령 미세 조정에 영향을 미치는 여러 측면에 중점을 둡니다. 사고체인 데이터.
연구 결과 위의 측면을 고려한 지시 미세 조정을 통해 다양한 모델 클래스(PaLM, T5, U-PaLM), 프롬프트 설정(제로샷, 퓨샷, CoT) 및 평가 벤치마크(MMLU, BBH, TyDiQA, MGSM, 개방형 세대). 예를 들어, 명령 미세 조정 기능이 있는 Flan-PaLM 540B는 1.8K 작업에서 PALM 540B보다 훨씬 뛰어난 성능을 보입니다(평균 +9.4%). Flan-PaLM 540B는 5개의 MMLU에서 75.2%와 같은 여러 벤치마크에서 최첨단 성능을 달성했습니다.
연구원들은 PaLM 62B와 같은 대형 모델과 비교해도 강력한 퓨샷 성능을 달성하는 Flan-T5 체크포인트도 공개했습니다. 전반적으로, 명령어 미세 조정은 사전 훈련된 언어 모델의 성능과 유용성을 향상시키기 위한 일반적인 접근 방식입니다.
그림 1. 연구자들은 샘플 유무(샘플 없음 및 소수 샘플) 및 사고 체인 유무에 따라 1800개 이상의 작업에 대해 다양한 언어 모델을 미세 조정했습니다. 미세 조정을 통해 범위 전반에 걸쳐 일반화가 가능합니다. 평가 시나리오의
그림 2. 미세 조정 데이터에는 473개의 데이터 세트, 146개의 작업 범주 및 총 1836개의 작업이 포함됩니다.
데이터 미세 조정 및 프로그램 미세 조정 과정이 완료된 후 연구자들은 모델 크기의 성능에 따른 규모 확장이 작업에 미치는 영향을 비교했습니다. 첫째, 세 가지 모델 크기 모두에서 멀티태스킹 지침 미세 조정은 미세 조정을 하지 않은 경우에 비해 성능이 크게 향상되어 9.4%에서 15.5% 범위의 이득을 얻습니다. 둘째, 미세 조정 작업 수를 늘리면 성능이 향상될 수 있습니다.
마지막으로 모델 크기를 8B → 62B 또는 62B → 540B로 늘리면 미세 조정된 모델과 미세 조정되지 않은 모델 모두의 성능이 크게 향상될 수 있음을 알 수 있습니다.
다중 작업 지침 미세 조정이 모델 크기(매개변수 수)와 미세 조정 작업의 수 및 규모 확장에 따른 정확도에 미치는 영향.
미세 조정 데이터의 작업 수를 늘리면 대부분의 평가 벤치마크에서 Flan-PaLM의 성능이 향상됩니다.
연구원들은 미세 조정 혼합에 CoT(생각의 사슬)로 주석이 달린 9개의 데이터 세트를 포함하면 추론 능력이 향상된다는 것을 보여줍니다. 아래 표는 Flan-PaLM의 CoT 프롬프트 기능이 보유된 4가지 평가 벤치마크에서 PaLM보다 우수하다는 것을 보여줍니다.
이 연구에서는 CoT 데이터에 대한 미세 조정 지침의 또 다른 이점은 CoT에 대한 적은 수의 샘플 없이도 모델이 자체적으로 추론 기능을 생성할 수 있다는 점을 발견했습니다. 올바르게 작동하려면 많은 엔지니어링 조정이 필요합니다.
그림 6: 23개의 까다로운 BIG-Bench 작업(BBH) 세트에서 PaLM 및 Flan-PaLM의 제로샷 성능. Flan-PaLM은 "단계적으로 생각하자" 명령에 의해 활성화되는 CoT(사상 사슬) 생성이 필요합니다.
새로운 방법의 일반성을 입증하기 위해 Google은 8천만에서 5,400억 개의 매개변수에 이르는 다양한 모델 크기를 다루면서 T5, PaLM 및 U-PaLM을 교육했으며 모든 모델이 성능을 크게 향상시킬 수 있음을 발견했습니다.
표 5. 명령어 미세 조정(Flan)은 다른 지속적인 사전 학습 방법에 비해 성능을 향상시킵니다.
테스트 후 명령 미세 조정은 모든 모델 유형의 정규화된 평균 성능을 크게 향상시켰으며 T5 모델은 미세 조정되지 않은 모델에 비해 명령 미세 조정의 이점을 가장 많이 얻었습니다. 이러한 결과는 일부 벤치마크에서 매우 강력합니다. 예를 들어 Flan-T5-XL은 단 30억 개의 매개변수로 47.6%의 MMLU 점수를 달성하여 1,750억 개의 매개변수로 GPT-3의 43.9% 점수를 능가했습니다.
NLP 벤치마크 외에도 언어 모델은 개방형 질문 요청에 대한 긴 형식의 답변을 생성할 수도 있습니다. 이러한 점에서 표준 NLP 벤치마크와 이를 평가하는 데 사용되는 자동화된 측정항목은 인간의 선호도를 측정하기에는 충분하지 않습니다. 연구자들은 이를 평가하여 190개의 사례로 구성된 평가 세트를 만들었습니다. 평가 세트는 창의성, 상황적 추론, 복잡한 추론, 계획 및 설명 등 각각 20개의 질문으로 구성된 5가지 까다로운 범주에 걸쳐 제로샷 방식으로 모델에 제기된 질문으로 구성됩니다.
이러한 예 중 60개(복잡한 추론, 계획 및 해석 범주)에 대해 연구에서는 사고 사슬 트리거 문구(예: "단계적으로 생각하자")를 넛지로 사용하여 변형을 만들었습니다. 또 다른 평가는 다음과 같습니다. CoT에서 제로샷 활성화 여부를 조사했습니다. 위에서 언급한 160개의 제로 샷 입력 외에도 이 연구에는 교육적 미세 조정이 없는 강력한 언어 모델이 잘 수행되는 것으로 나타난 퓨샷 기능을 테스트하기 위한 30개의 입력도 포함되었습니다.
연구원들은 명령 미세 조정과 규모 확장 모두 대규모 언어 모델의 성능을 지속적으로 향상시킬 수 있으며 미세 조정은 추론 능력에 중요하며 모델 능력을 일반화할 수도 있다고 믿습니다. Google은 이번 연구에서 명령어 미세 조정을 UL2R과 같은 다른 모델 적응 기술과 결합하여 가장 강력한 모델 Flan-U-PaLM을 제안합니다.
중요한 것은 명령 미세 조정이 모델 규모 확장처럼 계산 비용을 크게 증가시키지 않는다는 것입니다. 예를 들어 PaLM 540B의 경우 명령 미세 조정에는 사전 훈련 계산의 0.2%만 필요하지만 교차 평가를 정규화할 수 있습니다. 벤치마크 평균 증가율은 9.4%였다. 지시적 넛지를 사용하는 작은 모델은 때때로 넛지가 없는 큰 모델보다 성능이 뛰어날 수 있습니다.
이러한 이유로 연구자들은 거의 모든 사전 훈련된 언어 모델에 대해 지침 미세 조정을 권장합니다.
위 내용은 30억은 GPT-3의 1,750억을 능가했습니다. Google의 새로운 모델은 열띤 토론을 불러일으켰지만 Hinton의 나이를 잘못 입력했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!