>  기사  >  기술 주변기기  >  US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

WBOY
WBOY앞으로
2023-09-20 15:49:01679검색
디코더 전용 구조(예: GPT 및 LLAMA 모델 제품군), 인코더 전용 구조(예: BERT), 인코더-디코더 구조(예: T5)를 포함한 대규모 언어 모델(LLM) 및 해당 변형 모델에는 이는 놀라운 성공을 거두었으며 다양한 언어 처리 및 다중 모드 작업에 널리 사용되었습니다.

이러한 성공에도 불구하고 LLM 교육 비용은 여전히 ​​너무 높기 때문에 교육 비용을 감당할 수 있는 회사는 소수에 불과합니다. 또한, 현재 추세를 보면 앞으로는 더 큰 규모의 훈련 데이터가 사용될 것이며, 이로 인해 대형 모델의 개발 비용이 더욱 증가할 것입니다. 예를 들어 LLAMA-1 훈련은 1~1.4TB 토큰을 사용하는 반면 Llama 2는 2TB에 도달합니다.

LLM 개발의 또 다른 주요 과제는 평가입니다. 주류 평가 방법은 지식 평가(MMLU 및 C-Eval)와 NLP 작업 평가의 두 가지 범주로 나뉩니다. 이러한 평가 방법은 데이터 유출 문제가 있을 수 있기 때문에 모델의 기능을 실제로 반영하지 못할 수 있습니다. 즉, 평가 데이터 세트의 일부가 모델 훈련 프로세스 중에 사용되었을 수 있습니다. 또한 지식 중심 평가 방법은 지능 수준을 평가하는 데 적합하지 않을 수 있습니다. 보다 공정하고 객관적인 평가 방법은 LLM의 지능지수(IQ)를 측정하는 것입니다. 이는 훈련 데이터에서 볼 수 없는 조건과 맥락에 대해 LLM을 일반화하는 것입니다.

성장 전략. 훈련 비용 문제를 해결하기 위해 최근 베이징 Zhiyuan 인공지능 연구소, 중국과학원 컴퓨팅 기술 연구소 등 많은 기관에서 성장 전략을 통해 1,000억 매개변수 수준의 LLM을 훈련하려는 시도를 하고 있습니다. 처음으로. 성장이란 훈련 중 매개변수의 수가 고정되지 않고 작은 모델에서 큰 모델로 확장된다는 것을 의미합니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

  • Paper: https://arxiv.org/pdf/2309.03852.pdf

  • 다시 작성해야 할 내용은 다음과 같습니다. 모델 링크: https://huggingface.co/CofeAI/FLM- 101B

그림 1은 성장 전략의 세 가지 일반적인 시나리오를 보여줍니다. LLM의 FLOP는 대략 매개변수 수에 비례하므로 모델 매개변수의 변화 곡선과 X축 사이의 영역은 훈련 계산 비용을 나타낼 수 있습니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.


그림 1(a)는 모델 성장이 없는 표준 학습 전략을 보여줍니다. 1(b)는 비용을 50% 절약할 수 있는 선형 성장 전략입니다. 1(c)는 비용을 덜 절약하는 중간 성장 전략입니다. 50% 이상의 비용, 1(d)는 50% 이상의 비용을 절감할 수 있는 급진적인 성장 전략입니다. 이 분석은 컴퓨팅 비용을 최대한 절감하기 위해서는 공격적인 성장 전략을 채택해야 함을 보여줍니다.

이 새로운 연구의 성장 연산자의 설계는 "마스크된 구조적 성장을 통한 2배 더 빠른 언어 모델 사전 훈련" 논문의 MSG에서 영감을 얻었습니다. 이는 Transformer의 네 가지를 모두 다루는 완전한 작업 세트입니다. 구조 성장 차원. 더 중요한 것은 MSG가 기능을 완벽하게 유지하면서 성장할 수 있다는 것입니다. 따라서 작은 모델은 더 작은 매개변수 검색 공간으로 빠르게 학습할 수 있지만 그 지식은 이후의 더 큰 모델에 상속될 수 있습니다. 이를 통해 성장 전략은 동일하거나 더 적은 계산 비용을 사용하여 더 나은 성능을 달성할 수 있습니다.

오픈 소스 FLM-101B 모델. Zhiyuan Research Institute의 연구원들은 점진적인 성장을 통해 1,010억 개의 매개변수로 LLM 모델을 훈련했으며, 해당 모델을 오픈 소스로 공개할 것이라고 밝혔습니다. 이 모델의 아키텍처는 FreeLM의 발전입니다. 따라서 연구원들은 FLM-101B라고 명명했는데, 여기서 F는 Free를 의미합니다.

FreeLM 프레임워크에는 언어 신호와 교사 신호에 따라 각각 안내되는 두 가지 사전 훈련 목표가 있습니다. 이 새로운 연구에서는 이 두 가지 목표가 공통 언어 모델링 패러다임으로 통합되었습니다.

IQ 평가 벤치마크. 저비용 교육 패러다임 외에도 팀은 LLM의 지능지수(IQ) 평가를 위한 체계적인 벤치마크 세트를 제안함으로써 또 다른 기여를 했습니다.

이전 연구에서는 PPL(Perplexity Level) 표시기가 생성된 텍스트의 품질을 어느 정도 반영할 수 있지만 신뢰할 수 없는 것으로 나타났습니다. 반면, LLM 훈련 데이터의 규모가 너무 커서 모델이 단지 지식 데이터를 인용하고 있는지, 아니면 실제로 인간과 같은 추론, 분석, 일반화 능력을 달성하고 있는지 구별하기 어렵습니다. 이 연구가 IQ 재단을 정의하는 것입니다. 일반적으로 사용되는 일부 평가 지표(영어의 경우 MMLU, 중국어의 경우 C-Eval)는 분명히 지식 중심이므로 모델의 지능 수준을 완전히 반영할 수 없습니다.

팀에서는 건전성 점검을 위해 테스트를 실시했습니다. 세계적으로 유명한 대학의 컴퓨터 공학 연구원 5명이 C-Eval의 화학 시험 문제를 사용하여 시험을 봤습니다. 대부분의 자원 봉사자들이 화학에 대해 배운 것을 잊어버렸기 때문에 그들의 정확성은 무작위 추측만큼 우수하다는 것이 밝혀졌습니다. 따라서 전문성을 강조하는 평가 벤치마크만으로는 모델의 IQ를 측정하기에 충분하지 않습니다.

LLM의 IQ를 종합적으로 측정하기 위해 팀은 기호 매핑, 규칙 이해, 패턴 마이닝 및 간섭 저항이라는 IQ의 네 가지 주요 측면을 고려하는 IQ 평가 벤치마크를 개발했습니다.
  • 언어는 본질적으로 상징적입니다. LLM의 지능 수준을 평가하기 위해 범주 레이블 대신 기호를 사용하는 일부 연구가 있었습니다. 마찬가지로 팀에서는 보이지 않는 컨텍스트를 일반화하는 LLM의 기능을 테스트하기 위해 기호 매핑 접근 방식을 사용했습니다.

  • 인간 지능의 중요한 능력은 주어진 규칙을 이해하고 그에 따른 조치를 취하는 것입니다. 이 테스트 방법은 다양한 수준의 테스트에서 널리 사용되었습니다. 따라서 여기서는 규칙 이해가 두 번째 테스트가 됩니다.

  • 재작성된 내용: 패턴 마이닝은 귀납과 연역을 포함하는 지능의 중요한 부분입니다. 과학 발전의 역사에서 이 방법은 중요한 역할을 합니다. 또한 다양한 대회의 시험 문제에는 이러한 답변 능력이 필요한 경우가 많습니다. 이러한 이유로 세 번째 평가 지표로 패턴 마이닝을 선택했습니다

  • 마지막이자 매우 중요한 지표는 지능의 핵심 기능 중 하나이기도 한 간섭 방지 능력입니다. 연구에 따르면 언어와 이미지 모두 소음으로 인해 쉽게 방해받는 것으로 나타났습니다. 이를 염두에 두고 팀은 간섭 내성을 최종 평가 지표로 사용했습니다.

물론 이 네 가지 지표가 결코 LLM IQ 평가의 최종 단어는 아니지만 후속 연구 개발을 촉진하는 출발점이 될 수 있으며 결국에는 포괄적인 LLM IQ 평가 프레임워크로 이어질 것으로 예상됩니다.

이 연구의 주요 기여는 다음과 같습니다.
  • 연구원은 이것이 성장 전략을 사용하여 처음부터 1000억 개가 넘는 매개 변수를 훈련하려는 LLM 연구 시도라고 말했습니다. 동시에 이것은 현재 가장 낮은 비용의 1,000억 매개변수 모델이며 비용은 미화 100,000달러에 불과합니다

  • FreeLM 교육 목표, 잠재적 하이퍼 매개변수 검색 방법 및 함수 보존 성장을 개선하여 이 연구는 불안정성 문제를 해결합니다. 연구자들은 이 방법이 더 광범위한 과학 연구 커뮤니티에도 도움이 될 수 있다고 믿습니다.

  • 연구원들은 또한 지식 중심 벤치마크와 새로 제안된 체계적인 IQ 평가 벤치마크를 사용하는 등 이전에 강력한 모델과 새로운 모델을 실험적으로 비교했습니다. 실험 결과는 FLM-101B 모델이 경쟁력 있고 강력하다는 것을 보여줍니다

  • 팀은 1000억 매개변수 규모의 중국어 및 영어 이중 언어 LLM 연구 개발을 촉진하기 위해 모델 체크포인트, 코드, 관련 도구 등을 출시할 예정입니다.

FLM-101B 설계 개요

구조적으로 FLM-101B는 FreeLM을 백본 네트워크로 사용하고 xPos를 통합합니다. 모델 크기 측면에서 새로운 성장 전략 덕분에 연구자들은 한 번의 훈련으로 16B, 51B, 101B의 세 가지 크기의 모델을 얻을 수 있습니다.

사전 훈련 설정에 있어서 FLM-101B는 FreeLM의 훈련 전략을 계승합니다.

성장 전략 측면에서, 다양한 크기의 모델을 독립적으로 훈련하는 일반적인 관행과 달리 팀은 16B, 51B 및 101B 매개변수를 사용하여 세 가지 모델을 순차적으로 훈련할 수 있으며, 각 모델은 이전 모델의 더 큰 크기를 상속받습니다. 1. 작은 모델에 대한 지식.

훈련 하드웨어의 경우 24개의 DGX-A800 GPU(8×80G) 서버 클러스터가 사용됩니다. FLM-101B의 훈련 시간은 26일 미만입니다. 아래 표 1과 2를 참고하세요.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

FLM-101B의 학습 안정성

손실 발산 및 경사 폭발과 같은 불안정한 문제를 해결하기 위해 연구진은 유망한 솔루션을 제안했는데, 이를 간략하게 설명하면 다음과 같습니다.

손실 예측. 훈련 안정성을 달성하기 위해 새로 제안된 방법은 다음과 같습니다.

먼저 FLM-16B 훈련을 시작하기 전에 데이터의 분포를 결정합니다.

다음으로 학습률, 초기화 표준편차, 출력 레이어의 소프트맥스 온도를 포함한 세 가지 하이퍼파라미터에 대해 그리드 검색을 수행합니다. 그리드 검색은 숨겨진 상태 차원(즉, 모델 너비)이 256, 헤드 수는 2, 매개변수 수는 4천만인 대리 모델을 실행하여 수행됩니다. 이 대리 모델의 다른 모든 구조적 하이퍼파라미터와 훈련 데이터는 FLM-16B와 동일합니다. 6개 노드에서 데이터 병렬 처리를 사용하여 그리드 검색 실행에 24.6시간이 걸렸으며, 이는 24노드 구성을 사용하면 대략 6시간이 소요됩니다.

이 그리드 검색을 통해 연구원들은 최적의 하이퍼 매개변수인 학습률 = 4e-4, 표준 편차 = 1.6e-2, 소프트맥스 온도 = 2.0을 찾았습니다.

그런 다음 이러한 하이퍼파라미터를 µP를 통해 마이그레이션하여 불안정성 문제를 방지하는 원활한 교육 경험을 달성합니다. MSG를 조합하여 사용하면 LM-51B와 FLM-101B는 후속 성장 발산 문제가 발생하지 않습니다.

그림 2는 완전한 훈련 손실 곡선을 보여줍니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

Bfloat16을 통한 혼합 정밀도. 혼합 정밀도를 사용하는 목적은 런타임 중에 메모리와 시간 비용을 절약하는 것입니다. 여기서 그들은 Bfloat16을 선택했습니다.
벤치마크 평가

표 3은 FLM-101B의 성능을 다른 강력한 벤치마크 모델(LLAMA 시리즈 모델 및 GLM-130B)과 비교합니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

연구원들은 이러한 결과를 통해 FLM-101B가 사실 지식에 아무런 이점이 없음을 보여주며, 더 많은 훈련 데이터를 사용할 수 있다면 성능은 지속적으로 향상될 것이라고 말했습니다.

표 4는 전문성 평가 측면에서 기본 모델 대비 eFLM-16B의 결과를 보여줍니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

일부 특정 교육 데이터가 압도적인 기여를 할 수 있으므로 전문성을 강조하는 데이터 세트의 점수는 LLM의 지능 수준을 반영하지 않는 것으로 나타났습니다.

표 5는 FLM 모델의 각 단계의 성능을 보여줍니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

예상대로 FLM의 성능은 모델이 증가할수록 향상됩니다. FLM-101B는 거의 모든 임무에서 최고의 성능을 발휘했습니다. 이는 모델이 성장할 때마다 이전 단계의 지식을 상속받는다는 의미입니다.
IQ 실험

실험에서 LLM의 IQ를 보다 체계적으로 평가하기 위해 지능형 소스 연구소 팀은 기존 IQ 관련 데이터 세트를 사용하고 필요한 몇 가지 작업을 수행했습니다. 수정을 통해 새로운 합성 데이터도 생성되었습니다.

구체적으로 그들이 제안한 IQ 평가는 주로 기호 매핑, 규칙 이해, 패턴 마이닝 및 간섭 방지의 네 가지 측면을 고려합니다. 이러한 작업에는 한 가지 중요한 공통점이 있습니다. 즉, 모두 새로운 상황에서의 추론과 일반화에 의존한다는 것입니다.

다음 표는 IQ 실험 결과를 보여줍니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.

이 표에서 네 가지 IQ 평가 벤치마크에서 FLM-101B는 훨씬 낮은 계산 비용으로 결과를 얻었습니다. GPT-3과 비슷하고 GLM-130B보다 우수합니다.

이러한 이점은 초기 단계의 작은 모델이 검색 공간을 더 작게 다듬고 일반화 능력이 향상되기 때문일 것으로 추측됩니다. 강화되었습니다. 이러한 장점은 계속해서 발휘됩니다.

위 내용은 US$100,000 + 26일, 1,000억 개의 매개변수를 갖춘 저비용 LLM이 탄생했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제