>기술 주변기기 >일체 포함 >Attention-free 대형 모델 Eagle7B: RWKV 기준으로 추론 비용이 10~100배 감소

Attention-free 대형 모델 Eagle7B: RWKV 기준으로 추론 비용이 10~100배 감소

WBOY
WBOY앞으로
2024-02-01 14:39:461148검색

관심 없는 대형 모델 Eagle7B: RWKV 기반으로 추론 비용이 10~100배 절감됩니다

AI 트랙에서는 수천억 개의 모델에 비해 최근 소형 모델이 많은 주목을 받고 있습니다. 매개변수. 예를 들어, 프랑스 AI 스타트업이 출시한 Mistral-7B 모델은 모든 벤치마크에서 Llama 2를 13B 앞섰고, 코드, 수학, 추론에서는 Llama 1을 34B 앞섰습니다.

대형 모델에 비해 소형 모델은 컴퓨팅 전력 요구 사항이 낮고 장치 측에서 실행할 수 있는 능력 등 많은 장점이 있습니다.

최근 오픈 소스 비영리 조직인 RWKV에서 7.52B 매개변수 Eagle 7B라는 새로운 언어 모델이 등장했습니다. 이는 다음과 같은 특징을 갖습니다. -v5 아키텍처 구축, 이 아키텍처의 추론 비용은 낮습니다(RWKV는 선형 변환기이므로 추론 비용이 10~100배 이상 절감됩니다).

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍100개 이상의 언어와 1조 1천억 개 이상의 토큰으로 학습 ;


다국어 벤치마크에서 모든 7B 클래스 모델을 능가합니다.
  • 영어 평가에서 Eagle 7B 성능은 Falcon(1.5T), LLaMA2(2T), Mistral에 가깝습니다. - 영어평가 7B(1T)
  • 주의 없이 변신.
  • Eagle 7B는 RWKV-v5 아키텍처를 기반으로 구축되었습니다. RWKV(Receptance Weighted Key Value)는 RNN과 Transformer의 장점을 결합하고 단점을 피한 새로운 아키텍처입니다. 이는 매우 잘 설계되었으며 Transformer의 메모리 및 확장 병목 현상을 완화하고 보다 효과적인 선형 확장을 달성할 수 있습니다. 동시에 RWKV는 Transformer가 현장에서 지배적인 특성을 일부 유지하고 있습니다.
  • 현재 RWKV는 6세대 RWKV-6까지 반복되었으며 성능과 크기는 Transformer와 유사합니다. 미래의 연구자들은 이 아키텍처를 사용하여 보다 효율적인 모델을 만들 수 있습니다.
  • RWKV에 대한 자세한 내용은 "Transformer 시대의 RNN 재구성, RWKV는 non-Transformer 아키텍처를 수백억 개의 매개변수로 확장합니다"를 참조할 수 있습니다.

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍RWKV-v5 Eagle 7B는 제한 없이 개인용 또는 상업용으로 사용할 수 있다는 점을 언급할 가치가 있습니다.

23개 언어에 대한 테스트 결과

다국어에 대한 다양한 모델의 성능은 다음과 같습니다. 테스트 벤치마크에는 xLAMBDA, xStoryCloze, xWinograd, xCopa가 포함됩니다. ㅋㅋㅋ . 그러나 다국어 벤치마크가 부족해 연구에서는 좀 더 많이 사용되는 23개 언어에 대해서만 능력을 테스트할 수 있고, 나머지 75개 이상의 언어에 대한 능력은 아직 알 수 없다.

영어 성적

다양한 모델들의 영어 성적은 상식추론, 세계지식 등 12가지 벤치마크를 통해 평가됩니다.

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍결과에서 우리는 RWKV가 v4에서 v5 아키텍처로 크게 도약한 것을 다시 한 번 확인할 수 있습니다. v4는 이전에 1T 토큰 MPT-7b에 패했지만 v5는 벤치마크 테스트에서 따라잡기 시작했습니다. 어떤 경우에는(일부 벤치마크 테스트 LAMBADA, StoryCloze16, WinoGrande, HeadQA_en, Sciq에서도) Falcon 또는 심지어 llama2를 능가할 수 있습니다.


또한 v5 성능은 대략적인 토큰 훈련 통계를 바탕으로 예상되는 Transformer 성능 수준과 일치하기 시작합니다.

이전 Mistral-7B는 7B 규모 모델에서 선두를 유지하기 위해 2~7조 토큰의 훈련 방법을 사용했습니다. 연구에서는 RWKV-v5 Eagle 7B가 llama2 성능을 능가하고 Mistral 수준에 도달할 수 있도록 이러한 격차를 해소하기를 희망합니다.

아래 그림은 3000억 토큰 포인트에 가까운 RWKV-v5 Eagle 7B의 체크포인트가 pythia-6.9b와 유사한 성능을 보여줍니다.

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

이것은 RWKV-v4 아키텍처에 대한 이전 작업과 일치합니다. 파일 기반) 합의는 RWKV와 같은 선형 변환기가 성능 수준이 변환기와 유사하고 동일한 수의 토큰으로 훈련된다는 것입니다.

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

예상대로 이 모델의 등장은 (평가 벤치마크 측면에서) 가장 강력한 선형 변압기의 등장을 의미합니다.

위 내용은 Attention-free 대형 모델 Eagle7B: RWKV 기준으로 추론 비용이 10~100배 감소의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제