Attention-free 대형 모델 Eagle7B: RWKV 기준으로 추론 비용이 10~100배 감소-일체 포함-php.cn

집

기술 주변기기

일체 포함

Attention-free 대형 모델 Eagle7B: RWKV 기준으로 추론 비용이 10~100배 감소

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 01, 2024 pm 02:39 PM

데이터모델

관심 없는 대형 모델 Eagle7B: RWKV 기반으로 추론 비용이 10~100배 절감됩니다

AI 트랙에서는 수천억 개의 모델에 비해 최근 소형 모델이 많은 주목을 받고 있습니다. 매개변수. 예를 들어, 프랑스 AI 스타트업이 출시한 Mistral-7B 모델은 모든 벤치마크에서 Llama 2를 13B 앞섰고, 코드, 수학, 추론에서는 Llama 1을 34B 앞섰습니다.

대형 모델에 비해 소형 모델은 컴퓨팅 전력 요구 사항이 낮고 장치 측에서 실행할 수 있는 능력 등 많은 장점이 있습니다.

최근 오픈 소스 비영리 조직인 RWKV에서 7.52B 매개변수 Eagle 7B라는 새로운 언어 모델이 등장했습니다. 이는 다음과 같은 특징을 갖습니다. -v5 아키텍처 구축, 이 아키텍처의 추론 비용은 낮습니다(RWKV는 선형 변환기이므로 추론 비용이 10~100배 이상 절감됩니다).

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍 100개 이상의 언어와 1조 1천억 개 이상의 토큰으로 학습 ;

다국어 벤치마크에서 모든 7B 클래스 모델을 능가합니다.

영어 평가에서 Eagle 7B 성능은 Falcon(1.5T), LLaMA2(2T), Mistral에 가깝습니다. - 영어평가 7B(1T)
주의 없이 변신.
Eagle 7B는 RWKV-v5 아키텍처를 기반으로 구축되었습니다. RWKV(Receptance Weighted Key Value)는 RNN과 Transformer의 장점을 결합하고 단점을 피한 새로운 아키텍처입니다. 이는 매우 잘 설계되었으며 Transformer의 메모리 및 확장 병목 현상을 완화하고 보다 효과적인 선형 확장을 달성할 수 있습니다. 동시에 RWKV는 Transformer가 현장에서 지배적인 특성을 일부 유지하고 있습니다.
현재 RWKV는 6세대 RWKV-6까지 반복되었으며 성능과 크기는 Transformer와 유사합니다. 미래의 연구자들은 이 아키텍처를 사용하여 보다 효율적인 모델을 만들 수 있습니다.
RWKV에 대한 자세한 내용은 "Transformer 시대의 RNN 재구성, RWKV는 non-Transformer 아키텍처를 수백억 개의 매개변수로 확장합니다"를 참조할 수 있습니다.

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍 RWKV-v5 Eagle 7B는 제한 없이 개인용 또는 상업용으로 사용할 수 있다는 점을 언급할 가치가 있습니다.

23개 언어에 대한 테스트 결과

다국어에 대한 다양한 모델의 성능은 다음과 같습니다. 테스트 벤치마크에는 xLAMBDA, xStoryCloze, xWinograd, xCopa가 포함됩니다. ㅋㅋㅋ . 그러나 다국어 벤치마크가 부족해 연구에서는 좀 더 많이 사용되는 23개 언어에 대해서만 능력을 테스트할 수 있고, 나머지 75개 이상의 언어에 대한 능력은 아직 알 수 없다.

영어 성적

다양한 모델들의 영어 성적은 상식추론, 세계지식 등 12가지 벤치마크를 통해 평가됩니다.

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍 결과에서 우리는 RWKV가 v4에서 v5 아키텍처로 크게 도약한 것을 다시 한 번 확인할 수 있습니다. v4는 이전에 1T 토큰 MPT-7b에 패했지만 v5는 벤치마크 테스트에서 따라잡기 시작했습니다. 어떤 경우에는(일부 벤치마크 테스트 LAMBADA, StoryCloze16, WinoGrande, HeadQA_en, Sciq에서도) Falcon 또는 심지어 llama2를 능가할 수 있습니다.

또한 v5 성능은 대략적인 토큰 훈련 통계를 바탕으로 예상되는 Transformer 성능 수준과 일치하기 시작합니다.

이전 Mistral-7B는 7B 규모 모델에서 선두를 유지하기 위해 2~7조 토큰의 훈련 방법을 사용했습니다. 연구에서는 RWKV-v5 Eagle 7B가 llama2 성능을 능가하고 Mistral 수준에 도달할 수 있도록 이러한 격차를 해소하기를 희망합니다.

아래 그림은 3000억 토큰 포인트에 가까운 RWKV-v5 Eagle 7B의 체크포인트가 pythia-6.9b와 유사한 성능을 보여줍니다.

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

이것은 RWKV-v4 아키텍처에 대한 이전 작업과 일치합니다. 파일 기반) 합의는 RWKV와 같은 선형 변환기가 성능 수준이 변환기와 유사하고 동일한 수의 토큰으로 훈련된다는 것입니다.

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

예상대로 이 모델의 등장은 (평가 벤치마크 측면에서) 가장 강력한 선형 변압기의 등장을 의미합니다.

위 내용은 Attention-free 대형 모델 Eagle7B: RWKV 기준으로 추론 비용이 10~100배 감소의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?Apr 11, 2025 pm 12:13 PM

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

Meta Llama 3.2- 분석 Vidhya를 시작합니다Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

기계와 대화하는 사람의 비용 : 챗봇이 실제로 신경 쓰일 수 있습니까?Apr 11, 2025 pm 12:00 PM

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

파이썬의 Scipy 라이브러리 이해Apr 11, 2025 am 11:57 AM

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

LLAMA 3.2를 실행하는 3 가지 방법 분석 VidhyaApr 11, 2025 am 11:56 AM

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

Dagster와 데이터 품질 검사 자동화Apr 11, 2025 am 11:44 AM

데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

메인 프레임은 AI 시대에 역할을합니까?Apr 11, 2025 am 11:42 AM

메인 프레임 : AI 혁명의 이름없는 영웅 서버는 일반 목적 애플리케이션 및 여러 클라이언트를 처리하는 데 탁월하지만 메인 프레임은 대량의 미션 크리티컬 작업을 위해 구축됩니다. 이 강력한 시스템은 자주 무거움에서 발견됩니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.