Rumah  >  Artikel  >  Peranti teknologi  >  Pecutan tanpa rugi sehingga 5x, EAGLE-2 membolehkan RTX 3060 menjana lebih pantas daripada A100

Pecutan tanpa rugi sehingga 5x, EAGLE-2 membolehkan RTX 3060 menjana lebih pantas daripada A100

WBOY
WBOYasal
2024-07-19 13:12:48503semak imbas
无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Li Yuhui: Sarjana Sekolah Perisikan, Universiti Peking, di bawah bimbingan guru Zhang Hongyang dan Zhang Chao, hala tuju penyelidikannya ialah pecutan dan penjajaran model yang besar, dan kini sedang Mencari peluang pekerjaan dalam kelas ke-25
Wei Fangyun: Penyelidik di Institut Penyelidikan Microsoft Asia, hala tuju penyelidikan merangkumi kecerdasan, penjanaan imej dan ejen AI

Zhang Chao: Penyelidik di Sekolah Perisikan Universiti Peking, hala tuju penyelidikan ialah penglihatan komputer dan mesin Learn

Zhang Hongyang: Penolong Profesor Pusat Pengajian Sains Komputer dan Institut Penyelidikan Vektor, Universiti Waterloo, hala tuju penyelidikan ialah pecutan LLM dan keselamatan AI

Penyahkodan autoregresif telah menjadi standard de facto untuk model bahasa besar (LLM), model bahasa besar Setiap pengiraan hadapan memerlukan akses kepada semua parameternya, tetapi hanya satu token boleh diperoleh, menjadikan penjanaannya mahal dan perlahan.

Hari ini, kertas kerja bertajuk "EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees" mencadangkan pensampelan spekulatif pokok draf dinamik, yang melaraskan struktur pokok draf secara dinamik berdasarkan keyakinan model draf, dengan tertinggi Ia boleh meningkatkan kelajuan inferens model bahasa besar sebanyak 5 kali ganda tanpa mengubah taburan output model bahasa besar, memastikan losslessness.

无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

  • Pautan kertas: https://arxiv.org/pdf/2406.16858
  • Pautan projek: https://github.com/SafeLEAILab/
    EAG //huggingface.co/spaces/yuhuili/EAGLE-2
Kesan pecutan EAGLE-2 pada set data dialog berbilang pusingan MT-bench (gambar atas adalah generasi tamak, gambar bawah adalah penjanaan pensampelan):
无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100
EAGLE-2를 사용하면 2개의 RTX 3060($300)의 추론 속도가 A100($10000)을 초과할 수 있습니다. 无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100
Background

추측적 샘플링은 소규모 모델을 사용하여 초안을 빠르게 생성합니다. 원래의 대규모 언어 모델은 한 번의 순방향 계산을 통해 초안의 정확성을 검증하고 올바른 초안을 출력으로 가져올 수 있습니다. . 이는 한 번에 여러 토큰을 생성하고 손실이 없음을 보장합니다. EAGLE은 추측 샘플링을 개선한 것입니다. 토큰 수준이 아닌 보다 일반적인 기능 수준에서 자동 회귀를 수행하는 동시에 샘플링 결과(한 시간 앞서 토큰)를 입력하여 불확실성을 제거하고 초안 모델의 정확도를 크게 향상시킵니다.

지금까지 EAGLE은 타사 테스트 Spec-Bench(https://github.com/hemingkx/Spec-Bench/blob/main/Leaderboard.md)에서 1위를 차지했습니다. Eagle 및 Medusa와 같은 ideasomethods는 정적 드래프트 트리를 사용합니다 위의 값이 "10+2"인 경우 다음 토큰은 예측하기 어렵습니다. EAGLE은 드래프트 적중률을 높이기 위해 이 위치에 두 개의 후보 토큰을 추가합니다. 옳은. 위의 내용이 "10+2="인 경우 다음 토큰은 분명히 "1"이지만 EAGLE은 정적 초안 구조를 사용하고 여전히 두 개의 후보 "1"과 "3"을 추가하지 않습니다. 대규모 언어 모델의 검사를 통해 낭비가 될 수 있습니다. EAGLE-2는 이 문제를 해결하는 것을 목표로 합니다. 아래 그림과 같이 위의 내용이 "10+2="인 경우 EAGLE-2는 후보 토큰 "1" 하나만 추가하고 저장된 토큰을 사용하여 초안 트리를 더 깊게 만듭니다. , "10+2=12"가 대규모 언어 모델의 검사를 통과하고 EAGLE-2가 한 번에 더 많은 토큰을 생성할 수 있도록 합니다.

EAGLE-2의 작성자는 Alpaca 데이터 세트에 대해 간단한 테스트를 수행했습니다. 아래 그림은 왼쪽 그림의 P1-P6이 위치를 나타내고 수평선이 나타납니다. 오른쪽 그림에서는 축 좌표가 일치합니다. 실험 결과는 동일한 위치에 있는 드래프트 토큰의 수락률도 크게 다른 것을 보여주며, 이는 동적 드래프트 트리를 사용하면 정적 드래프트 트리보다 더 나은 결과를 얻을 수 있음을 보여줍니다.
위의 예에서 EAGLE-2는 드래프트 토큰 예측 난이도를 기반으로 드래프트 트리의 구조를 결정합니다. 정확한 난이도(수락률) 계산에는 원래 대규모 언어 모델의 계산 결과가 필요합니다. 이는 추측적 샘플링 감소를 위반합니다. 원래의 대규모 언어 모델에 액세스하려는 원래 의도입니다. 다행스럽게도 EAGLE 초안 모델의 신뢰도는 합격률(난이도)과 높은 양의 상관관계가 있습니다. 아래 그림은 (0,0)과 (1,1)을 연결하는 빨간색 점선으로 초안 모델의 다양한 신뢰 구간에서 초안 토큰의 평균 수락률을 보여줍니다. 초안 모델의 신뢰도는 합격률의 유효한 근사치로 사용될 수 있습니다.
Kaedah

EAGLE-2 merangkumi dua peringkat, pengembangan dan penyusunan semula Peringkat pengembangan memperdalam dan membesarkan pokok draf, dan peringkat penyusunan semula memangkas pokok draf dan membuang beberapa nod (token).

Untuk memastikan tiada kerugian, premis untuk draf token diterima ialah semua nod nenek moyangnya diterima, jadi EAGLE-2 mentakrifkan nilai nod sebagai hasil daripadanya dan kadar penerimaan nenek moyangnya, menggunakan tahap keyakinan untuk menganggarkan.

Dalam fasa pengembangan, EAGLE-2 memilih nod m (token) dengan nilai tertinggi dalam lapisan terakhir pepohon draf untuk pengembangan. Token ini dimasukkan ke dalam model draf, dan kemudian output model draf disambungkan ke nod input sebagai nod anak, mendalamkan dan membesarkan pepohon draf. Dalam fasa penyusunan semula, EAGLE-2 menyusun semula keseluruhan pepohon draf mengikut nilai, mengekalkan n nod pertama (token). Keyakinan token draf adalah antara 0 dan 1. Apabila kedua-dua nod mempunyai nilai yang sama, nod cetek dikekalkan dahulu Oleh itu, pepohon draf yang dikekalkan selepas penyusunan semula mesti disambungkan, memastikan koheren semantik. Selepas penyusunan semula, pepohon draf menjadi lebih kecil, mengurangkan beban pengiraan pengesahan model bahasa besar asal. Untuk memastikan ketepatan hasil pengiraan, topeng perhatian perlu dilaraskan untuk memastikan setiap token hanya boleh melihat nod nenek moyangnya dan tidak terjejas oleh cawangan lain. Di bawah adalah contoh mudah.
无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100
Kotak kuning dalam peringkat Kembangkan mewakili nod yang dipilih untuk pengembangan, dan kotak hijau ialah ramalan model draf apabila nod ini digunakan sebagai input. Kotak biru dalam peringkat Rerank mewakili nod yang dikekalkan, yang kemudiannya diratakan menjadi satu dimensi sebagai input kepada model bahasa besar asal. EAGLE-2 melaraskan topeng perhatian mengikut struktur pokok Sebagai contoh, "a" hanya boleh melihat nenek moyangnya "Ia" dan "adalah", tetapi tidak dapat melihat "ada" cawangan lain. EAGLE-2 juga melaraskan pengekodan kedudukan untuk memastikan konsistensi dengan penyahkodan autoregresif standard.

Eksperimen

EAGLE-2 menggunakan MT-bench, Humaneval, GSM8K, Alpaca, CNN/ Eksperimen telah dijalankan pada DM, kaedah Natural Questions (dataset pensampelan Natural Questions dan dibandingkan dengan 6 spekulatif lanjutan pensampelan PLD, Medusa, Lookahead, Hydra, EAGLE).
无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

Kelajuan dalam jadual ialah nisbah kelajuan, dan τ ialah purata panjang penerimaan, iaitu bilangan token yang model bahasa besar asal boleh jana untuk setiap pengiraan hadapan. EAGLE-2 boleh menjana kira-kira 4-5 token untuk setiap pengiraan hadapan, manakala penyahkodan autoregresif menjana 1 token untuk setiap kali Oleh itu, EAGLE-2 mempercepatkan penjanaan model bahasa besar, dengan nisbah pecutan 2.5x-5x. Kelajuan dan panjang penerimaan adalah paling tinggi pada tugas penjanaan kod (set data Kemanusiaan), kerana terdapat sejumlah besar templat penentu dalam kod dan draf lebih mudah untuk dipukul. Merentasi semua tugasan dan model bahasa besar, EAGLE-2 mempunyai nisbah pecutan tertinggi dan purata panjang penerimaan, jauh lebih baik daripada kaedah lain.

Applications

EAGLE-2 juga digunakan dalam industri dan disepadukan ke dalam Intel/intel-extension-for-transformers, dsb.

Atas ialah kandungan terperinci Pecutan tanpa rugi sehingga 5x, EAGLE-2 membolehkan RTX 3060 menjana lebih pantas daripada A100. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn