Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Li Yuhui: Sarjana Sekolah Perisikan, Universiti Peking, di bawah bimbingan guru Zhang Hongyang dan Zhang Chao, hala tuju penyelidikannya ialah pecutan dan penjajaran model yang besar, dan kini sedang Mencari peluang pekerjaan dalam kelas ke-25Wei Fangyun: Penyelidik di Institut Penyelidikan Microsoft Asia, hala tuju penyelidikan merangkumi kecerdasan, penjanaan imej dan ejen AIZhang Chao: Penyelidik di Sekolah Perisikan Universiti Peking, hala tuju penyelidikan ialah penglihatan komputer dan mesin Learn
Zhang Hongyang: Penolong Profesor Pusat Pengajian Sains Komputer dan Institut Penyelidikan Vektor, Universiti Waterloo, hala tuju penyelidikan ialah pecutan LLM dan keselamatan AI
Penyahkodan autoregresif telah menjadi standard de facto untuk model bahasa besar (LLM), model bahasa besar Setiap pengiraan hadapan memerlukan akses kepada semua parameternya, tetapi hanya satu token boleh diperoleh, menjadikan penjanaannya mahal dan perlahan. Hari ini, kertas kerja bertajuk "EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees" mencadangkan pensampelan spekulatif pokok draf dinamik, yang melaraskan struktur pokok draf secara dinamik berdasarkan keyakinan model draf, dengan tertinggi Ia boleh meningkatkan kelajuan inferens model bahasa besar sebanyak 5 kali ganda tanpa mengubah taburan output model bahasa besar, memastikan losslessness.
- Pautan kertas: https://arxiv.org/pdf/2406.16858
-
Pautan projek: https://github.com/SafeLEAILab/EAG //huggingface.co/spaces/yuhuili/EAGLE-2
Kesan pecutan EAGLE-2 pada set data dialog berbilang pusingan MT-bench (gambar atas adalah generasi tamak, gambar bawah adalah penjanaan pensampelan):
EAGLE-2를 사용하면 2개의 RTX 3060($300)의 추론 속도가 A100($10000)을 초과할 수 있습니다. 추측적 샘플링은 소규모 모델을 사용하여 초안을 빠르게 생성합니다. 원래의 대규모 언어 모델은 한 번의 순방향 계산을 통해 초안의 정확성을 검증하고 올바른 초안을 출력으로 가져올 수 있습니다. . 이는 한 번에 여러 토큰을 생성하고 손실이 없음을 보장합니다. EAGLE은 추측 샘플링을 개선한 것입니다. 토큰 수준이 아닌 보다 일반적인 기능 수준에서 자동 회귀를 수행하는 동시에 샘플링 결과(한 시간 앞서 토큰)를 입력하여 불확실성을 제거하고 초안 모델의 정확도를 크게 향상시킵니다. 지금까지 EAGLE은 타사 테스트 Spec-Bench(https://github.com/hemingkx/Spec-Bench/blob/main/Leaderboard.md)에서 1위를 차지했습니다. Eagle 및 Medusa와 같은 ideasomethods는 정적 드래프트 트리를 사용합니다 위의 값이 "10+2"인 경우 다음 토큰은 예측하기 어렵습니다. EAGLE은 드래프트 적중률을 높이기 위해 이 위치에 두 개의 후보 토큰을 추가합니다. 옳은. 위의 내용이 "10+2="인 경우 다음 토큰은 분명히 "1"이지만 EAGLE은 정적 초안 구조를 사용하고 여전히 두 개의 후보 "1"과 "3"을 추가하지 않습니다. 대규모 언어 모델의 검사를 통해 낭비가 될 수 있습니다. EAGLE-2는 이 문제를 해결하는 것을 목표로 합니다. 아래 그림과 같이 위의 내용이 "10+2="인 경우 EAGLE-2는 후보 토큰 "1" 하나만 추가하고 저장된 토큰을 사용하여 초안 트리를 더 깊게 만듭니다. , "10+2=12"가 대규모 언어 모델의 검사를 통과하고 EAGLE-2가 한 번에 더 많은 토큰을 생성할 수 있도록 합니다. EAGLE-2의 작성자는 Alpaca 데이터 세트에 대해 간단한 테스트를 수행했습니다. 아래 그림은 왼쪽 그림의 P1-P6이 위치를 나타내고 수평선이 나타납니다. 오른쪽 그림에서는 축 좌표가 일치합니다. 실험 결과는 동일한 위치에 있는 드래프트 토큰의 수락률도 크게 다른 것을 보여주며, 이는 동적 드래프트 트리를 사용하면 정적 드래프트 트리보다 더 나은 결과를 얻을 수 있음을 보여줍니다. 위의 예에서 EAGLE-2는 드래프트 토큰 예측 난이도를 기반으로 드래프트 트리의 구조를 결정합니다. 정확한 난이도(수락률) 계산에는 원래 대규모 언어 모델의 계산 결과가 필요합니다. 이는 추측적 샘플링 감소를 위반합니다. 원래의 대규모 언어 모델에 액세스하려는 원래 의도입니다. 다행스럽게도 EAGLE 초안 모델의 신뢰도는 합격률(난이도)과 높은 양의 상관관계가 있습니다. 아래 그림은 (0,0)과 (1,1)을 연결하는 빨간색 점선으로 초안 모델의 다양한 신뢰 구간에서 초안 토큰의 평균 수락률을 보여줍니다. 초안 모델의 신뢰도는 합격률의 유효한 근사치로 사용될 수 있습니다.
EAGLE-2에는 확장과 재배치의 두 단계가 포함됩니다. 확장 단계에서는 드래프트 트리를 심화 및 확대하고, 재배치 단계에서는 드래프트 트리를 잘라내고 일부 노드(토큰)를 버립니다. 무손실을 보장하기 위해 초안 토큰이 승인되기 위한 전제는 모든 상위 노드가 승인된다는 것입니다. 따라서 EAGLE-2는 노드의 가치를 해당 노드의 제품과 상위의 승인률로 정의합니다. 신뢰 수준을 사용하여 대략적으로 계산합니다. 확장 단계에서 EAGLE-2는 확장을 위해 드래프트 트리의 마지막 레이어에서 가장 높은 값을 가진 m개의 노드(토큰)를 선택합니다. 이러한 토큰은 초안 모델에 공급된 다음 초안 모델의 출력이 입력 노드에 하위 노드로 연결되어 초안 트리가 심화되고 확대됩니다. 재정렬 단계에서 EAGLE-2는 값에 따라 전체 초안 트리를 재정렬하고 처음 n개 노드(토큰)를 유지합니다. 초안 토큰의 신뢰도는 0에서 1 사이입니다. 두 노드가 동일한 값을 갖는 경우 얕은 노드가 먼저 유지되므로 재배치 후 유지된 초안 트리를 연결하여 의미적 일관성을 보장해야 합니다. 재배치 후에는 드래프트 트리가 작아져 원래의 대규모 언어 모델 검증의 계산 부하가 줄어듭니다. 계산 결과의 정확성을 보장하려면 각 토큰이 상위 노드만 볼 수 있고 다른 분기의 영향을 받지 않도록 주의 마스크를 조정해야 합니다. 아래는 간단한 예입니다. 확장 단계의 노란색 상자는 확장을 위해 선택된 노드를 나타내고 녹색 상자는 이러한 노드가 입력으로 사용될 때 초안 모델의 예측입니다. Rerank 단계의 파란색 상자는 유지된 노드를 나타내며, 원래의 대규모 언어 모델에 대한 입력으로 하나의 차원으로 평면화됩니다. EAGLE-2는 트리 구조에 따라 주의 마스크를 조정합니다. 예를 들어 "a"는 조상 "It"과 "is"만 볼 수 있지만 다른 분기의 "has"는 볼 수 없습니다. EAGLE-2는 또한 표준 자동 회귀 디코딩과의 일관성을 보장하기 위해 위치 인코딩을 조정합니다. EAGLE-2는 MT-bench, Humaneval, GSM8K, Alpaca, CNN을 사용합니다. 실험은 DM, Natural Question 데이터 세트에서 수행되었으며 6가지 고급 추측 샘플링 방법(SpS, PLD, 메두사, Lookahead, Hydra, EAGLE).
표의 Speedup은 속도 향상 비율이고, τ는 평균 허용 길이입니다. 이는 원래의 대형 언어 모델이 각 순방향 계산에 대해 생성할 수 있는 토큰 수입니다. EAGLE-2는 각 순방향 계산에 대해 약 4-5개의 토큰을 생성할 수 있는 반면 자동 회귀 디코딩은 매번 1개의 토큰을 생성합니다. 따라서 EAGLE-2는 2.5x-5x의 가속 비율로 대규모 언어 모델 생성을 크게 가속화합니다. 코드에 결정론적 템플릿이 많고 초안이 적중하기 쉽기 때문에 코드 생성 작업(Humaneval 데이터 세트)에서 속도 향상 및 승인 기간이 가장 높습니다. 모든 작업과 대규모 언어 모델에서 EAGLE-2는 가장 높은 가속 비율과 평균 수용 기간을 가지며 이는 다른 방법보다 훨씬 뛰어납니다. EAGLE-2는 업계에서도 사용되며 Intel/intel-extension-for-transformers 등에 통합되어 있습니다. 위 내용은 최대 5배의 무손실 가속, EAGLE-2를 통해 RTX 3060은 A100보다 빠르게 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!