搜尋
首頁科技週邊人工智慧首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

大語言模型(LLM) 壓縮一直備受關注,後訓練量化(Post-training Quantization) 是其中一種常用演算法,但是現有PTQ 方法大多都是integer 量化,且當位元數低於8 時,量化後模型的準確率會下降非常多。想較於 Integer (INT) 量化,Floating Point (FP) 量化能較好的表示長尾分佈,因而越來越多的硬體平台開始支援 FP 量化。而這篇文章給出了大模型 FP 量化的解決方案。文章發表在 EMNLP 2023 上。

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

  • 論文網址:https://arxiv.org/abs/2310.16836
  • #程式碼位址:https://github.com/nbasyl/LLM-FP4

要了解本文,必須先具備基本的有關Floating Point Format 以及Floating Point Quantization 的知識,首先Floating Point Number 可以用以下公式表示:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

# #s 代表正負符號位元(sign bit),m 代表尾數位(mantissa bits),e 代表指數位(exponent bits)。 p 是介於 0 到 2^e - 1 之間的值,用來表示當前數字該被分割到哪一個指數區間,d 取 0 或 1 的值,用來表示第 i 個 mantissa bit。 b 是 bias,一個用來調整 exponent 區間的整數值。

在接下來的部分中,我們將介紹浮點數量化是如何運作的。首先,輸入值必須經過一個稱為「scale and clip」的步驟。這個步驟首先將輸入值裁切到浮點數能夠表示的最大範圍(±Qmax),具體計算公式如下:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題


可以看到類似integer 量化,FP 量化也會加入一個full-precision 的縮放因子(scaling factor) 來縮放input 到適當的區間。而縮放因子在運算矩陣乘法的時候,和低位元的矩陣乘法分開計算,所以並不會造成很大的 overhead。融入了這個 full-precision 的縮放因子之後,不同的 quantized tensor 能夠被相應地 clip 到不同的最大最小值區間。在實際使用過程中,會根據輸入 tensor 的值域來決定所需的量化區間,然後利用公式 (4) 推導出相對應的 bias。注意式 (4) 裡的 bias 可以被用來當作實數值的縮放因子,請參閱公式 (2)(3)。

浮點數量化的下一個步驟是將決定好的量化區間內的值分配到相應的量化區間中,這個過程被稱為比較和量化:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

上圖直觀說明了量化的過程,目前的輸入值,在用公式5 比較過後,量化到不同的量化區間。

在得到量化過的activation 和weight 後,這裡的scaling factor 提到前面先計算,而達到如下的efficient matrix multiplication,完成矩陣乘法的加速:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

接著本文指出FP 量化的準確度,和exponent bits 的設定以及量化的區間息息相關。

在先前的論文中,已經驗證了不同的FP格式(即浮點數的指數位/尾數位設定)之間存在巨大的量化誤差差異。只有當選擇合適的FP格式時,FP量化能夠比INT量化更好地表示長尾分佈

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

這篇文章提出了一個解決方案,即採用基於搜尋的浮點量化演算法,以綜合搜尋的方式確定最適合的浮點數的指數位和尾數位設定以及相應的量化區間

除此之外,在各種不同類別的Transformer模型(Bert, LLaMA, ViT)中,還存在一個現象嚴重影響量化的難度:即模型的激活中不同通道之間的數量級差異很大,而同一通道之間的數量級非常一致。先前的研究LLM.int8和SmoothQuant也發現了類似的現象,但本文指出這個現像不僅存在於LLM中,其他Transformer模型(如下所示,LLaMA、BERT和DeIT-S)的活化分佈也發現了類似的現象:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

從圖中可以看到,那些異常大的channel 都比剩餘的channel 大很多,所以在量化activation tensor 的過程中,量化的精度很大程度會被這些異常值決定,從而抑制其他channel 值的量化區間,最終降低整體影響量化精度。這會導致量化的最終結果崩壞,尤其當比特數降到一定程度的時候。值得注意的是,只有 tensor-wise 和 token-wise 量化可以在 efficient matrix multipilication 的時候將 scaling factor 提取出來,而 channel-wise 量化是不支持 efficient matrix multipilication 的,見下圖。

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

為了同時解決問題並保持高效率的矩陣乘法,本文使用少量的校正資料集來預先計算激活每個通道的最大值,並計算縮放因子。然後將縮放因子拆分為一個針對每個張量的實數乘以每個通道的2的冪。這個2的冪可以用FP中的指數偏差來表示。整個過程可以透過以下公式表示:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

進一步地,在calibration 完成之後,這個per-channel exponent bias 就不再變化,因此可以和weight quantization 一起進行預計算(pre-compute),將這個per-channel exponent bias 整合進量化後的weights 中,提高量化精度。完整的過程如以下公式:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

在預偏移之後,可以觀察到原本激活函數中的每個通道的全精度偏移的位置變成了一個基於張量的實數縮放因子,同時將被分解的整數偏移移到了權重中原本整數偏移的位置,具體見公式4

從而這個方法(pre-shifted exponent bias) 能在維持efficient matrix multiplication 的原則下,更好得提高量化精度,方法的直觀展示如下圖所示:

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

#最後本文展示Floating Point Quantization (FPQ) 方法,在LLaMA, BERT 以及ViTs 模型上,4-bit 量化皆取得了遠超SOTA 的結果。特別是,這篇文章展示了4-bit 量化的LLaMA-13B 模型,在零樣本推理任務上達到平均63.1 的分數,只比完整精度模型低了5.8 分,且比之前的SOTA 方法平滑量高出了12.7,這是目前少數已知可行的4-bit 量化方案了。

首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題

#

以上是首個支援4-bit浮點量化的LLM來了,解決LLaMA、BERT等的部署難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。