Llama 3低比特量化性能下降显著！全面评估结果来了

首頁

科技週邊

人工智慧

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 28, 2024 am 09:01 AM

git人工智慧大規模llama 3

大模型力大磚飛，讓LLaMA3演繹出了新高度：

經過超大規模預訓練的15T Token數據上，已實現了令人印象深刻的性能提升，也因遠超過Chinchilla推薦量再次引爆開源社群討論。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

同時，在實際應用層面上，另一個熱門話題也浮出水面：

資源有限場景下，LLaMA3的量化表現又會如何？

香港大學、北京航空航太大學、蘇黎世聯合邦理工學院聯合推出了一項實證研究，全面揭示了LLaMA3的低位元量化能力。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

研究人員使用現有的10種訓練後量化的LoRA微調方法，評估了LLaMA3與1-8位元和各種評估資料集上的結果。他們發現：

儘管性能令人印象深刻，LLaMA3在低位元量化下仍然遭受了不可忽視的退化，特別是在超低位寬上。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

專案已在GitHub上開源，量化模型也已登陸HuggingFace。

具體來看實證結果。

軌道1：訓練後量化

表1和表2中分別提供了LLaMA3-8B和LLaMA3-70B在8種不同的PTQ方法下的低位元效能表現，涵蓋了從1位元到8位元的廣泛位元寬度。

1.低比特權重

#其中，Round-To-Nearest (RTN) 是一種基本的捨入量化方法。

GPTQ是目前最有效率和有效的僅限權重的量化方法之一，它利用量化中的誤差補償。但在2-3位元下，當量化LLaMA3時，GPTQ會導致嚴重的準確性崩潰。

AWQ採用異常通道抑制方法來降低權重量化的難度，而QuIP透過最佳化矩陣計算來確保權重和Hessian之間的不一致性。它們都能保持LLaMA3在3位元時的能力，甚至將2比特量化推向有希望的水平。

2.超低比特權重

最近出現的二值化LLM量化方法實現了超低位元寬度LLM權重壓縮。

PB-LLM採用混合精度量化策略，保留一小部分重要權重的全精度，同時將大部分權重化為1位元。

DB-LLM透過雙重二值化權重分割實現高效的LLM壓縮，並提出偏差感知蒸餾策略以進一步增強2位元LLM性能。

BiLLM透過顯著權重的殘差逼近和非顯著權重的分組量化，進一步將LLM量化邊界推低至1.1位元。這些為超低位元寬度專門設計的LLM量化方法可以實現更高精度的量化LLaMA3-8B，在⩽2位元時遠遠超過如GPTQ、AWQ和QuIP等方法，在2位元（甚至在某些情況下3比特）下的表現。

3.低位元量化活化

也透過SmoothQuant對量化活化進行了LLaMA3評估，SmoothQuant將量化難度從活化轉移到權重，以平滑活化異常值。評估顯示，SmoothQuant可以在8比特和6比特的權重和激活下保留LLaMA3的準確性，但在4比特時面臨崩潰。

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð

軌道2：LoRA微調量化

在MMLU資料集上，對於LoRA-FT量化下的LLaMA3-8B，最顯著的觀察是，在Alpaca資料集上低秩微調不僅不能補償量化引入的錯誤，甚至使效能下降更加嚴重。

具體來說，各種LoRA-FT量化方法在4位元下獲得的量化LLaMA3效能，比沒有使用LoRA-FT的4位元對應版本要差。這與LLaMA1和LLaMA2上的類似現象形成鮮明對比，在LLAMA1和LLAMA2中，4位元低秩微調量化版本甚至能輕鬆超過MMLU上的原始FP16對應版本。

根據直觀分析，這一現象的主要原因是由於LLaMA3強大的性能得益於其大規模的預訓練，這意味著原始模型量化後的性能損失不能通過在一小部分低秩參數資料上進行微調來補償（這可以被視為原始模型的子集）。

尽管量化导致的显著下降不能通过微调来补偿，但4比特LoRA-FT量化的LLaMA3-8B在各种量化方法下显著优于LLaMA1-7B和LLaMA2-7B。例如，使用QLoRA方法，4比特LLaMA3-8B的平均准确率为57.0（FP16: 64.8），超过4比特LLaMA1-7B的38.4（FP16: 34.6）18.6，超过4比特LLaMA2-7B的43.9（FP16: 45.5）13.1。这表明在LLaMA3时代需要一种新的LoRA-FT量化范式。

在CommonSenseQA基准测试中也出现了类似的现象。与没有使用LoRA-FT的4比特对应版本相比，使用QLoRA和IR-QLoRA微调的模型性能也有所下降（例如，QLoRA平均下降2.8% vs IR-QLoRA平均下降2.4%）。这进一步展示了在LLaMA3中使用高质量数据集的优势，而且通用数据集Alpaca并没有对模型在其他任务中的性能作出贡献。

结论

这篇论文全面评估了LLaMA3在各种低比特量化技术（包括训练后量化和LoRA微调量化）中的性能。

此研究发现表明，尽管LLaMA3在量化后仍然展现出优越的性能，但与量化相关的性能下降是显著的，甚至在许多情况下可以导致更大的下降。

这一发现突显了在资源受限环境中部署LLaMA3可能面临的潜在挑战，并强调了在低比特量化背景下增长和改进的充足空间。通过解决低比特量化引起的性能下降，预期后续的量化范式将使LLMs在较低的计算成本下实现更强的能力，最终推动代表性的生成式人工智能达到新的高度。

论文链接：https://arxiv.org/abs/2404.14047。

项目链接：https://github.com/Macaronlin/LLaMA3-Quantizationhttps://huggingface.co/LLMQ。

以上是Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航Ð的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將