搜索
首页科技周边人工智能单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Apr 29, 2024 pm 04:55 PM
数据模型开源数据访问排列

FP8和更低的浮点数量化精度,不再是H100的“专利”了!

老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶尔超过INT4,而且拥有比后者更高的精度

在此基础之上,还有端到端的大模型支持,目前已经开源并集成到了DeepSpeed等深度学习推理框架中。

这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama,吞吐量比双卡还要高2.65倍。

一名机器学习研究人员看了后表示,微软的这项研究简直可以用crazy来形容。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

表情包也第一时间上线,be like:

英伟达:只有H100支持FP8。

微软:Fine,我自己搞定。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

那么,这个框架到底能实现什么样的效果,背后又采用了什么样的技术呢?

用FP6跑Llama,单卡比双卡还快

在A100上使用FP6精度,带来的是内核级的性能提升

研究人员选取了不同大小的Llama模型和OPT模型之中的线性层,在NVIDIA A100-40GB GPU平台上,使用CUDA 11.8进行了测试。

结果相比于英伟达官方的cuBLAS(W16A16)和TensorRT-LLM(W8A16),TC-FPx(W6A16)度提升的最大值分别是2.6倍和1.9倍。

相比于4bit的BitsandBytes(W4A16)方法,TC-FPx的最大速度提升则是达到了8.9倍。

(W和A分别代表权重量化位宽和激活量化位宽)

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

△归一化数据,以cuBLAS结果为1

同时,TC-FPx内核还减少了对DRAM内存的访问,并提高了DRAM带宽利用率和Tensor Cores利用率,以及ALU和FMA单元的利用率。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

在TC-FPx基础之上设计的端到端推理框架FP6-LLM,也给大模型带来了显著的性能提高。

以Llama-70B为例,用FP6-LLM在单卡上的运行吞吐量,比FP16在双卡上还要高出2.65倍,在16以下的批大小中的延迟也低于FP16。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

而对于参数量小一些的模型OPT-30B(FP16也使用单卡),FP6-LLM同样带来了明显的吞吐量提升和延迟降低。

而且单卡FP16在这种条件下最多支持的批大小只有4,FP6-LLM却可以在批大小为16的情况下正常运行。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

那么,微软团队是怎样实现在A100上运行FP16量化的呢?

重新设计内核方案

为了实现对包括6bit在内精度的支持,TC-FPx团队设计了一个统一的内核方案,可以支持不同位宽的量化权重。

相比于传统的双内核方法,TC-FPx通过将去量化和矩阵乘法融合在单个内核中,减少了内存访问次数,提高了性能。

实现低精度量化的核心奥义则是通过去量化方式,将FP6精度的数据“伪装”成FP16,然后按照FP16的格式交给GPU进行运算。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

同时团队还利用了位级预打包技术,解决GPU内存系统对非2的幂次位宽(如6-bit)不友好的问题。

具体来说,位级预打包是在模型推理之前对权重数据进行重新组织,包括将6-bit量化的权重重新排列,以便它们能够以GPU内存系统友好的方式进行访问。

此外,由于GPU内存系统通常以32位或64位的块进行数据访问,位级预打包技术将还会6-bit权重打包,使得它们能够以这些对齐的块的形式存储和访问。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

预打包完成后,研究团队使用SIMT核心的并行处理能力,对寄存器中的FP6权重执行并行去量化,生成FP16格式的权重。

去量化后的FP16权重在寄存器中被重构,然后送入Tensor Core,使用重构后的FP16权重执行矩阵乘法运算,完成线性层的计算。

在此过程中,团队利用了SMIT核心的位级并行性,提高了整个去量化过程的效率。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

而为了权重重构任务能够并行运行,团队还使用了一种并行权重拼接技术。

具体来说,每个权重被分割成几个部分,每个部分的位宽是2的幂次(如把6分割成2 4或4 2)

在去量化之前,权重首先从共享内存加载到寄存器中。由于每个权重被分割成多个部分,需要在运行时在寄存器级别重构完整的权重。

为了减少运行时的开销,TC-FPx提出了一种并行提取和拼接权重的方法。这种方法使用两组寄存器来存储32个FP6权重的片段,并行地重构这些权重。

同时,为了并行提取和拼接权重,需要确保初始数据布局满足特定的顺序要求,因此TC-FPx通过在运行前对权重片段进行重排。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

此外,TC-FPx还设计了一个软件流水线,将去量化步骤与Tensor Core的矩阵乘法操作融合在一起,通过指令级并行性提高了整体的执行效率。

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

论文地址:https://arxiv.org/abs/2401.14112

以上是单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具