吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了-人工智能-PHP中文网

首页

科技周边

人工智能

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

PHPz

Mar 01, 2024 pm 10:55 PM

工程sglang

大型语言模型 (LLM) 被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此，目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。

研究人员最近提出了一种新的结构化生成语言（Structured Generation Language），称为SGLang，旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计，SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

总的来说，SGLang 的贡献主要包括：

在后端，研究团队提出了 RadixAttention，这是一种跨多个 LLM 生成调用的 KV 缓存（KV cache）复用技术，自动且高效。
在前端开发中，团队研究出一种灵活的域特定语言，可嵌入Python，用于控制生成过程。这种语言可以在解释器模式或编译器模式下执行。

后端前端组件协同工作，可提高复杂 LLM 程序的执行和编程效率。

该研究使用 SGLang 实现了常见的 LLM 工作负载，包括智能体、推理、提取、对话和小样本学习任务，并在 NVIDIA A10G GPU 上采用 Llama-7B 和 Mixtral-8x7B 模型。如下图 1 、图 2 表明，与现有系统（即 Guidance 和 vLLM）相比，SGLang 的吞吐量提高了 5 倍。

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

^{图 1：不同系统在 LLM 任务上的吞吐量（A10G、FP16 上的 Llama-7B、张量并行度 = 1）}

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

^{图 2：不同系统在 LLM 任务上的吞吐量（A10G、FP16 上的 Mixtral-8x7B，张量并行度 = 8）}

后端：使用 RadixAttention 自动 KV 缓存复用

在 SGLang 运行时的开发过程中，该研究发现了复杂 LLM 程序的优化关键 ——KV 缓存复用，当前系统对此处理不佳。KV 缓存复用意味着具有相同前缀的不同 prompt 可以共享中间 KV 缓存，避免冗余的内存和计算。在涉及多个 LLM 调用的复杂程序中，可能存在各种 KV 缓存复用模式。下图 3 说明了 LLM 工作负载中常见的四种此类模式。虽然某些系统能够在某些场景下处理 KV 缓存复用，但通常需要手动配置和临时调整。此外，由于可能的复用模式的多样性，即使通过手动配置，现有系统也无法自动适应所有场景。

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

^{图 3：KV 缓存共享示例。蓝色框是可共享的 prompt 部分，绿色框是不可共享的部分，黄色框是不可共享的模型输出。可共享的部分包括小样本学习示例、自洽（self-consistency）问题、多轮对话中的对话历史以及思维树（tree-of-thought）中的搜索历史。}

为了系统地利用这些复用机会，该研究提出了一种在运行时自动 KV 缓存复用的新方法 —— RadixAttention。该方法不是在完成生成请求后丢弃 KV 缓存，而是在基数树（radix tree）中保留 prompt 和生成结果的 KV 缓存。这种数据结构可以实现高效的前缀搜索、插入和驱逐。该研究实现了最近最少使用（LRU）驱逐策略，并辅以缓存感知调度策略，以提高缓存命中率。

基数树可作为 trie（前缀树）节省空间的替代方案。与典型的树不同，基数树的边缘不仅可以用单个元素来标记，还可以用不同长度的元素序列来标记，这提高了基数树的效率。

该研究利用基数树来管理映射，这种映射是在充当键的 token 序列和充当值的相应 KV 缓存张量之间进行的。这些 KV 缓存张量以分页布局存储在 GPU 上，其中每个页的大小相当于一个 token。

考虑到 GPU 内存容量有限，无法重新训练无限的 KV 缓存张量，这就需要驱逐策略。该研究采用 LRU 驱逐策略，递归地驱逐叶节点。此外，RadixAttention 与连续批处理和分页注意力等现有技术兼容。对于多模态模型，RadixAttention 可以轻松扩展以处理图像 token。

下图说明了在处理多个传入请求时如何维护基数树。前端总是向运行时发送完整的 prompt，运行时会自动进行前缀匹配、复用和缓存。树形结构存储在 CPU 上，维护开销较小。

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

^{图 4. 采用 LRU 驱逐策略的 RadixAttention 操作示例，分九个步骤进行说明。}

图 4 演示了基数树响应各种请求的动态演变。这些请求包括两个聊天会话、一批小样本学习查询和自洽性抽样。每个树边缘都带有一个标签，表示子字符串或 token 序列。节点采用颜色编码以反映不同的状态：绿色表示新添加的节点，蓝色表示在该时间点访问的缓存节点，红色表示已被驱逐的节点。

前端：使用 SGLang 轻松进行 LLM 编程

在前端，该研究提出了 SGLang，一种嵌入在 Python 中的特定于领域的语言，允许表达高级 prompt 技术、控制流、多模态、解码约束和外部交互。SGLang 函数可以通过各种后端运行，例如 OpenAI、Anthropic、Gemini 和本地模型。

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

^{图 5. 用 SGLang 实现多维文章评分。}

图 5 显示了一个具体示例。它利用分支 - 解决 - 合并 prompt 技术实现多维文章评分。该函数使用 LLM 从多个维度评估文章的质量，合并判断，生成摘要，并分配最终等级。突出显示的区域说明了 SGLang API 的使用。(1) fork 创建 prompt 的多个并行副本。(2) gen 调用 LLM 生成并将结果存储在变量中。该调用是非阻塞的，因此它允许多个生成调用在后台同时运行。(3) [variable_name] 检索生成的结果。(4) 选择对生成施加约束。(5) run 使用其参数执行 SGLang 函数。

给定这样一个 SGLang 程序，我们可以通过解释器执行它，也可以将其跟踪为数据流图并使用图执行器运行它。后一种情况为一些潜在的编译器优化开辟了空间，例如代码移动、指令选择和自动调整。

SGLang 的语法很大程度上受到 Guidance 的启发，并引入了新的原语，还处理程序内并行性和批处理。所有这些新功能都有助于 SGLang 的出色性能。

基准测试

研究团队在常见的 LLM 工作负载上测试了其系统，并报告了所实现的吞吐量。

具体来说，该研究在 1 个 NVIDIA A10G GPU (24GB) 上测试了 Llama-7B，在 8 个具有张量并行性的 NVIDIA A10G GPU 上使用 FP16 精度测试了 Mixtral-8x7B，并使用 vllm v0.2.5、指导 v0.1.8 和 Hugging Face TGI v1.3.0 作为基准系统。

如图 1 和图 2 所示，SGLang 在所有基准测试中均优于基准系统，吞吐量提高了 5 倍。它在延迟方面也表现出色，特别是对于第一个 token 延迟，其中前缀缓存命中可以带来显著的好处。这些改进归功于 RadixAttention 的自动 KV 缓存复用、解释器实现的程序内并行性以及前端和后端系统的协同设计。此外，消融研究表明，即使没有缓存命中，也没有明显的开销，这会导致在运行时始终启用 RadixAttention。

^{参考链接：https://lmsys.org/blog/2024-01-17-sglang/}

以上是吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

最新的最佳及时工程技术的年度汇编Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人，我广泛探讨了AI的最新进展，包括体现AI，AI推理，AI中的高科技突破，及时的工程，AI培训，AI，AI RE RE等主题

欧洲的AI大陆行动计划：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

欧洲雄心勃勃的AI大陆行动计划旨在将欧盟确立为人工智能的全球领导者。一个关键要素是建立了AI Gigafactories网络，每个网络都有大约100,000个高级AI芯片 - 2倍的自动化合物的四倍

微软对AI代理申请的统一方法：企业的明显胜利微软最近公告的新AI代理能力清晰而统一的演讲给人留下了深刻的印象。与许多技术公告陷入困境不同

向员工出售AI策略：Shopify首席执行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。这不是短暂的趋势。这是整合到P中的新操作范式

IBM启动具有完整AI集成的Z17大型机Apr 10, 2025 am 11:18 AM

IBM的Z17大型机：集成AI用于增强业务运营上个月，在IBM的纽约总部，我收到了Z17功能的预览。以Z16的成功为基础（于2022年推出并证明持续的收入增长

5 Chatgpt提示取决于别人并完全相信自己Apr 10, 2025 am 11:17 AM

解锁不可动摇的信心，消除了对外部验证的需求！这五个CHATGPT提示将指导您完全自力更生和自我感知的变革转变。只需复制，粘贴和自定义包围

AI与您的思想危险相似Apr 10, 2025 am 11:16 AM

人工智能安全与研究公司 Anthropic 最近的一项[研究]开始揭示这些复杂过程的真相，展现出一种令人不安地与我们自身认知领域相似的复杂性。自然智能和人工智能可能比我们想象的更相似。窥探内部：Anthropic 可解释性研究 Anthropic 进行的研究的新发现代表了机制可解释性领域的重大进展，该领域旨在反向工程 AI 的内部计算——不仅仅观察 AI 做了什么，而是理解它在人工神经元层面如何做到这一点。想象一下，试图通过绘制当有人看到特定物体或思考特定想法时哪些神经元会放电来理解大脑。A