搜索
首页科技周边人工智能58行代码把Llama 3扩展到100万上下文,任何微调版都适用

堂堂开源之王Llama 3,原版上下文窗口居然只有……8k,让到嘴边的一句“真香”又咽回去了。

在32k起步,100k寻常的今天,这是故意要给开源社区留做贡献的空间吗?

开源社区当然不会放过这个机会:

现在只需58行代码,任何Llama 3 70b的微调版本都能自动扩展到1048k(一百万)上下文。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

背后是一个LoRA,从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来,文件只有800mb

接下来使用Mergekit,就可以与其他同架构模型一起运行或直接合并到模型中。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

所使用的1048k上下文微调版本,刚刚在流行的大海捞针测试中达到全绿(100%准确率)的成绩。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

不得不说,开源的进步速度是指数级的。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

1048k上下文LoRA怎么炼成的

首先1048k上下文版Llama 3微调模型来自Gradient AI,一个企业AI解决方案初创公司。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

而对应的LoRA来自开发者Eric Hartford,通过比较微调模型与原版的差异,提取出参数的变化。

他先制作了524k上下文版,随后又更新了1048k版本。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

首先,Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练,得到Llama-3-70B-Instruct-Gradient-1048k。

具体方法如下:

  • 调整位置编码:用NTK-aware插值初始化RoPE theta的最佳调度,进行优化,防止扩展长度后丢失高频信息
  • 渐进式训练:使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是,团队通过自定义网络拓扑在Ring Attention之上分层并行化,更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。

最终使模型的训练速度提高了33倍。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

长文本检索性能评估中,只在最难的版本中,当“针”藏在文本中间部分时容易出错。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

有了扩展好上下文的微调模型之后,使用开源工具Mergekit比较微调模型和基础模型,提取参数的差异成为LoRA。

同样使用Mergekit,就可以把提取好的LoRA合并到其他同架构模型中了。

合并代码也由Eric Hartford开源在GitHub上,只有58行。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。

不过可以看到,中文开发者社区已经关注到了这一进展。

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

524k版本LoRA:https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k版本LoRA:https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

合并代码:https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

以上是58行代码把Llama 3扩展到100万上下文,任何微调版都适用的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
Agent SDK vs Crewai vs Langchain:哪个何时使用?Agent SDK vs Crewai vs Langchain:哪个何时使用?Apr 24, 2025 am 10:39 AM

本文比较了建立AI代理的三个流行框架:OpenAI的Agent SDK,Langchain和Crewai。 每个都为自动化任务和增强决策提供了独特的优势。 这篇文章指导您选择最佳帧

使用Pydantic构建结构化研究自动化系统使用Pydantic构建结构化研究自动化系统Apr 24, 2025 am 10:32 AM

在学术研究的动态领域,有效的信息收集,综合和演示至关重要。 文献综述的手动过程是耗时的,阻碍了更深入的分析。 多代理研究助理系统BUI

10 GPT-4O图像生成会提示今天尝试!10 GPT-4O图像生成会提示今天尝试!Apr 24, 2025 am 10:26 AM

AI世界中发生了绝对野生的事情。 Openai的本地形象生成现在很疯狂。我们正在谈论令人jaw目结舌的视觉效果,可怕的细节和抛光的输出

用帆板编码的氛围指南用帆板编码的氛围指南Apr 24, 2025 am 10:25 AM

毫不费力地将您的编码愿景带入Codeium's Windsurf,这是您的AI驱动的编码伴侣。 Windsurf简化了整个软件开发生命周期,从编码和调试到优化,将过程转换为INTU

使用RMGB v2.0探索图像背景删除使用RMGB v2.0探索图像背景删除Apr 24, 2025 am 10:20 AM

Braiai的RMGB v2.0:强大的开源背景拆卸模型 图像分割模型正在彻底改变各个领域,而背景删除是进步的关键领域。 Braiai的RMGB v2.0是最先进的开源M

评估大语模型中的毒性评估大语模型中的毒性Apr 24, 2025 am 10:14 AM

本文探讨了大语言模型(LLM)中的毒性至关重要问题以及用于评估和减轻它的方法。 LLM,为从聊天机器人到内容生成的各种应用程序提供动力,需要强大的评估指标,机智

Rag Reranker的综合指南Rag Reranker的综合指南Apr 24, 2025 am 10:10 AM

检索增强发电(RAG)系统正在改变信息访问,但其有效性取决于检索到的数据的质量。 这是重读者变得至关重要的地方 - 充当搜索结果的质量过滤器,以确保仅确保

如何使用Gemma 3&Docling构建多模式抹布?如何使用Gemma 3&Docling构建多模式抹布?Apr 24, 2025 am 10:04 AM

该教程通过在Google Colab中构建精致的多式联运检索一代(RAG)管道来指导您。 我们将使用Gemma 3(用于语言和视觉),文档(文档转换),Langchain等尖端工具

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),