搜索
首页科技周边人工智能干掉「标题党」,清华团队又一开源力作!

作为一个起名困难户,高中写作文最困扰我的就是写好文章却不知道起什么题目,开始做公众号以后,每次想标题也都要掉一大把头发......

最近,终于让我在 GitHub 发现了「取名废」之光,由清华大学与 OpenBMB 开源社区推出的大模型趣味应用:「智取标题」,输入正文内容就能一键生成劲爆标题!

开箱即用,试过后我只能说:真香!

图片

在线体验:https://live.openbmb.org/ant

GitHub:https://github.com/OpenBMB/CPM-Live

提到这个标题党神器,就不得不先好好聊一聊它的「本体」——大模型 CPM-Ant。

CPM-Ant 作为国内首个直播训练百亿大模型, 训练耗时 68 天,于 2022 年 8 月 5 日完成,并由 OpenBMB 正式发布!

  • 五大卓越特性
  • 四大创新突破
  • 训练过程 低成本且环境友好!
  • 最重要的是——完全开源!

作为首个直播训练中文大模型,CPM-Ant 在大模型训练、微调、压缩、推理、应用等环节均提供了一份可行的实践方案,希望能为不同的关注者提供不同的帮助与参考。

下面,让我们一起来看看 CPM-Ant 发布成果内容报告吧!

模型概览

CPM-Ant 是一个开源的中文预训练语言模型,拥有 10B 参数,也是 CPM-Live 直播训练过程中的第一个里程碑。

整个训练过程低成本且环境友好,不需要高昂的硬件要求和运行成本,基于 增量微调(delta tuning)方法,在 CUGE 基准测试中取得了优异的结果。

CPM-Ant 相关代码、日志文件和模型参数在一个开放的许可协议下完全开源。除了完整的模型,OpenBMB 还提供了各种压缩版本以适应不同的硬件配置。

CPM-Ant 的五大卓越特性:

(1)计算高效

通过 BMTrain[1] 工具包,能够充分利用分布式计算资源的能力来高效训练大模型。

CPM-Ant 的训练持续了 68 天,花费了 43 万人民币,是谷歌训练 T5-11B 模型约 130 万美元费用的 1/20。训练 CPM-Ant 的温室气体排放量约为 4872kg CO₂e,而训练 T5-11B 的排放量为 46.7t CO₂e[9] ,CPM-Ant 的方案约为其排放量的 1/10。

(2)性能优异

借助 OpenDelta[3] 工具,能够非常方便地通过增量微调将 CPM-Ant 适配到下游任务。

实验表明,CPM-Ant 仅仅微调了 6.3M 参数就在 3/6 个 CUGE 任务上取得了最好的结果。这一结果超越了其他全参数微调的模型,举例来说:CPM-Ant 的微调参数量仅为 CPM2(微调了 11B 参数) 的 0.06%。

(3)部署经济

借助BMCook[7] 和 BMInf[4] 工具包,能够在有限的计算资源下驱动 CPM-Ant。

基于 BMInf ,能够替代计算集群 在单块 GPU 上进行大模型推理(即便是一块 GTX 1060 这样的消费级显卡)。为了使 CPM-Ant 的部署更加经济, OpenBMB 使用 BMCook 进一步将原始的 10B 模型压缩为不同的版本。压缩后的模型(7B,3B,1B,300M)能够适应不同低资源场景下的需求。

(4)使用便捷

不管是原始 10B 模型还是相关的压缩版本,通过几行代码就能够轻松地加载与运行。

OpenBMB 也会将 CPM-Ant 加入到 ModelCenter[8] 中,对模型的进一步开发会变得更加容易。 

(5)开放民主

CPM-Ant 的训练过程完全开放。

OpenBMB 发布了所有的代码、日志文件和模型存档并提供开放获取。CPM-Ant 也采用了允许商业化的开放许可协议。

一份完整的大模型训练实践

对于有能力进行大模型训练的厂商与研究机构,CPM-Ant 训练过程提供了一份完整的中文大模型训练实战记录。

OpenBMB 发布了 CPM-Live 系列模型的 模型设计、训练方案、数据需求和实现代码。基于 CPM-Live 的模型架构,能够方便快速地设计实现大模型训练方案并整理相关的业务数据,完成模型预研和数据准备工作。

官方网站中记录了训练过程中的 全部训练动态,包括损失函数、学习率、已学习数据、吞吐量、梯度大小、花费成本曲线,以及模型内部参数均值和标准差实时展示,通过这些训练动态,使用者能够快速诊断模型训练过程是否出现问题。

图片

模型训练内部参数实时展示

此外,OpenBMB 的研发同学每天实时更新 训练记录总结,总结内容包括损失值、梯度值、总体进展,还记录了遇到的一些问题和训练过程中的 bug,方便使用者提前了解模型训练过程中的可能会遇到的各种「坑」。

在模型训练「风平浪静」的日子,研发小哥也会抛出一些名言名句、介绍一些最新论文、甚至发起猜谜活动。

图片

日志中的一次猜谜活动

除此之外,OpenBMB 还提供了 成本经济 的 训练方案,对于实际有大模型训练需求的企业,通过相关训练加速技术,训练成本已经降低到可以接受的水平。

使用 BMTrain[1] 工具包,百亿大模型 CPM-Ant 训练的算力花费仅 43 万人民币(当前花费依照公有云价格计算,实际成本会更低),是 11B 大模型 T5 外界估算成本 130 万美元的约 1/20!

一份屡创 SOTA 的高效微调方案

CPM-Ant 如何帮助我们进行下游任务适配?

对于大模型研究者,OpenBMB 提供了一份基于参数高效微调的大模型性能评测方案,方便快速进行下游任务适配并评测模型性能。 

使用参数高效微调,即增量微调(delta tuning)来评估 CPM-Ant 在六个下游任务上的性能。实验中采用了 LoRA[2] ,它在每个注意层中插入了两个可调整的低秩矩阵,并冻结了原始模型的所有参数。使用这种方法,每个任务只微调了 6.3M 的参数,仅占总参数的 0.067%。

在 OpenDelta[3] 的帮助下,OpenBMB 进行了所有的实验,而没有修改原始模型的代码。需要指出的是,在下游任务上评测 CPM-Ant 模型时,没有使用任何数据增强的方法。实验结果如下表所示:

图片

可以看到,在仅微调极少参数的情况下,OpenBMB 的模型在三个数据集上的性能已经超过了 CPM-2 和源 1.0。

有些任务(例如 LCSTS)在微调参数极少时可能会比较难以学习, CPM-Live 的训练过程将会持续进行,在各个任务上的性能也会被进一步打磨。

感兴趣的同学,可访问下方 GitHub 链接,抢先体验下 CPM-Ant 和 OpenDelta,进一步探索 CPM-Ant 在其他任务上的能力!

https://github.com/OpenBMB/CPM-Live

一系列硬件友好的推理方式

大模型性能固然惊艳,但高昂的硬件要求和运行成本一直困扰着许多使用者。对于大模型使用者,OpenBMB提供了一系列硬件友好的使用方式,能够较为方便地在不同硬件环境下运行不同的模型版本。

使用 BMInf[4] 工具包, CPM-Ant 可以在单卡 1060 这样的 低资源环境 中运行!

除此之外,OpenBMB 还将 CPM-Ant 进行了压缩。这些压缩的模型包括 CPM-Ant-7B/3B/1B/0.3B。而所有这些模型压缩尺寸都可以对应于现有的开源预训练语言模型的经典尺寸。

考虑到用户可能会在发布的检查点上进行进一步的开发,OpenBMB 主要使用 任务无关的结构化剪枝 来压缩 CPM-Ant。剪枝过程也是渐进的,即从 10B 到 7B,从 7B 到 3B,从 3B 到 1B,最后从 1B 到 0.3B。

在具体的剪枝过程中,OpenBMB 会训练一个 动态的可学习的掩码矩阵,然后用这个掩码矩阵来 裁剪相应的参数。最后,根据掩码矩阵的阈值修剪参数,该阈值是根据目标稀疏度确定的。更多压缩的细节可以参考技术博客[5] 。

下表展示了模型压缩的结果:

图片

硬核的内容讲完了,那么大模型到底怎么帮我们「取标题」呢?

一款出乎意料的大模型趣味应用

基于 CPM-Ant,所有大模型开发者与爱好者都可以开发感兴趣的文本趣味应用。

为了进一步验证模型的有效性并提供范例,OpenBMB 在 CPM-Ant 基础上微调了一个 劲爆标题生成器 以展示模型能力。

只需要把正文内容粘贴到下方文本框,一键点击生成,就可以得到大模型提供的劲爆标题!

图片

CPM-Ant 成果报告首发文章标题即由生成器生成

这款 demo将不断被打磨,并在未来添加更多的特殊效果,增强用户体验

感兴趣的用户也可以使用 CPM-Ant 构建自己的展示应用。如果有任何应用想法、需要技术支持或者在使用 demo 过程中遇到任何问题,可以随时在 CPM-Live 论坛[6] 发起讨论!

CPM-Ant 的发布是 CPM-Live 的第一个里程碑,但也仅仅是训练的第一期,未来OpenBMB还会继续进行一系列训练。

简单剧透一下,下一期的训练中将新增多语言支持、结构化输入输出等新特性,欢迎大家继续关注!

传送门|项目链接

项目 GitHub 地址:

https://github.com/OpenBMB/CPM-Live

Demo 体验地址(仅限 PC 访问):

https://live.openbmb.org/ant

以上是干掉「标题党」,清华团队又一开源力作!的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具