身為一個起名困難戶,高中寫作文最困擾我的就是寫好文章卻不知道起什麼題目,開始做公眾號以後,每次想標題也都要掉一大把頭髮.. ....
最近,終於讓我在GitHub 發現了「取名廢」之光,由清華大學與OpenBMB 開源社群推出的大模型趣味應用:「智取標題」,輸入內文內容就能一鍵產生勁爆標題!
開箱即用,試過後只能說:真香!
#線上體驗:https://live.openbmb.org/ant
GitHub:https://github.com/OpenBMB/CPM-Live
#提到這個標題黨神器,就得先好好聊一聊它的「本體」——大模型CPM-Ant。
CPM-Ant 作為國內首個直播訓練百億大模型, 訓練耗時 68 天,於 2022 年 8 月 5 日完成,並由 OpenBMB 正式發布!
- 五大卓越特性
- #四大創新突破
- 訓練過程低成本且環境友善!
- 最重要的是-完全開源!
作為首個直播訓練中文大模型,CPM-Ant 在大模型訓練、微調、壓縮、推理、應用等環節均提供了一份可行的實踐方案,希望能為不同的關注者提供不同的幫助與參考。
下面,讓我們一起來看看 CPM-Ant 發布成果內容報告吧!
模型概覽
CPM-Ant 是一個開源的中文預訓練語言模型,擁有 10B 參數,也是 CPM-Live 直播訓練過程中的第一個里程碑。
整個訓練過程低成本且環境友好,不需要高昂的硬體需求和運行成本,基於 增量微調(delta tuning)方法,在 CUGE 基準測試中取得了優異的結果。
CPM-Ant 相關程式碼、日誌檔案和模型參數在一個開放的授權協議下完全開源。除了完整的模型,OpenBMB 還提供了各種壓縮版本以適應不同的硬體配置。
CPM-Ant 的五大卓越特性:
(1)計算高效率
##透過BMTrain[1] 工具包,能夠充分利用分散式運算資源的能力來有效率地訓練大模型。
CPM-Ant 的訓練持續了 68 天,花費了 43 萬人民幣,是Google訓練 T5-11B 模型約 130 萬美元費用的 1/20。訓練 CPM-Ant 的溫室氣體排放量約為 4872kg CO₂e,而訓練 T5-11B 的排放量為 46.7t CO₂e[9] ,CPM-Ant 的方案約為其排放量的 1/10。
(2)表現優異
#借助OpenDelta[3] 工具,能夠非常方便地透過增量微調將CPM-Ant 適配到下游任務。
######實驗表明,CPM-Ant 僅微調了 6.3M 參數就在 3/6 個 CUGE 任務上取得了最好的結果。這結果超越了其他全參數微調的模型,舉例來說:CPM-Ant 的微調參數量僅為 CPM2(微調了 11B 參數) 的 0.06%。 ###############(3)部署經濟體################借助BMCook[7] 和BMInf[4] 工具包,能夠在有限的計算資源下驅動CPM-Ant。 ######基於 BMInf ,能夠取代計算群集 在單塊 GPU 上進行大模型推理(即使是一塊 GTX 1060 這樣的消費級顯示卡)。為了讓 CPM-Ant 的部署更加經濟, OpenBMB 使用 BMCook 進一步將原始的 10B 模型壓縮到不同的版本。壓縮後的模型(7B,3B,1B,300M)能夠適應不同低資源情境下的需求。
(4)使用便利
#不管是原始10B 模型還是相關的壓縮版本,經過幾行程式碼就能夠輕鬆地加載與運行。
OpenBMB 也會將 CPM-Ant 加入 ModelCenter[8] 中,模型的進一步發展會變得更加容易。
(5)開放民主
CPM-Ant 的訓練過程完全開放。
OpenBMB 發布了所有的程式碼、日誌檔案和模型存檔並提供開放取用。 CPM-Ant 也採用了允許商業化的開放授權協議。
一份完整的大模型訓練實踐
對於有能力進行大模型訓練的廠商與研究機構,CPM-Ant 訓練過程提供了一份完整的中文大模型訓練實戰紀錄。
OpenBMB 發布了 CPM-Live 系列模型的 模型設計、訓練方案、資料需求和實作程式碼。基於 CPM-Live 的模型架構,能夠方便快速地設計實現大模型訓練方案並整理相關的業務數據,完成模型預研和數據準備工作。
官方網站中記錄了訓練過程中的全部訓練動態,包括損失函數、學習率、已學習資料、吞吐量、梯度大小、花費成本曲線,以及模型內部參數平均值和標準差即時展示,透過這些訓練動態,使用者能夠快速診斷模型訓練過程是否出現問題。
模型訓練內部參數即時展示
此外,OpenBMB 的研發同學每天即時更新訓練記錄總結,總結內容包括損失值、梯度值、整體進展,也記錄了遇到的一些問題和訓練過程中的bug,方便使用者提前了解模型訓練過程中的可能會遇到的各種「坑」。
在模型訓練「風平浪靜」的日子,研發小哥也會拋出一些名言名句、介紹一些最新論文、甚至發起猜謎活動。
#日誌中的一次猜謎活動
##除此之外, OpenBMB 也提供了成本經濟的訓練方案,對於實際有大模型訓練需求的企業,透過相關訓練加速技術,訓練成本已經降低到可以接受的程度。
使用BMTrain[1] 工具包,百億大模型CPM-Ant 訓練的算力花費僅43 萬元(目前花費依照公有雲價格計算,實際成本會更低),是11B 大模型T5 外界估算成本130 萬美元的約1/20!
一份屢創 SOTA 的高效微調方案
#CPM-Ant 如何幫助我們進行下游任務適配?
對於大模型研究者,OpenBMB 提供了一個基於參數高效微調的大模型效能評測方案,方便快速進行下游任務適配並評測模型效能。 #######
使用參數高效能微調,即增量微調(delta tuning)來評估 CPM-Ant 在六個下游任務上的表現。實驗中採用了 LoRA[2] ,它在每個注意層中插入了兩個可調整的低秩矩陣,並凍結了原始模型的所有參數。使用這種方法,每個任務只微調了 6.3M 的參數,僅佔總參數的 0.067%。
在 OpenDelta[3] 的幫助下,OpenBMB 進行了所有的實驗,而沒有修改原始模型的程式碼。需要指出的是,在下游任務上評測 CPM-Ant 模型時,並沒有使用任何資料增強的方法。實驗結果如下表所示:
可以看到,在僅微調極少參數的情況下,OpenBMB 的模型在三個資料集上的性能已經超過了CPM-2 和來源1.0。
有些任務(例如LCSTS)在微調參數極少時可能會比較難以學習, CPM-Live 的訓練過程將會持續進行,在各個任務上的表現也會被進一步打磨。
有興趣的同學,可訪問下方 GitHub 鏈接,搶先體驗下 CPM-Ant 和 OpenDelta,進一步探索 CPM-Ant 在其他任務上的能力!
https://github.com/OpenBMB/CPM-Live
一系列硬體友善的推理方式
大模型效能固然驚艷,但高昂的硬體需求和運作成本一直困擾著許多使用者。對於大模型使用者,OpenBMB提供了一系列硬體友善的使用方式,能夠較為方便地在不同硬體環境下運行不同的模型版本。
使用 BMInf[4] 工具包, CPM-Ant 可以在單卡 1060 這樣的 低資源環境 中運作!
除此之外,OpenBMB 也將 CPM-Ant 進行了壓縮。這些壓縮的模型包括 CPM-Ant-7B/3B/1B/0.3B。而所有這些模型壓縮尺寸都可以對應到現有的開源預訓練語言模型的經典尺寸。
考慮到使用者可能會在發佈的檢查點上進行進一步的開發,OpenBMB 主要使用 任務無關的結構化剪枝 來壓縮 CPM-Ant。剪枝過程也是漸進的,即從 10B 到 7B,從 7B 到 3B,從 3B 到 1B,最後從 1B 到 0.3B。
在特定的剪枝過程中,OpenBMB 會訓練一個 動態的可學習的遮罩矩陣,然後用這個遮罩矩陣來 裁切對應的參數。最後,根據掩碼矩陣的閾值修剪參數,該閾值是根據目標稀疏度確定的。更多壓縮的細節可以參考技術部落格[5] 。
下表展示了模型壓縮的結果:
#硬核心的內容完成了,那麼大模型到底要怎麼幫我們「取標題」呢?
一款出乎意料的大模型趣味應用
基於CPM-Ant,所有大模型開發者與愛好者都可以開發感興趣的文本趣味應用。
為了進一步驗證模型的有效性並提供範例,OpenBMB 在 CPM-Ant 基礎上微調了一個 勁爆標題產生器 以展示模型能力。
只需要把正文內容貼到下方文字框,一鍵點擊生成,就可以得到大模型提供的勁爆標題!
CPM-Ant 成果報告首發文章標題即由生成器產生
#這款demo將不斷被打磨,並在未來添加更多的特殊效果,增強用戶體驗
感興趣的用戶也可以使用CPM-Ant 構建自己的展示應用。如果有任何應用想法、需要技術支援或在使用 demo 流程中遇到任何問題,可以隨時在 CPM-Live 論壇[6] 發起討論!
CPM-Ant 的發布是 CPM-Live 的第一個里程碑,但也只是訓練的第一期,未來OpenBMB還會繼續進行一系列訓練。
簡單劇透一下,下一期的訓練中將新增多語言支援、結構化輸入輸出等新特性,歡迎大家繼續關注!
傳送門|專案連結
專案GitHub 位址:
https://github.com/OpenBMB/CPM -Live
Demo 體驗網址(僅限PC 造訪):
https://live.openbmb.org/ant
以上是幹掉「標題黨」,清華團隊又一開源力作!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver Mac版
視覺化網頁開發工具