2020 年12 月發布的CPM-1 是國內首個中文大模型;2022 年9 月發布的CPM-Ant 僅微調0.06% 參數就能超越全參數微調效果;2023 年5 月發布的WebCPM 是中文首個基於搜尋的問答開源模型。 CPM-Bee 百億大模型是團隊最新發表的基座模型,中文能力登頂權威榜單 ZeroCLUE,英文能力平手 LLaMA。
屢屢作出破壁性成就,CPM 系列大模型一直在引領國產大模型攀登高峰,最近發布的 VisCPM 是又一次證明! VisCPM 是由面壁智慧、清華大學NLP 實驗室和知乎聯合開源在OpenBMB 的多模態大模型系列,其中VisCPM-Chat 模型支援中英雙語的多模態對話能力,VisCPM-Paint 模型支持文到圖生成能力,評測顯示VisCPM 在中文多模態開源模型中達到最佳水準。
VisCPM 基於百億參數基座模型CPM-Bee 訓練,融合視覺編碼器(Q-Former 和視覺解碼器(Diffusion-UNet)以支援視覺訊號的輸入與輸出。得益於CPM-Bee 底座優秀的雙語能力,VisCPM 可以僅透過英文多模態資料預訓練,泛化實現優秀的中文多模態能力。
VisCPM簡易架構圖
我們來詳細看看VisCPM-Chat 和VisCPM-Paint 到底牛在哪裡。
##圖片
VisCPM 連結:https://github.com/OpenBMB/VisCPM
VisCPM-Chat 支援以影像為導向多模態對話。此模型使用Q-Former 作為視覺編碼器,使用CPM-Bee(10B)作為語言互動基底模型,並透過語言建模訓練目標融合視覺和語言模型。模型訓練包括預訓練和指令精調兩階段。
#團隊使用約 100M 高品質英文圖文對資料 對VisCPM-Chat 進行了預訓練,資料包括CC3M、CC12M、COCO、Visual Genome、Laion 等。在預訓練階段,語言模型參數保持固定,僅更新Q-Former 部分參數,以支援大規模視覺-語言表示的高效對齊。
之後團隊對VisCPM-Chat 進行了指令精調,採用LLaVA-150K 英文指令精調資料
以下是 VisCPM-Chat 的多模態對話能力展示,不僅能辨識特定地區的地圖,還能讀懂塗鴉畫和電影海報,甚至認識星巴克的 logo。而且,中英文雙語都很溜溜!
#再來看 VisCPM-Paint ,它支援中英雙語的文到圖生成。 該模型使用 CPM-Bee(10B)作為文字編碼器,使用 UNet 作為圖像解碼器,並透過擴散模型訓練目標融合語言和視覺模型。
在訓練過程中,語言模型參數始終保持固定。使用 Stable Diffusion 2.1 的 UNet 參數初始化視覺解碼器,並透過逐步解凍其中關鍵的橋接參數將其與語言模型融合:首先訓練文字表示映射到視覺模型的線性層,然後進一步解凍 UNet 的交叉注意力層。該模型在 Laion 2B 英文圖文對資料上進行了訓練。
與VisCPM-Paint 類似,得益於基座模型CPM-Bee 的雙語能力,VisCPM-Paint 可以僅透過英文圖文對訓練,泛化實現良好的中文文到圖生成能力,達到中文開源模式的最佳效果。 透過進一步加入 20M 清洗後的原生中文圖文對數據,以及 120M 翻譯到中文的圖文對數據,模型的中文文到圖生成能力獲得進一步提升。同樣,VisCPM-Paint 有 balance 和 zhplus 兩個不同的版本。他們在標準影像生成測試集 MSCOCO 上採樣了 3 萬張圖片,計算了常用評估影像生成指標 FID (Fréchet Inception Distance) 評估生成圖片的品質。
VisCPM-Paint 模型中分別輸入「海上生明月,天涯共此時,唯美風格,抽象風格」「人閒桂花落,月靜春山空」 兩個prompts,產生了以下兩張圖片:
#(生成效果穩定性仍有提升空間)
相當驚艷,可以說精準掌握了古詩詞的意境,以後讀不懂詩句就直接生成個圖片來理解!如果應用在設計上,可以節省一大筆人力。 不僅能 “作畫”,用上 VisCPM-Chat,還能 “吟詩”:用圖片反向檢索詩句。例如能用李白的詩描繪黃河的景象並作解讀,在面對中秋月夜時還能用蘇遼的《水調歌頭》借景抒情。
VisCPM 不僅產生效果好,下載版本設計考慮周到,安裝和使用也十分簡易。
VisCPM提供不同中英文能力的版本
VisCPM 提供不同中英文能力的模型版本供大家下載選擇,安裝步驟簡單,在使用中可以透過幾行程式碼實現多模態對話,還在程式碼中預設開啟了對輸入文字和輸出圖片的安全檢查。 (具體教學詳見README)未來團隊也會將VisCPM 整合到huggingface 程式碼框架中,並且會陸續完善安全模型、支援快速網頁部署、支援模型量化功能、支援模型微調等功能,坐等更新!
值得一提的是,VisCPM 系列模型非常歡迎個人使用和研究用途。如需將模型用於商業用途,也可以聯絡 cpm@modelbest.cn 洽談商業授權事宜。
傳統模型專注處理單一模態數據,現實世界中的信息往往是多模態的,多模態大模型提升了人工智慧系統的感知交互能力,為AI解決現實世界中複雜的感知和理解任務帶來了新的機會。不得不說,清華系大模型公司面壁智慧研發能力強大,聯合發布的多模態大模型 VisCPM 實力強大、表現驚艷,期待他們後續的成果發布!
以上是清華系面壁智慧開源中文多模態大模型VisCPM :支援對話文圖雙向生成,吟詩作畫能力驚艷的詳細內容。更多資訊請關注PHP中文網其他相關文章!