訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

王林

May 21, 2023 am 08:22 AM

chatgpt模型

今年是AI技術爆發發展的一年，以ChatGPT為代表的大語言模型（LLM）大火。

語言模型除了在自然語言領域顯示出巨大的潛力之外，也開始逐漸輻射到其他模態，例如文生圖模型Stable Diffusion的背後也需要語言模型。

從頭開始訓練一個視覺-語言模型（VL-LLM）往往需要消耗大量的資源，所以現有的解決方案都是把語言模型和視覺提示生成模型（Visual Prompt Generator, VPG）連接起來，但即便如此，繼續調整VPG仍需要數千個GPU小時和數百萬的訓練資料。

最近，新加坡國立大學和清華大學的研究人員提出了一個解決方案VPGTrans，將現有的VPG遷移到現有的VL-LLM模型中，就能以低成本的方式獲得目標VL-LLM模型。

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

論文連結：https://arxiv.org/abs/2305.01278

#程式碼連結：https://github.com/VPGTrans/VPGTrans

多模態對話模型Demo ：https://vpgtrans.github.io/

作者：張傲，費豪，姚遠，吉煒，黎力，劉知遠，Chua Tat- Seng

單位：新加坡國立大學，清華大學

##文章的主要創新點包括：

1. 極低訓練成本：

#透過我們提出的VPGTrans方法，可以快速（少於10%訓練時間）將現有的多模態對話模型的視覺模組遷移到新的語言模型，且達到類似或更優效果。

例如，相較於從頭訓練視覺模組，我們可以將BLIP-2 FlanT5-XXL的訓練開銷從19000 人民幣縮減到不到1000元：

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

#圖1：基於我們的VPGTrans方法的BLIP-2訓練開銷縮減比較

2. 多模態大模型客製化：

#透過我們的VPGTrans框架可以根據需求為各種新的大語言模型靈活添加視覺模組。例如我們在LLaMA-7B和Vicuna-7B基礎上製作了VL-LLaMA和VL-Vicuna。

3. 開源多模態對話模型：

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

我們開源了VL-Vicuna，類別GPT-4多模態對話模型，可實現高品質的多模態對話：

##圖2：VL-Vicuna的互動實例

#一、動機介紹##1.1 背景

#########LLM在多模態理解領域掀起了一股從傳統預訓練視覺語言模型（VLM）到基於大語言模型的視覺語言模型（VL-LLM）的變革。 ######

透過為LLM存取視覺模組，VL-LLM可以繼承已有LLM的知識，零樣本泛化能力，推理能力和規劃能力等。相關模型有BLIP-2[1]，Flamingo[2]，PALM-E等。

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

#圖3：常用的VL-LLM架構

現有的常用的VL-LLM基本上採取圖3所示的架構：在一個基座LLM基礎上訓練一個視覺soft prompt生成模組（Visual Prompt Generator, VPG），以及一個進行維度變換的線性層（Projector）。

在參數規模上，LLM一般占主要部分（例如11B），VPG佔次要部分（例如1.2B），Projector最小（4M）。

在訓練過程中，LLM參數一般不會被更新，或是只更新非常少量的參數。可訓練參數主要來自於VPG和projector。

1.2 動機

實際上，即使基座LLM的參數凍結不訓，但由於LLM的大參數量，訓練一個VL -LLM的關鍵開銷依然在於載入基座LLM。

因此訓練一個VL-LLM依然無法避免極大的運算代價。例如，要得到BLIP-2（基座LLM為FlanT5-XXL）需要付出超過600小時的A100訓練時長。如果租用亞馬遜的A100-40G機器，大概需要將近2萬元的費用。

既然從零訓練一個VPG代價如此昂貴，那麼我們開始思考能否把一個已有的VPG遷移到新的LLM上來節省開銷。

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

圖4：VPG遷移: 跨LLM大小遷移與跨LLM類型遷移

如圖4所示，我們主要探索了兩種類型的VPG的遷移:

#（1）跨LLM大小遷移（TaS）：例如從OPT-2.7B到OPT-6.7B。

（2）跨LLM類型遷移（TaT）：例如從OPT到FlanT5。

其中TaS的意義在於：在LLM相關科研中，我們通常需要在小LLM上調參，再擴展到大LLM。有了TaS，我們可以在調參之後，把小LLM上已經訓練好的VPG直接遷移到大LLM上。

TaT的意義在於：不同功能種類的LLM層出不窮，例如今天有了LLaMA，明天又有了Alpaca和Vicuna。 TaT可以讓我們利用現有的VPG快速為新語言模型添加視覺感知能力。

1.3 貢獻

（1）提出高效率的方法：

我們先透過一系列的探究實驗，探討了影響VPG遷移效率的關鍵因素。根據探索實驗發現，我們提出了一個兩階段的高效率遷移框架VPGTrans#。此框架可以大幅縮減訓練VL-LLM所需的計算開銷和所需的訓練資料。

例如，相較於從頭訓練，我們透過BLIP-2 OPT-2.7B到6.7B的VPG遷移，可以只用大約10%的資料和計算時間就達成各個資料集相似或更好的效果（圖1）。

訓練花銷從17901人民幣到1673元

。

######（2）得到有趣的發現：###############我們同時提供了TaS和TaT場景下一些有趣的發現，並嘗試給予解釋:######

a) TaS場景下，使用VPGTrans從小到大遷移不會影響最終模型效果。

b) TaS場景下，在越小的語言模型上訓練的VPG，遷移到大模型時效率越高，最終效果越好。

c) TaT場景下，越小的模型之間遷移的gap越大。在我們驗證實驗中，OPT350M和FlanT5-base使用VPGTrans互相遷移幾乎和從頭訓練一樣慢。

（3）開源：

#我們使用VPGTrans得到了兩個新的VL-LLMs：VL-LLaMA和VL-Vicuna，並開源在了社群上。其中VL-Vicuna實現了類GPT4的高品質的多模態對話。

二、高效率的VPG遷移方案：VPGTrans

首先我們進行一系列的探索驗證實驗，分析如何最大化VPG的遷移效率。接著我們基於這些重要觀察提出一個解決方案。

2.1 探究實驗

我們選取BLIP-2架構為我們的基礎模型，預訓練語料採用COCO和SBU，總共1.4M圖文對。

下游任務採用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot設定進行評測(對caption任務並非嚴格zero-shot)。以下是我們的關鍵發現:

（1）直接繼承一個訓練好的VPG可以加速收斂，但效果有限：

我們發現，直接遷移一個LLM上訓練好的VPG到大LLM可以加速模型收斂，但加速效果有限，且收斂後模型效果相比於從頭訓練VPG會掉點（圖5的VQAv2、GQA藍線最高點都低於橘線）。

我們猜測，這個掉點是由於隨機初始化的projector會在訓練起始階段損傷VPG中已有的視覺感知能力。

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

下圖顯示直接繼承已實現的VPG所得到的結果 (藍色曲線)。重新訓練VPG (橘線)：重新從頭訓練VPG。 The only training conducted is on the linear projector, with no training on VPG.。

（2）先warm-up訓練projector可以防止掉點，且進一步加速收斂：

於是，我們固定住VPG和LLM，先warm-up訓練projector 3個epoch，再解凍VPG進行下一步訓練。

我們發現，這樣不只可以避免掉點情況，還能夠進一步加速VPG收斂（圖6）。

但值得強調的是，由於訓練的主要開銷在LLM（參數巨多），僅僅訓練projector的開銷不會比同時訓練VPG和projector的開銷小太多。

所以，我們開始探究加速projector warm-up的關鍵技術。

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

#圖6：先warm-up訓練projector可以防止掉點加速收斂

（3）詞向量轉換器初始化可以加速projector warm-up：

首先，VPG是透過把映像轉換成LLM可以理解的soft prompt來產生效果的。而soft prompt的使用方式和詞向量其實是非常相似的，都是直接輸入語言模型來提示模型產生對應內容。

所以，我們使用字向量來作為soft prompt的一個代理，訓練了一個

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

到

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

的詞向量轉換器（一個線性層）。

然後，我們將詞向量轉換器和

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

上的projector融合作為projector的初始化。

透過這個初始化，我們可以將projector的warm-up訓練由3個epoch減為2個epoch。

（4）projector可以在超大學習率下快速收斂：

我們進一步實驗發現，projector由於其參數量較少，可以使用5倍的正常學習率進行訓練而不崩潰。

透過5倍學習率的訓練，projector warm-up可以進一步縮短到１個epoch。

（5）一個附加發現：

#雖然projector warm-up很重要，但只訓練projector是不夠的。尤其在caption任務上面，僅訓練projector的效果比同時訓練VPG的效果差一截（圖5綠線在COCO Caption和NoCaps都遠低於藍線）。

這也意味著，僅僅訓練projector會導致欠擬合，也就是無法充分對齊到訓練資料。

2.2 我們所提出的方法

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

圖7：VPGTrans框架: (1) 一階段:projector的warm-up (2) 二階段: 整體微調

如圖7所示，我們的方法共分為兩個階段：

（1）第一階段：我們先使用詞向量轉換器和原有projector進行融合作為新projector的初始化，然後用5倍學習率訓練新projector一個epoch。

（2）第二階段：直接正常訓練VPG和projector。

三、實驗結果

3.1 加速比

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

表1：我們的VPGTrans的比較於從頭訓練在各個資料集的加速比

如表1所示，我們測試了不同遷移類型下，VPGTrans在不同資料集上的加速比。

VPGTrans在某指定資料集A上的加速比是從頭訓練達到A上最佳效果a的輪數除以VPGTrans在A上效果超過a的最小訓練輪數得到。

例如，從頭在OPT-2.7B上訓練VPG，在COCO caption達到最佳效果需要10個epoch，但從OPT-125M遷移VPG到OPT-2.7B，僅需1個epoch就能達到該最佳效果。則加速比為10/1=10倍。

我們可以看到，無論是在TaS還是在TaT場景下，我們的VPGTrans都可以實現穩定的加速。

3.2 有趣的發現

我們選取了一個比較有趣的發現進行了說明，其他更多更有意思的發現請參考我們的論文。

TaS場景下，在越小的語言模型上訓練的VPG，遷移起來效率越高，最後模型效果越好。參考表1，我們可以發現OPT-1.3B到OPT-2.7B的加速比要遠小於OPT-125M、OPT-350M到OPT-2.7b的加速比。

我們嘗試提供了一個解釋：一般越大的語言模型，由於其文字空間的維度更高，會更容易損害VPG（VPG一般都是類似CLIP的預訓練模型）本身的視覺感知能力。我們透過類似linear probing的方式進行了驗證：

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

#圖8：僅訓練linear projector層的跨LLM大小遷移(模擬linear probing)

如圖8所示，我們進行了OPT-125M，350M，1.3B，2.7B之間的跨LLM大小的遷移。

在實驗中，為了公平對比不同模型大小下訓練過的VPG的視覺感知能力，我們固定住VPG的參數僅僅訓練linear projector層。我們選取了COCO Caption上的SPICE指標作為視覺感知能力的測量。

不難發現，對於每一個給定的訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型，幾乎都符合越小，最終SPICE越高的一個現象。

3.3 大規模實驗

前文實驗主要是在小規模場景下驗證猜想。為了證明我們的方法的有效性，我們模擬BLIP-2的預訓練過程進行了大規模實驗：

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

表2：真實場景下的大規模實驗結果

如表2所示，我們的VPGTrans在大規模場景下依然有效。透過OPT-2.7B到OPT-6.7B的遷移，我們只用10.8%的資料和不到10%的訓練時長達到了相似或更優的效果。

尤其是，我們的方法在BLIP-2以FlanT5-XXL為基座的VL-LLM實現了4.7%的訓練成本控制。

四、自訂您的VL-LLMs

我們的VPGTrans可以快速為任意新的LLMs添加視覺感知模組，從而得到一個全新的高品質VL- LLM。在本工作，我們額外訓練了一個VL-LLaMA和一個VL-Vicuna。其中VL-LLaMA的效果如下:

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

表3：VL-LLaMA的效果展示

同时，我们的VL-Vicuna可以进行类GPT-4的多模态对话。我们和MiniGPT-4进行了简单的比较:

訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型

五、总结

在这项工作中，我们对VPG在LLM之间的可迁移性问题进行了全面调查。我们首先探讨了最大化迁移效率的关键因素。

基于关键观察，我们提出了一种新颖的两阶段迁移框架，即VPGTrans。它可以在显著降低训练成本的同时，实现相当或更好的性能。

通过VPGTrans，我们实现了从BLIP-2 OPT 2.7B到BLIP-2 OPT 6.7B的VPG迁移。相较于从零开始连接VPG到OPT 6.7B，VPGTrans仅需10.7%训练数据和不到10%的训练时长。

此外，我们展示并讨论了一系列有趣发现及其背后的可能原因。最后，我们通过训练VL-LLaMA和LL-Vicuna，展示了我们的VPGTrans在定制新的VL-LLM方面的实际价值。

以上是訓練成本不到1000元，直降90%！ NUS、清華發表VPGTrans：輕鬆客製化類GPT-4多模態大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

从VAE到扩散模型：一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后，OpenAI在今年春天带了续作DALL·E 2，以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来，随着生成对抗网络（GAN）、变分自编码器（VAE）、扩散模型（Diffusion models）的出现，深度学习已向世人展现其强大的图像生成能力；加上GPT-3、BERT等NLP模型的成功，人类正逐步打破文本和图像的信息界限。在DALL·E 2中，只需输入简单的文本（prompt），它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型？中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1]，HuBERT [2] 和 WavLM [3] 等语音预训练模型，通过在多达上万小时的无标注语音数据（如 Libri-light ）上的自监督学习，显著提升了自动语音识别（Automatic Speech Recognition, ASR），语音合成（Text-to-speech, TTS）和语音转换（Voice Conversation，VC）等语音下游任务的性能。然而这些模型都没有公开的中文版本，不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦：如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求，针对大模型昂贵的环境和训练成本，陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势；而后者可以在保证下游任务准确度的同时实现更快的处理速度，具有更小的模型结构。陈丹琦普

解锁CNN和Transformer正确结合方法，字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计，大多数现有的视觉 Transformer（ViT）在现实的工业部署场景中不能像卷积神经网络（CNN）那样高效地执行。这就带来了一个问题：视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大？近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题，但这些工作的整体性能远不能令人满意。基于此，来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看，

Stable Diffusion XL 现已推出—有什么新功能，你知道吗？Apr 07, 2023 pm 11:21 PM

3月27号，Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布，Stable Diffusion XL 现已可用于公开测试。以下是一些事项：“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告，名称将会更改。与先前版本相比，图像质量有所提高与先前版本相比，图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

什么是Transformer机器学习模型？Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟近年来， Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来，Transformer 架构不断发展并扩展到多种不同的变体，从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍！十二家机构联合发表88页长文：「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业，如果没有高性能计算设备，别说开发基础模型，就连微调模型都做不到。但如果只靠拼硬件，单靠当前计算性能的发展速度，迟早有一天无法满足日益膨胀的需求，所以还需要配套的软件来协调统筹计算能力，这时候就需要用到「智能计算」技术。最近，来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文，首次对智能计算领域进行了全面的调研，涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接：https://spj.scien

AI模型告诉你，为啥巴西最可能在今年夺冠！曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红，一定非「章鱼保罗」莫属！这只位于德国海洋生物中心的神奇章鱼，不仅成功预测了德国队全部七场比赛的结果，还顺利地选出了最终的总冠军西班牙队。不幸的是，保罗已经永远地离开了我们，但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所（The Alan Turing Institute），随着2022年卡塔尔世界杯的持续进行，三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles