搜尋
首頁科技週邊人工智慧統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

大型模型正在實現語言和視覺之間的跨越,預計將無縫地理解和生成文字和圖像內容。在最近的一系列研究中,多模態特徵整合不僅是一個不斷發展的趨勢,而且已經帶來了從多模態對話到內容創建工具等關鍵進步。大型語言模型在文本理解和生成方面已經展現出無與倫比的能力。然而,同時產生具有連貫文本敘述的圖像仍然是一個有待發展的領域

近日,加州大學聖克魯茲分校的研究團隊提出了MiniGPT-5,這是一種以「生成式voken」概念為基礎的創新交錯視覺語言生成技術。

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了


  • #論文網址:https://browse.arxiv.org/pdf /2310.02239v1.pdf
  • #專案網址:https://github.com/eric-ai-lab/MiniGPT-5

#透過特殊的視覺token「生成式voken」,將穩定擴散機制與LLM結合,MiniGPT-5為熟練的多模態生成預示了一種新模式。同時,本文提出的兩階段訓練方法強調了無描述基礎階段的重要性,使模型在資料稀缺的情況下也能茁壯成長。此方法的通用階段不需要特定領域的註釋,這使得本文解決方案與現有的方法截然不同。為了確保生成的文本和圖像和諧一致,本文的雙損失策略開始發揮作用,生成式voken方法和分類方法進一步增強了這一效果

在這些技術的基礎上,這項工作標誌著一種變革性的方法。研究團隊透過使用ViT(Vision Transformer)和Qformer以及大型語言模型,將多模態輸入轉換為生成式voken,並與高解析度的Stable Diffusion2.1無縫配對,以實現上下文感知圖像生成。本文將圖像作為輔助輸入與指令調整方法相結合,並率先採用文字和圖像生成損失,從而擴大了文本和視覺之間的協同作用

MiniGPT-5 與CLIP約束等模型相匹配,巧妙地將擴散模型與MiniGPT-4 融合在一起,在不依賴特定領域註釋的情況下實現了較好的多模態結果。最重要的是,本文的策略可以利用多模態視覺語言基礎模型的進步,為增強多模態生成能力提供新藍圖。

如下圖所示,除了原有的多模態理解和文本生成能力外,MiniGPT5 還能提供合理、連貫的多模態輸出:

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

本文貢獻體現在三個面向: 

  • #建議使用多模態編碼器,它代表了一種新穎的通用技術,並已被證明比LLM 和反轉生成式vokens 更有效,並將其與Stable Diffusion 相結合,產生交錯的視覺和語言輸出(可進行多模態生成的多模態語言模型)。
  • 重點介紹了一種新的兩階段訓練策略,用於無描述多模態生成。單模態對齊階段從大量文字影像對中獲取高品質的文字對齊視覺特徵。多模態學習階段包括一項新穎的訓練任務,即 prompt 語境生成,確保視覺和文字 prompt 能夠很好地協調生成。在訓練階段加入無分類器指導,進一步提高了生成品質。
  • 與其他多模態生成模型相比, MiniGPT-5 在 CC3M 資料集上取得了最先進的效能。 MiniGPT-5 也在 VIST 和 MMDialog 等著名資料集上建立了新的基準。

現在,讓我們一起來詳細了解這項研究的內容

方法概覽

#為了讓大型語言模型具備多模態生成能力,研究者引入了一個結構化框架,將預先訓練好的多模態大型語言模型和文字到圖像生成模型整合在一起。為了解決不同模型領域之間的差異,他們引入了特殊的視覺符號「生成式 voken」(generative vokens),能夠直接在原始影像上進行訓練。此外,還推進了兩階段訓練方法,並結合無分類器引導策略,以進一步提高生成品質。

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

多模態輸入階段

多模態大模型(如MiniGPT-4)的最新進展主要集中在多模態理解方面,能夠處理作為連續輸入的影像。為了將其功能擴展到多模態生成,研究者引入了專為輸出視覺特徵而設計的生成式 vokens。此外,他們還在大語言模型(LLM)框架內採用了參數效率高的微調技術,用於多模態輸出學習

多模態輸出生成

為了確保生成式token 與生成模型精確對齊,研究人員開發了一個緊湊型映射模組,用於維度匹配,並引入了幾個監督損失,包括文本空間損失和潛在擴散模型損失。文字空間損失有助於模型準確學習 token 的位置,而潛在擴散損失則直接將 token 與適當的視覺特徵對齊。由於生成式符號的特徵直接由圖像引導,因此此方法無需完整的圖像描述,實現了無描述學習

訓練策略

#鑑於文字域和圖像域之間存在不可忽略的領域偏移,研究者發現直接在有限的文字和圖像交錯資料集上進行訓練可能會導致錯位和影像品質下降。

因此,他們採用了兩種不同的訓練策略來緩解這個問題。第一種策略包括採用無分類器引導技術,在整個擴散過程中提高生成token 的有效性;第二種策略分兩個階段展開:最初的預訓練階段側重於粗略的特徵對齊,隨後的微調階段致力於複雜的特徵學習。

實驗及結果

為了評估模型的效果,研究人員選擇了多個基準進行了一系列評估。實驗的目的是解決幾個關鍵問題:

  • MiniGPT-5 能否產生可信賴的圖像和合理的文字?
  • 在單輪和多輪交錯視覺語言生成任務中,MiniGPT-5 與其他 SOTA 模型相比表現如何?
  • 每個模組的設計對整體效能有什麼影響?

為了評估MiniGPT-5模型在不同訓練階段上的表現,我們進行了定量分析,結果如圖3所示:

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

為了展示所提模型的通用性和穩健性,我們對其進行了評估,涵蓋了視覺(圖像相關指標)和語言(文本指標)兩個領域

VIST Final-Step 評估

#第一組實驗涉及單步評估,即根據最後一步的prompt 模型產生對應的影像,結果如表1 所示。

在所有三種設定中,MiniGPT-5的效能都優於微調後的SD 2。值得注意的是,MiniGPT-5(LoRA)模型的CLIP得分在多種prompt類型中始終優於其他變體,尤其是在結合影像和文字prompt時。另一方面,FID分數凸顯了MiniGPT-5(前綴)模型的競爭力,顯示影像嵌入品質(由CLIP分數反映)與影像的多樣性和真實性(由FID分數反映)之間可能存在權衡。與直接在VIST上進行訓練而不包含單模態配準階段的模型(MiniGPT-5 w/o UAS)相比,雖然該模型保留了生成有意義圖像的能力,但圖像品質和一致性明顯下降。這項觀察結果凸顯了兩階段訓練策略的重要性

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

#VIST Multi-Step 評估

在更詳細、更全面的評估中,研究者係統性地為模型提供了先前的歷史背景,並隨後在每個步驟中對生成的圖像和敘述進行評估。

表2和表3總結了這些實驗的結果,分別概述了圖像和語言指標的表現。實驗結果表明,MiniGPT-5能夠利用長水平多模態輸入提示在所有數據中產生連貫、高品質的圖像,而不會影響原始模型的多模態理解能力。這突顯了MiniGPT-5在不同環境中的有效性

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

VIST 人類評估

#如表4 所示,MiniGPT-5 在57.18% 的情況下生成了更貼切的文本敘述,在52.06% 的情況下提供了更出色的圖像質量,在57.62% 的場景中產生了更連貫的多模態輸出。與採用文字到圖像 prompt 敘述而不包含虛擬語氣的兩階段基線相比,這些數據明顯展示了其更強的多模態生成能力。

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

MMDialog 多輪評估

根據表5的結果顯示,MiniGPT-5在產生文字回覆方面比基線模型Divter更準確。儘管生成的影像品質相似,但與基準模型相比,MiniGPT-5在MM相關性方面更出色,這表明它能夠更好地學習如何適當地定位影像生成,並產生高度一致的多模態反應

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

我們來看看MiniGPT-5 的輸出結果,看看它的效果如何。下圖7 展示了MiniGPT-5 在CC3M 驗證集上與基準模型的比較

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

下圖8展示了MiniGPT-5與VIST驗證集上基準模型的比較

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

#下圖9 為MiniGPT-5 與MMDialog 測試集上基線模型的比較。

統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了

更多研究細節,可參考原文。

以上是統一影像與文字生成的MiniGPT-5來了:Token變Voken,模型不僅能續寫,還會自動配圖了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
解读CRISP-ML(Q):机器学习生命周期流程解读CRISP-ML(Q):机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

人工智能的环境成本和承诺人工智能的环境成本和承诺Apr 08, 2023 pm 04:31 PM

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键,要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注,掩盖了人工智能可能加剧环境退化的方式,通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术,同时承认其大量消耗能源,引领人工智能潮流的科技公司需要探索人工智能对环境影响的

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用什么呈现数据条形统计图用什么呈现数据Jan 20, 2021 pm 03:31 PM

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按一定的顺序排列起来;从条形统计图中很容易看出各种数量的多少。条形统计图分为:单式条形统计图和复式条形统计图,前者只表示1个项目的数据,后者可以同时表示多个项目的数据。

自动驾驶车道线检测分类的虚拟-真实域适应方法自动驾驶车道线检测分类的虚拟-真实域适应方法Apr 08, 2023 pm 02:31 PM

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“,2022年5月,加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集,但光照真实模拟环境生成的合成数据推动的无监督域适应(UDA,Unsupervised Domain Adaptation)方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成(adversarial d

数据通信中的信道传输速率单位是bps,它表示什么数据通信中的信道传输速率单位是bps,它表示什么Jan 18, 2021 pm 02:58 PM

数据通信中的信道传输速率单位是bps,它表示“位/秒”或“比特/秒”,即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数,也称“比特率”。比特率表示单位时间内传送比特的数目,用于衡量数字信息的传送速度;根据每帧图像存储时所占的比特数和传输比特率,可以计算数字图像信息传输的速度。

数据分析方法有哪几种数据分析方法有哪几种Dec 15, 2020 am 09:48 AM

数据分析方法有4种,分别是:1、趋势分析,趋势分析一般用于核心指标的长期跟踪;2、象限分析,可依据数据的不同,将各个比较主体划分到四个象限中;3、对比分析,分为横向对比和纵向对比;4、交叉分析,主要作用就是从多个维度细分数据。

聊一聊Python 实现数据的序列化操作聊一聊Python 实现数据的序列化操作Apr 12, 2023 am 09:31 AM

​在日常开发中,对数据进行序列化和反序列化是常见的数据操作,Python提供了两个模块方便开发者实现数据的序列化操作,即 json 模块和 pickle 模块。这两个模块主要区别如下:json 是一个文本序列化格式,而 pickle 是一个二进制序列化格式;json 是我们可以直观阅读的,而 pickle 不可以;json 是可互操作的,在 Python 系统之外广泛使用,而 pickle 则是 Python 专用的;默认情况下,json 只能表示 Python 内置类型的子集,不能表示自定义的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),