學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 15, 2024 pm 04:33 PM

產業

現在有一個谷歌新設計的圖像生成模型，可以用圖2的風格來畫圖1的貓貓，並給它戴上一頂帽子。這個模型透過指令微調技術，可以根據文字指令和多張參考圖像來準確產生新的圖像。效果非常好，堪比PS大神親自幫你P圖。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

使用大型語言模型（LLM）時，我們已經認識到指令微調的重要性。透過適當的指令微調，LLM能夠執行多種任務，如創作詩歌、編寫程式碼、撰寫劇本、輔助科學研究甚至進行投資管理。

現在，大模型已經進入了多模態時代，指令微調是否依然有效？例如我們能否透過多模態指令微調控制影像生成？不同於語言生成，圖像生成一開始就牽涉到多模態。我們可否有效地讓模型掌握多模態的複雜性？

為了解決這個難題，Google DeepMind和Google Research提出了一種多模態指令的方法來實現影像生成。這種方法將不同模態的訊息交織在一起，以表達影像生成的條件（如圖1左圖所示的範例）。

多模態指令可以增強語言指令，例如使用者可以透過指定參考影像的風格要求產生模型對影像進行渲染。這種直覺的互動介面能夠有效地設定影像生成任務的多模態條件。

基於這個思路，團隊打造了一個多模態指令影像生成模型：Instruct-Imagen。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

論文網址：https://arxiv.org/abs/2401.01952

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

此模型使用了一種兩階段訓練方法：首先增強模型處理多模態指令的能力，然後忠實遵循多模態的使用者意圖。

在第一階段，該團隊採用了一個預先訓練的文本到圖像模型，其任務是處理額外的多模態輸入；之後再對其進行微調，使其能準確地響應多模態指令。具體而言，他們採用的預訓練模型是一個擴散模型（diffusion model），並使用相似的(圖像，文本) 上下文對其進行了增強，這些上下文取自一個網絡規模級的(圖像，文本) 語料庫。

在第二階段，該團隊在多種圖像生成任務上對模型進行了微調，其中每個任務都搭配了對應的多模態指令—— 這些指令中囊括了各自任務的關鍵要素。經過上述步驟，所得到的模型 Instruct-Imagen 可以非常嫻熟地處理多種模態的融合輸入（例如草圖加用文字指示描述的視覺樣式），從而可以產生準確符合上下文且足夠亮眼的圖像。

如圖 1 所示，Instruct-Imagen 表現卓越，能夠理解複雜的多模態指令並產生忠實遵照人類意圖的圖像，甚至能很好地處理之前從未見過的指令組合。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

根據人類的回饋表明，在許多實例中，Instruct-Imagen 不僅能媲美針對特定任務的模型處理對應任務的表現，甚至還能超越它們。不僅如此，Instruct-Imagen 還展現了強大的泛化能力，可用於未曾見過且更複雜的影像生成任務。

用於產生的多模態指令

該團隊使用的預訓練模型是擴散模型並且使用者可以為其設定輸入條件，具體請參考原論文。

對於多模態指令，為了確保通用性和泛化能力，團隊提出了一種統一的多模態指令格式，其中語言的作用是明確陳述任務的目標，多模態條件則是作為參考資訊。

這個新提出指令格式包含兩個關鍵元件：(1) 有效負載文字指令，其作用是詳細描述任務目標並給出參考資訊標識，例如 [ref#?]。 (2) 多模態的上下文，帶有配對的 (標識文本，圖像)。然後，模型使用一個共享的指令理解模型來處理文字指令和多模態上下文 —— 這裡並不會限定上下文的具體模態。

圖 2 透過三個範例展示了這個格式可以如何表示先前的各種生成任務，這說明這種格式可以相容於先前的圖像生成任務。更重要的是，語言很靈活，因此無需針對模態和任務進行任何專門設計，就能將多模態指令擴展用於新任務。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

Instruct-Imagen

Instruct-Imagen 的基礎是多模態指令。基於此，該團隊基於一種預先訓練的文本到圖像擴散模型設計了模型架構，即級聯擴散模型（cascaded diffusion model），使其可以完全採用輸入的多模態指令條件。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

具體來說，他們使用了Imagen 的變體版本，請參閱論文《Photorealistic text-to-image diffusion models with deep language understanding》，並基於他們的內部資料來源進行了預訓練。其完整模型包含兩個子元件：(1) 文字到影像元件，其任務是僅使用文字prompt 產生128×128 解析度的影像；(2) 文字條件式超解析度模型，其可將128 分辨的影像提升至1024 解析度。

至於對多模態指令的編碼，可見圖 3（右），其中展示了 Instruct-Imagen 編碼多模態指令的資料流。

以兩階段方法訓練 Instruct-Imagen

Instruct-Imagen 的訓練流程分為兩個階段。

第一階段是檢索增強式文字到圖像訓練，即使用經過增強的檢索到的近鄰 (圖像，文字) 對繼續訓練文字到圖像的生成。

第二階段則是對第一階段的輸出模型進行微調，這會用到混合的多樣化的圖像生成任務，其中每個任務都搭配了對應的多模態指令。具體來說，該團隊使用了 5 個任務類別的 11 個圖像生成資料集，請參閱表 1。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

在這兩個訓練階段中，模型都是端對端最佳化的。

實驗

團隊對新提出的方法和模型進行了實驗評估，並深入分析了 Instruct-Imagen 的設計和失敗模式。

實驗設定

團隊在兩種設定下對模型進行了評估，即領域內任務評估和零樣本任務評估，其中後一種設定比前一種設定更具挑戰性。

主要結果

圖4 比較了Instruct-Imagen 和基準方法及先前的方法，結果顯示其在領域內評估和零樣本評估上足以媲美之前的方法。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

這表示多模態指令訓練可以增強模型在訓練資料有限的任務（例如風格化生成）上的效能，同時也能維持在資料豐富的任務（例如產生像照片的圖像）上的效果。如果沒有多模態指令訓練，多任務基準往往會得到較差的影像品質和文字對齊效果。

舉個例子，在圖 5 的上下文風格化（in-context stylization）範例中，多任務基準難以分辨風格與物體，於是在生成結果中復現了物體。出於類似的原因，其在風格遷移任務上也表現很差。這些觀察凸顯了指令微調的價值。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

不同於依賴針對特定任務的當前方法或訓練，Instruct-Imagen 透過利用組合不同任務的目標的指令並在上下文中執行推理，可以高效地管理組合式任務（無需微調，每個範例需要18.2 秒）。

如圖 6 所示，Instruct-Imagen 在指令跟隨和輸出品質方面總是優於其它模型。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

不僅如此，在多模態上下文中存在多個參考的情況下，多任務基準模型無法將文字指令與參考對應起來，導致一些多模態條件被忽略。這些結果進一步展現了新提出的模型的有效性。

模型分析和消融研究

該團隊對模型的限制和失敗模式進行了分析。

例如該團隊發現，微調後的 Instruct-Imagen 可以編輯圖像。如表2 所示，透過比較先前的SDXL-inpainting、在MagicBrush 資料集上微調過的Imagen 以及微調後的Instruct-Imagen，可以發現微調後的Instruct-Imagen 大幅優於專門為基於遮罩的影像編輯設計的模型。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

但是，微調後的 Instruct-Imagen 會在編輯後的影像中產生偽影，尤其是超解析度步驟之後的高解析度輸出，如圖 7 所示。研究者表示，這是由於該模型之前沒有學習過直接從上下文準確地複製像素。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

團隊也發現，檢索增強式訓練有助於提升泛化能力，結果如表 3 所示。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

對於Instruct-Imagen 的失敗模式，研究者發現，當多模態指令更複雜時（至少3 個多模態條件），Instruct-Imagen 難以生成遵從指令的結果。圖 8 給出了兩個範例。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

在下面再展示一些在訓練中未曾見過的複雜任務上的結果。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

#該團隊也進行了消融研究證明其設計組件的重要性。

不過，出於安全性考慮，Google目前還沒有發布該研究的程式碼和 API。

學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫

請參閱原始論文以獲取更多詳細資訊。

以上是學會多模態指令：Google圖片生成AI讓您輕鬆跟著畫的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例