文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 19, 2024 am 09:06 AM

模型開源

近日，北大、史丹佛、以及爆火的Pika Labs聯合發表了一項研究，將大模型文生圖的能力提升到了新的高度。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

論文網址：https://arxiv.org/pdf/2401.11708.pdf

程式碼網址：https://github.com/YangLing0818/RPG-DiffusionMaster

論文作者提出了一個創新的方法，利用多模態大語言模型（MLLM）的推理能力，來改進文字到圖像生成/編輯的框架。

換言之，此方法旨在提昇文生成模型在處理包含多個屬性、關係和物件的複雜文字提示時的表現表現。

話不多說，直接上圖：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#A green twintail girl in orange dress is sitting on the sofa while a messy desk under a big window on the left, a lively aquarium is on the top right of the sofa, realistic style.

一個穿著橙色連身裙的雙馬尾女孩坐在沙發上，大窗戶旁是凌亂的辦公桌，右上方擺放著一個活潑的水族館，房間風格寫實主義。

面對關係複雜的多個對象，模型所給予的整個畫面的結構、人與物品的關係都非常合理，使觀者眼前一亮。

而對於同樣的提示，我們來看看目前最先進的SDXL和DALL·E 3的表現：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

再看一下新框架面對多個物件綁定多個屬性時的表現：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

From left to right, a blonde ponytail Europe girl in white shirt, a brown curly hair African girl in blue shirt printed with a bird, an Asian young man with black short hair in suit are walking in the campus happily.##papp
從左到右，一個穿著白色襯衫、綁著金髮馬尾辮的歐洲女孩，一個穿著印著小鳥的藍色襯衫、棕色捲髮的非洲女孩，一個穿著西裝、黑色短髮的亞洲年輕人正開心地在校園裡散步。

研究人員將這個框架命名為RPG（Recaption，Plan and Generate），採用MLLM作為全域規劃器，將複雜影像的產生過程分解為子區域內多個更簡單的生成任務。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

文中提出了互補的區域擴散，實現區域組合生成，還將文字引導的圖像生成和編輯以閉環方式集成到了RPG框架中，從而增強了泛化能力。

實驗表明，本文提出的RPG框架優於目前最先進的文字圖像擴散模型，包括DALL·E 3和SDXL，尤其是在多類別物件合成以及文字圖像語義對齊方面。

值得注意的是，RPG框架可以廣泛地相容於各種MLLM架構（如MiniGPT-4）和擴散骨幹網路（如ControlNet）。

RPG

目前的文生圖模型主要有兩個問題：1. 基於佈局或基於注意力的方法只能提供粗略的空間引導，而且難以處理重疊的物件；2. 基於回饋的方法需要收集高品質的回饋數據，並產生額外的訓練成本。

為了解決這些問題，研究者提出了RPG的三個核心策略，如下圖所示：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

給定一個包含多個實體和關係的複雜文字提示，首先利用MLLM將其分解為基本提示和高度描述性的子提示；隨後，利用多模態模型的CoT規劃將影像空間劃分為互補的子區域；最後，引入互補區域擴散來獨立產生每個子區域的影像，並在每個取樣步驟中進行聚合。

多模態重新調整

將文字提示轉換為高度描述性的提示，提供資訊增強的提示理解和擴散模型中的語義對齊。

使用MLLM來辨識使用者提示y中的關鍵字詞，以獲得其中的子項：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

# #使用LLM將文字提示符分解為不同的子提示符，並進行更詳細的重新描述：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

透過這種方式，可以為每個子提示產生更密集的細粒度細節，以有效地提高生成影像的保真度，並減少提示和影像之間的語義差異。

思想鏈規劃

#將影像空間分割成互補的子區域，並為每個子區域分配不同的子提示，同時將生成任務分解為多個更簡單的子任務。

具體來說，將影像空間H×W分割為若干互補區域，並將每個增強子提示符號指派給特定區域R：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#利用MLLM強大的思維鏈推理能力，進行有效的區域劃分。透過分析重新獲得的中間結果，就能為後續的影像合成產生詳細的原理和精確的說明。

補充區域擴散

在每個矩形子區域內，獨立產生由子提示引導的內容，隨後調整大小和連接的方式，在空間上合併這些子區域。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

這種方法有效地解決了大模型難以處理重疊物件的問題。此外，論文擴展了這個框架，以適應編輯任務，採用基於輪廓的區域擴散，從而對需要修改的不一致區域精確操作。

文字引導的圖像編輯

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#如上圖所示。在複述階段，RPG採用MLLM作為字幕來複述來源圖像，並利用其強大的推理能力來識別圖像和目標提示之間的細粒度語義差異，直接分析輸入圖像如何與目標提示對齊。

使用MLLM（GPT-4、Gemini Pro等）來檢查輸入與目標之間關於數值準確性、屬性綁定和物件關係的差異。由此產生的多模態理解回饋將交付給MLLM，用於推理編輯計畫。

我們來看看生成效果在以上三個方面的表現，首先是屬性綁定，對比SDXL、DALL·E 3和LMD ：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

我們可以看到在所有三項測試中，只有RPG最準確地反映了提示所描述的內容。

接著是數值準確性，顯示順序同上（SDXL、DALL·E 3、LMD 、RPG）：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

－沒想到要數這件事情對於文生圖大模型還挺難的，RPG輕鬆戰勝對手。

最後一項是還原提示中的複雜關係：

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

#此外，也可以將區域擴散擴展為分層格式，將特定子區域劃分為較小的子區域。

如下圖所示，當增加區域分割的層次結構時，RPG可以在文字到影像的生成方面實現顯著的改進。這為處理複雜的生成任務提供了一個新的視角，使我們有可能產生任意組成的影像。

文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題

###

以上是文生圖新SOTA！ Pika北大斯坦福聯合推出RPG，多模態協助解決文生圖兩大難題的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

無法使用chatgpt！解釋可以立即測試的原因和解決方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT無法訪問？本文提供多種實用解決方案！許多用戶在日常使用ChatGPT時，可能會遇到無法訪問或響應緩慢等問題。本文將根據不同情況，逐步指導您解決這些問題。 ChatGPT無法訪問的原因及初步排查首先，我們需要確定問題是出在OpenAI服務器端，還是用戶自身網絡或設備問題。請按照以下步驟進行排查：步驟1：檢查OpenAI官方狀態訪問OpenAI Status頁面 (status.openai.com)，查看ChatGPT服務是否正常運行。如果顯示紅色或黃色警報，則表示Open

計算ASI的風險始於人類的思想May 14, 2025 am 05:02 AM

2025年5月10日，麻省理工學院物理學家Max Tegmark告訴《衛報》，AI實驗室應在釋放人工超級智能之前模仿Oppenheimer的三位一體測試演算。 “我的評估是'康普頓常數'，這是一場比賽的可能性

AI音樂創作技術日新月異，本文將以ChatGPT等AI模型為例，詳細講解如何利用AI輔助音樂創作，並輔以實際案例進行說明。我們將分別介紹如何通過SunoAI、Hugging Face上的AI jukebox以及Python的Music21庫進行音樂創作。通過這些技術，每個人都能輕鬆創作原創音樂。但需注意，AI生成內容的版權問題不容忽視，使用時務必謹慎。讓我們一起探索AI在音樂領域的無限可能！ OpenAI最新AI代理“OpenAI Deep Research”介紹： [ChatGPT]Ope

什麼是chatgpt-4？對您可以做什麼，定價以及與GPT-3.5的差異的詳盡解釋！May 14, 2025 am 05:00 AM

ChatGPT-4的出现，极大地拓展了AI应用的可能性。相较于GPT-3.5，ChatGPT-4有了显著提升，它具备强大的语境理解能力，还能识别和生成图像，堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域，它都展现出巨大的潜力。然而，与此同时，我们也必须注意其使用上的注意事项。本文将详细解读ChatGPT-4的特性，并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧，敬请参考。 OpenAI发布的最新AI代理，“OpenAI Deep Research”详情请点击下方链

解釋如何使用chatgpt應用程序！日本支持和語音對話功能May 14, 2025 am 04:59 AM

CHATGPT應用程序：與AI助手釋放您的創造力！初學者指南 ChatGpt應用程序是一位創新的AI助手，可處理各種任務，包括寫作，翻譯和答案。它是一種具有無限可能性的工具，可用於創意活動和信息收集。在本文中，我們將以一種易於理解的方式解釋初學者，從如何安裝chatgpt智能手機應用程序到語音輸入功能和插件等應用程序所獨有的功能，以及在使用該應用時要牢記的要點。我們還將仔細研究插件限制和設備對設備配置同步

如何使用中文版Chatgpt？註冊程序和費用的說明May 14, 2025 am 04:56 AM

ChatGPT中文版：解鎖中文AI對話新體驗 ChatGPT風靡全球，您知道它也提供中文版本嗎？這款強大的AI工具不僅支持日常對話，還能處理專業內容，並兼容簡體中文和繁體中文。無論是中國地區的使用者，還是正在學習中文的朋友，都能從中受益。本文將詳細介紹ChatGPT中文版的使用方法，包括賬戶設置、中文提示詞輸入、過濾器的使用、以及不同套餐的選擇，並分析潛在風險及應對策略。此外，我們還將對比ChatGPT中文版和其他中文AI工具，幫助您更好地了解其優勢和應用場景。 OpenAI最新發布的AI智能

5 AI代理神話，您需要停止相信May 14, 2025 am 04:54 AM

這些可以將其視為生成AI領域的下一個飛躍，這為我們提供了Chatgpt和其他大型語言模型聊天機器人。他們可以代表我們採取行動，而不是簡單地回答問題或產生信息

易於理解使用Chatgpt創建和管理多個帳戶的非法性的解釋May 14, 2025 am 04:50 AM

使用chatgpt有效的多個帳戶管理技術|關於如何使用商業和私人生活的詳盡解釋！ Chatgpt在各種情況下都使用，但是有些人可能擔心管理多個帳戶。本文將詳細解釋如何為ChatGpt創建多個帳戶，使用時該怎麼做以及如何安全有效地操作它。我們還介紹了重要的一點，例如業務和私人使用差異，並遵守OpenAI的使用條款，並提供指南，以幫助您安全地利用多個帳戶。 Openai

See all articles