WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 22, 2024 am 08:30 AM

入門影片生成

OpenAI 的 Sora 在今年 2 月驚艷亮相，為文字生成影片帶來了全新的突破。它可以根據文字輸入創作出彷彿來自好萊塢的逼真且充滿想像力的影片，讓人嘆為觀止。許多人都對這項創新讚歎不已，認為OpenAI 的表現實現了巔峰之作。

Sora引發的熱潮持續不減，同時研究者們也開始意識到AI影片生成技術的巨大潛力，這一領域正受到越來越多人的關注。

然而，當前AI 視訊生成領域，大部分演算法研究將重點放在了透過文字提示生成視頻，對於多模態輸入，特別是圖片與文字結合的場景，並沒有進行深入探討或廣泛應用。這種偏向降低了生成視訊的多樣性和可控制性，限制了從靜態影像到動態視訊的轉換能力。

另一方面，現有的大部分影片生成模型對生成影片內容缺乏可編輯性的支持，無法滿足用戶對生成影片進行個人化調整的需求。

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

#：把熊貓變成熊，並且讓它跳舞。（Change the panda to a bear and make it dance.）

本文，來自SEEKING AI、哈佛大學、斯坦福大學以及北京大學的研究者們共同提出了一種創新的基於圖片- 文本的視頻產生編輯統一框架，名為WorldGPT。該框架建立在SEEKING AI 與上述頂尖高校共同研發的VisionGPT 框架之上，不僅能夠實現由圖片和文字直接生成影片的功能，還支援透過簡單的文字提示（prompt）對生成影片進行風格遷移、背景替換等一系列影片外觀編輯操作。

該框架的另一個顯著優勢在於其無需進行訓練，這使得技術門檻大幅降低，同時也使得部署和使用變得非常方便。使用者可以直接使用模型進行創作，而無需專注於背後繁瑣的訓練過程。

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

論文網址：https://arxiv.org/pdf/2403.07944.pdf
論文標題：WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

接下來我們來看看WorldGPT 在多種複雜影片產生控制場景中的範例展示。

背景替換生成影片

提示：「一支船隊在呼嘯的風暴中奮力前行，他們的船帆在無情風暴的巨浪中航行。（A fleet of ships pressed on through the howling tempest, their sails billowing as they navigated the towering waves of the relentless storm.）」

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

背景替換風格化生成影片

提示：「一條可愛的龍在城市的街道上噴火。（A cute dragon is spitting fire on an urban street.）」

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

物件替換背景替換生成影片

提示：「賽博龐克風格的機器人在霓虹燈照亮的反烏托邦城市景觀中疾馳，高聳的全息圖和數字衰變的反射投影到其光滑的金屬機身上。（A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.）”

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

##從上面的範例可以看出，WorldGPT 在面對複雜視訊生成指令時具有以下優點：

1）較好的保持了原始輸入圖像的結構和環境；

2）生成符合圖片- 文字描述的生成視頻，展現出了強大的影片產生自訂能力；

3）可以透過prompt 對生成影片進行客製化編輯。

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

以了解更多有關 WorldGPT 的原理、實驗和用例的信息，請查看原始論文。

VisonGPT

前面已經提到，WorldGPT 框架建立在 VisionGPT 框架之上。接下來我們簡單介紹一下有關 VisionGPT 的資訊。

VisionGPT 是由 SeekingAI、史丹佛大學、哈佛大學及北京大學等世界頂尖機構聯合研發，是一款開創性的開放世界視覺感知大模型架構。該框架透過智慧整合和決策選擇最先進的 SOTA 大模型，提供了強大的 AI 多模態影像處理功能。

VisionGPT 的創新之處主要體現在三個面向：

其次，VisionGPT 自動接受並融合來自多個SOTA 大模型產生的多模態輸出，從而產生針對用戶需求的圖像處理結果；
最後，VisionGPT 具有極高的靈活性和多功能性，無需用戶對模型進行微調，就能夠支援包括文字驅動的圖像理解、生成、編輯在內的廣泛應用場景。

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

論文標題：VisionGPT: Vision- Language Understanding Agent Using Generalized Multimodal Framework

VisionGPT 用例

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

從上面可以看出，VisionGPT 無需 fine-tune，即可以輕鬆實現 1）開放世界的實例分割；2）基於 prompt 的圖像生成和編輯功能等。 VisionGPT 的工作流程如下圖所示。

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文

更多詳細資訊可以參考論文。

VisionGPT-3D

此外，研究者們也推出了VisionGPT-3D，旨在解決從文字到視覺元素轉換中的一大挑戰：如何高效、準確地將2D 影像轉換成3D 表示。在這個過程中，經常面臨演算法與實際需求不匹配的問題，從而影響最終結果的品質。 VisionGPT-3D 透過整合多種最先進的 SOTA 視覺大模型，提出了一個多模態框架，優化了這個轉換流程。其核心創新點在於自動選擇最適合的視覺 SOTA 模型和 3D 點雲創建演算法，並且根據文字提示等多模態輸入產生最符合用戶需求的輸出的能力。

WorldGPT來了：打造類Sora影片AI智能體，「復活」圖文