搜尋
首頁科技週邊人工智慧WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

OpenAI 的 Sora 在今年 2 月驚艷亮相,為文字生成影片帶來了全新的突破。它可以根據文字輸入創作出彷彿來自好萊塢的逼真且充滿想像力的影片,讓人嘆為觀止。許多人都對這項創新讚歎不已,認為OpenAI 的表現實現了巔峰之作。

Sora引發的熱潮持續不減,同時研究者們也開始意識到AI影片生成技術的巨大潛力,這一領域正受到越來越多人的關注。

然而,當前AI 視訊生成領域,大部分演算法研究將重點放在了透過文字提示生成視頻,對於多模態輸入,特別是圖片與文字結合的場景,並沒有進行深入探討或廣泛應用。這種偏向降低了生成視訊的多樣性和可控制性,限制了從靜態影像到動態視訊的轉換能力。

另一方面,現有的大部分影片生成模型對生成影片內容缺乏可編輯性的支持,無法滿足用戶對生成影片進行個人化調整的需求。

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

#:把熊貓變成熊,並且讓它跳舞。 (Change the panda to a bear and make it dance.)

本文,來自SEEKING AI、哈佛大學、斯坦福大學以及北京大學的研究者們共同提出了一種創新的基於圖片- 文本的視頻產生編輯統一框架,名為WorldGPT。該框架建立在SEEKING AI 與上述頂尖高校共同研發的VisionGPT 框架之上,不僅能夠實現由圖片和文字直接生成影片的功能,還支援透過簡單的文字提示(prompt)對生成影片進行風格遷移、背景替換等一系列影片外觀編輯操作。

該框架的另一個顯著優勢在於其無需進行訓練,這使得技術門檻大幅降低,同時也使得部署和使用變得非常方便。使用者可以直接使用模型進行創作,而無需專注於背後繁瑣的訓練過程。

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

  • 論文網址:https://arxiv.org/pdf/2403.07944.pdf
  • 論文標題:WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

接下來我們來看看WorldGPT 在多種複雜影片產生控制場景中的範例展示。

背景替換生成影片

提示:「一支船隊在呼嘯的風暴中奮力前行,他們的船帆在無情風暴的巨浪中航行。(A fleet of ships pressed on through the howling tempest, their sails billowing as they navigated the towering waves of the relentless storm.)」

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

背景替換風格化生成影片

提示:「一條可愛的龍在城市的街道上噴火。(A cute dragon is spitting fire on an urban street.)」

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

物件替換背景替換生成影片

提示:「賽博龐克風格的機器人在霓虹燈照亮的反烏托邦城市景觀中疾馳,高聳的全息圖和數字衰變的反射投影到其光滑的金屬機身上。(A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.)”

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

##從上面的範例可以看出,WorldGPT 在面對複雜視訊生成指令時具有以下優點:

1)較好的保持了原始輸入圖像的結構和環境;

2)生成符合圖片- 文字描述的生成視頻,展現出了強大的影片產生自訂能力;

3)可以透過prompt 對生成影片進行客製化編輯。

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

以了解更多有關 WorldGPT 的原理、實驗和用例的信息,請查看原始論文。

VisonGPT

前面已經提到,WorldGPT 框架建立在 VisionGPT 框架之上。接下來我們簡單介紹一下有關 VisionGPT 的資訊。

VisionGPT 是由 SeekingAI、史丹佛大學、哈佛大學及北京大學等世界頂尖機構聯合研發,是一款開創性的開放世界視覺感知大模型架構。該框架透過智慧整合和決策選擇最先進的 SOTA 大模型,提供了強大的 AI 多模態影像處理功能。

VisionGPT 的創新之處主要體現在三個面向:

    首先,它以大型語言模型(例如LLaMA-2)為核心,將使用者的prompt 請求分解成詳細的步驟需求,並自動化調用最合適的大模型進行處理;
  1. 其次,VisionGPT 自動接受並融合來自多個SOTA 大模型產生的多模態輸出,從而產生針對用戶需求的圖像處理結果;
  2. 最後,VisionGPT 具有極高的靈活性和多功能性,無需用戶對模型進行微調,就能夠支援包括文字驅動的圖像理解、生成、編輯在內的廣泛應用場景。

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

    論文地址:https://arxiv.org/pdf/2403.09027.pdf
  • 論文標題:VisionGPT: Vision- Language Understanding Agent Using Generalized Multimodal Framework

VisionGPT 用例

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

從上面可以看出,VisionGPT 無需 fine-tune,即可以輕鬆實現 1)開放世界的實例分割;2)基於 prompt 的圖像生成和編輯功能等。 VisionGPT 的工作流程如下圖所示。

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

更多詳細資訊可以參考論文。

VisionGPT-3D

此外,研究者們也推出了VisionGPT-3D,旨在解決從文字到視覺元素轉換中的一大挑戰:如何高效、準確地將2D 影像轉換成3D 表示。在這個過程中,經常面臨演算法與實際需求不匹配的問題,從而影響最終結果的品質。 VisionGPT-3D 透過整合多種最先進的 SOTA 視覺大模型,提出了一個多模態框架,優化了這個轉換流程。其核心創新點在於自動選擇最適合的視覺 SOTA 模型和 3D 點雲創建演算法,並且根據文字提示等多模態輸入產生最符合用戶需求的輸出的能力。

WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文

  • 論文網址:https://arxiv.org/pdf/2403.09530v1.pdf
  • 論文標題: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

了解更多信息,請參考原論文。

以上是WorldGPT來了:打造類Sora影片AI智能體,「復活」圖文的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具