搜尋
首頁科技週邊人工智慧給我一張圖,生成30秒影片!

AI又進階了?

而且是一張圖產生連貫30秒影片的那種。

給我一張圖,生成30秒影片!

emm....這品質是不是有點太糊了

要知道這只是從單一影像(第一幀)產生的,而且沒有任何顯示的幾何資訊。

這是DeepMind最近提出的一個基於機率幀預測的圖像建模和視覺任務的通用框架——Transframer。

簡單講,就是用Transframer來預測任一幀的機率。

這些影格可以以一個或多個標註的上下文影格為條件,既可以是先前的視訊影格、時間標記或攝影機標記的視圖場景。

Transframer架構

先來看看這個神奇的Transframer的架構是怎麼運作的。

給我一張圖,生成30秒影片!

論文地址就貼在下面了,有興趣的童鞋可以看看~https://arxiv.org /abs/2203.09494

為了估計目標影像上的預測分佈,我們需要一個能夠生產多樣化、高品質輸出的表達生成模型。

儘管DC Transformer在單一圖像域上的結果可以滿足需求,但並非以我們需要的多圖像文字集{(In,an)}n為條件。

因此,我們對DC Transformer進行了擴展,以啟用圖像和註解條件預測。

我們取代了DC Transformer 的Vision-Transformer風格的編碼器,該編碼器使用多幀U-Net 架構對單一DCT影像進行操作,用於處理一組註解的影格以及部分隱藏的目標DCT影像。

下面來看看Transframer架構是如何運作的。

(a)Transframer將DCT影像(a1和a2)以及部分隱藏的目標DCT影像(aT)和附加註解作為輸入,並由多幀U-Net編碼器處理。接下來,U-Net輸出透過交叉注意力傳遞給DC-Transformer解碼器,該解碼器則會自動回歸產生與目標影像的隱藏部分對應的DCT Token序列(綠色字母)。 (b)多幀U-Net block由NF-Net卷積塊、多幀自註意力塊組成,它們在輸入幀之間交換資訊和 Transformer式的殘差MLP。

給我一張圖,生成30秒影片!

再來看看處理映像輸入的Multi-Frame U-Net。

U-Net的輸入是由N個DCT幀和部分隱藏目標DCT幀組成的序列,註釋資訊以與每個輸入幀相關聯的向量的形式提供。

U-Net的核心元件是一個計算區塊,它首先將一個共享的NF-ResNet 卷積塊應用於每個輸入幀,然後應用一個Transformer樣式的自我注意區塊來聚合跨幀的資訊。 (圖2 b)

NF-ResNet區塊由分組卷積和擠壓和激發層組成,旨在提高TPU的效能。

下面,圖(a)比較了RoboNet (128x128) 和KITTI影片的絕對和殘差DCT表徵的稀疏性。

由於RoboNet由只有少數運動元素的靜態影片組成,因此殘差幀表徵的稀疏性顯著增加。

#

而KITTI視訊通常具有移動攝像頭,導致連續幀中幾乎所有地方都存在差異。

但在這種情況下,稀疏性小帶來的好處也隨之弱化。

給我一張圖,生成30秒影片!

多視覺任務強者

#透過一系列資料集和任務的測試,結果顯示Transframer可以應用於多個廣泛任務。

其中就包含影片建模、新視圖合成、語意分割、物件辨識、深度估計、光流預測等等。

給我一張圖,生成30秒影片!

影片建模

##透過Transframer在給定一系列輸入視訊幀的情況下預測下一幀。

給我一張圖,生成30秒影片!

研究人員分別在KITTI和RoboNet兩個資料集上,訓練了Transframer在影片產生上的表現如何。

給我一張圖,生成30秒影片!

對於KITTI,給定5個上下文幀和25取樣幀,結果顯示,Transframer模型在所有指標上的性能都有所提高,其中LPIPS和FVD的改進是最顯而易見的。

給我一張圖,生成30秒影片!給我一張圖,生成30秒影片!

在RoboNet上,研究人員給定2個上下文幀和10個採樣幀,分別以64x64 和128x128的解析度進行訓練,最終也取得了非常好的結果。

「檢視合成

給我一張圖,生成30秒影片!

##在視圖合成方面,研究者透過提供相機視圖作為表1(第3 行)中所述的上下文和目標註釋,以及統一採樣多個上下文視圖,直到指定的最大值。

透過提供1-2個上下文視圖,在ShapeNet 基準上評估模型Transframer,明顯優於PixelNeRF和SRN。

給我一張圖,生成30秒影片!給我一張圖,生成30秒影片!

此外在資料集Objectron進行評估後,可以看出當給定單一輸入視圖時,模型會產生連貫的輸出,但會遺漏一些特徵,例如交叉的椅子腿。

############當給出1個上下文視圖,以128×128解析度合成的視圖如下:############ #################當再給予2個上下文視圖,以128×128解析度合成的視圖如下:#########

給我一張圖,生成30秒影片!給我一張圖,生成30秒影片!

多視覺任務

#不同的電腦視覺任務通常使用複雜的架構和損失函數來處理。

這裡,研究人員在8個不同的任務和資料集上使用相同的損失函數聯合訓練了Transframer模型。

這8個任務分別是:單一影像的光流預測、物件分類、偵測與分割、語意分割(在2個資料集上)、未來幀預測和深度估計。

給我一張圖,生成30秒影片!

結果顯示,Transframer學會在完全不同的任務中產生不同的樣本,在某些任務中,例如Cityscapes,該模型產生了品質上好的輸出。

但是,在未來幀預測和邊界框檢測等任務上的模型輸出品質參差不齊,這表明在此設定中建模更具挑戰性。

#

以上是給我一張圖,生成30秒影片!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具