AI又進階了?
而且是一張圖產生連貫30秒影片的那種。
emm....這品質是不是有點太糊了
要知道這只是從單一影像(第一幀)產生的,而且沒有任何顯示的幾何資訊。
這是DeepMind最近提出的一個基於機率幀預測的圖像建模和視覺任務的通用框架——Transframer。
簡單講,就是用Transframer來預測任一幀的機率。
這些影格可以以一個或多個標註的上下文影格為條件,既可以是先前的視訊影格、時間標記或攝影機標記的視圖場景。
Transframer架構
先來看看這個神奇的Transframer的架構是怎麼運作的。
論文地址就貼在下面了,有興趣的童鞋可以看看~https://arxiv.org /abs/2203.09494
為了估計目標影像上的預測分佈,我們需要一個能夠生產多樣化、高品質輸出的表達生成模型。
儘管DC Transformer在單一圖像域上的結果可以滿足需求,但並非以我們需要的多圖像文字集{(In,an)}n為條件。
因此,我們對DC Transformer進行了擴展,以啟用圖像和註解條件預測。
我們取代了DC Transformer 的Vision-Transformer風格的編碼器,該編碼器使用多幀U-Net 架構對單一DCT影像進行操作,用於處理一組註解的影格以及部分隱藏的目標DCT影像。
下面來看看Transframer架構是如何運作的。
(a)Transframer將DCT影像(a1和a2)以及部分隱藏的目標DCT影像(aT)和附加註解作為輸入,並由多幀U-Net編碼器處理。接下來,U-Net輸出透過交叉注意力傳遞給DC-Transformer解碼器,該解碼器則會自動回歸產生與目標影像的隱藏部分對應的DCT Token序列(綠色字母)。 (b)多幀U-Net block由NF-Net卷積塊、多幀自註意力塊組成,它們在輸入幀之間交換資訊和 Transformer式的殘差MLP。
再來看看處理映像輸入的Multi-Frame U-Net。
U-Net的輸入是由N個DCT幀和部分隱藏目標DCT幀組成的序列,註釋資訊以與每個輸入幀相關聯的向量的形式提供。
U-Net的核心元件是一個計算區塊,它首先將一個共享的NF-ResNet 卷積塊應用於每個輸入幀,然後應用一個Transformer樣式的自我注意區塊來聚合跨幀的資訊。 (圖2 b)
NF-ResNet區塊由分組卷積和擠壓和激發層組成,旨在提高TPU的效能。
下面,圖(a)比較了RoboNet (128x128) 和KITTI影片的絕對和殘差DCT表徵的稀疏性。
由於RoboNet由只有少數運動元素的靜態影片組成,因此殘差幀表徵的稀疏性顯著增加。
#而KITTI視訊通常具有移動攝像頭,導致連續幀中幾乎所有地方都存在差異。
但在這種情況下,稀疏性小帶來的好處也隨之弱化。
多視覺任務強者
#透過一系列資料集和任務的測試,結果顯示Transframer可以應用於多個廣泛任務。
其中就包含影片建模、新視圖合成、語意分割、物件辨識、深度估計、光流預測等等。
影片建模
##透過Transframer在給定一系列輸入視訊幀的情況下預測下一幀。
研究人員分別在KITTI和RoboNet兩個資料集上,訓練了Transframer在影片產生上的表現如何。
對於KITTI,給定5個上下文幀和25取樣幀,結果顯示,Transframer模型在所有指標上的性能都有所提高,其中LPIPS和FVD的改進是最顯而易見的。
在RoboNet上,研究人員給定2個上下文幀和10個採樣幀,分別以64x64 和128x128的解析度進行訓練,最終也取得了非常好的結果。
「檢視合成
##在視圖合成方面,研究者透過提供相機視圖作為表1(第3 行)中所述的上下文和目標註釋,以及統一採樣多個上下文視圖,直到指定的最大值。
透過提供1-2個上下文視圖,在ShapeNet 基準上評估模型Transframer,明顯優於PixelNeRF和SRN。
此外在資料集Objectron進行評估後,可以看出當給定單一輸入視圖時,模型會產生連貫的輸出,但會遺漏一些特徵,例如交叉的椅子腿。
############當給出1個上下文視圖,以128×128解析度合成的視圖如下:############ #################當再給予2個上下文視圖,以128×128解析度合成的視圖如下:#########多視覺任務
#不同的電腦視覺任務通常使用複雜的架構和損失函數來處理。
這裡,研究人員在8個不同的任務和資料集上使用相同的損失函數聯合訓練了Transframer模型。
這8個任務分別是:單一影像的光流預測、物件分類、偵測與分割、語意分割(在2個資料集上)、未來幀預測和深度估計。
結果顯示,Transframer學會在完全不同的任務中產生不同的樣本,在某些任務中,例如Cityscapes,該模型產生了品質上好的輸出。
但是,在未來幀預測和邊界框檢測等任務上的模型輸出品質參差不齊,這表明在此設定中建模更具挑戰性。
#
以上是給我一張圖,生成30秒影片!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1
強大的PHP整合開發環境

WebStorm Mac版
好用的JavaScript開發工具