一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

王林

May 05, 2023 pm 02:55 PM

數據meta

只輸入一行文本，就能產生 3D 動態場景？

沒錯，已經有研究者做到了。可以看出來，目前的生成效果還處於初級階段，只能產生一些簡單的物件。不過這種「一步到位」的方法仍然引起了大量研究者的關注：

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

在最近的一篇論文中，來自Meta 的研究者首次提出了可以從文本描述中產生三維動態場景的方法MAV3D (Make-A-Video3D)。

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

#論文連結：https://arxiv.org/abs/2301.11280
專案連結：https://make-a-video3d.github.io/

具體而言，該方法運用4D 動態神經輻射場（NeRF），透過查詢基於文字到視訊（T2V）擴散的模型，優化場景外觀、密度和運動的一致性。任意機位或角度都可以觀看到提供的文字產生的動態視訊輸出，並且可以合成到任何 3D 環境中。

MAV3D 不需要任何 3D 或 4D 數據，T2V 模型只對文字影像對和未標記的影片進行訓練。

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

讓我們來看看MAV3D 從文字產生4D 動態場景的效果：

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

#此外，它也能從圖片直接到4D，效果如下：

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

#研究者透過全面的量化和質化實驗證明了此方法的有效性，先前建立的內部baseline 也得到了改進。據悉，這是第一個根據文字描述產生 3D 動態場景的方法。

方法

研究的目標在於開發一項能從自然語言描述中產生動態 3D 場景表徵的方法。這極具挑戰性，因為既沒有文字或 3D 對，也沒有用於訓練的動態 3D 場景資料。因此，研究者選擇依靠預訓練的文本到視頻（T2V）的擴散模型作為場景先驗，該模型已經學會了通過對大規模圖像、文本和視頻數據的訓練來建模場景的真實外觀和運動。

從更高層次來看，在給定一個文字 prompt p 的情況下，研究可以擬合一個 4D 表徵，它模擬了在時空任意點上與 prompt 匹配的場景外觀。沒有配對訓練數據，研究無法直接監督一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害的輸出；然而，給定一系列的相機姿勢 #就可以從渲染出影像序列並將它們堆疊成一個視訊V。然後，將文本prompt p 和視頻V 傳遞給凍結和預訓練的T2V 擴散模型，由該模型對視頻的真實性和prompt alignment 進行評分，並使用SDS（得分蒸餾採樣）來計算場景參數θ 的更新方向。

上面的 pipeline 可以算是 DreamFusion 的擴展，為場景模型添加了一個時間維度，並使用 T2V 模型而不是文字到圖像（T2I）模型進行監督。然而，要實現高品質的文本到4D 的生成還需要更多的創新：

#第一，需要使用新的、允許靈活場景運動建模的4D 表徵；
第二，需要使用多層靜態到動態最佳化方案來提高視訊品質和提高模型收斂性，該方案利用幾個motion regularizer 來產生真實的運動；
第三，需要使用超解析度微調（SRFT）來提高模型的解析度。

具體說明請見下圖：

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

實驗

##在實驗中，研究者評估了MAV3D 從文字描述產生動態場景的能力。首先，研究者評估了該方法在 Text-To-4D 任務上的有效性。據悉，MAV3D 是第一個該任務的解決方案，因此研究開發了三種替代方法作為基準。其次，研究者評估了 T2V 和 Text-To-3D 子任務模型的簡化版本，並將其與文獻中現有的基準進行比較。第三，全面的消融研究證明了方法設計的合理性。第四，實驗描述了將動態 NeRF 轉換為動態網格的過程，最終將模型擴展到 Image-to-4D 任務。

#########指標################研究使用CLIP R-Precision 來評估生成的視頻，它可以測量文字和生成場景之間的一致性。報告的指標是從呈現的訊框中檢索輸入 prompt 的準確性。研究者使用CLIP 的ViT-B/32 變體，並在不同的視圖和時間步長中提取幀，並且還通過詢問人工評分人員在兩個生成的視頻中的偏好來使用四個定性指標，分別是：(i) 視訊品質；(ii) 忠於文字prompt；(iii) 活動量；(四) 運動的現實性。研究者評估了在文本 prompt 分割中使用的所有基線和消融。 ######

圖 1 和圖 2 為範例。若想了解更詳細的視覺化效果，請參閱 make-a-video3d.github.io。

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

#表1 顯示了與基線的比較（R - 精確度和人類偏好）。人工評量以在特定環境下與該模型相比，贊成基線多數票的百分比呈現。

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

表2 展示了消融實驗的結果：

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

即時渲染

#使用傳統圖形引擎的虛擬實境和遊戲等應用程式需要標準的格式，如紋理網格。 HexPlane 模型可以輕易轉換為如下的動畫網格。首先，使用 marching cube 演算法從每個時刻 t 產生的不透明度場中提取一個簡單網格，然後進行網格抽取（為了提高效率）並且去除小雜訊連接組件。 XATLAS 演算法用於將網格頂點對應到紋理圖集，紋理初始化使用以每個頂點為中心的小球體中平均的 HexPlane 顏色。最後，為了更好地匹配一些由 HexPlane 使用可微網格渲染的範例幀，紋理會進一步優化。這將產生一個紋理網格集合，可以在任何現成的 3D 引擎中重播。

圖片到4D

#圖6 和圖10 展示了該方法能夠從給定的輸入影像產生深度和運動，從而產生4D 資產。

一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害

####### #####更多研究細節，可參考原論文。 ######

以上是一行文本，產生3D動態場景：Meta這個「一步到位」模型有點厲害的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles