圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 06:40 PM

Google模型

在文字轉圖像上捲了大半年之後，Meta、Google等科技巨頭又將目光投向了一個新的戰場：文字轉影片。

上週，Meta 公佈了一個能夠產生高品質短影片的工具——Make-A-Video，利用這款工具產生的影片非常具有想像。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

當然，Google也不甘示弱。剛剛，該公司 CEO Sundar Pichai 親自安麗了他們在這一領域的最新成果：兩款文本轉視頻工具——Imagen Video 與 Phenaki。前者主打影片品質，後者主要挑戰影片長度，可以說各有千秋。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

下面這個洗碗的泰迪熊就是用Imagen Video 產生的，可以看到，畫面的解析度和連貫性都有一定的保障。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

Imagen Video：給出文字提示，產生高清影片

生成建模在最近的文字到圖像AI 系統中取得了重大進展，例如DALL-E 2、Imagen、Parti、CogView 和Latent Diffusion。特別地，擴散模型在密度估計、文字轉語音、圖像到圖像、文字轉圖像和 3D 合成等多種生成式建模任務中取得了巨大成功。

Google想要做的是從文字產生影片。以往的影片產生工作集中在具有自迴歸模型的受限資料集、具有自迴歸先驗的潛變數模型以及近來的非自迴歸潛變量方法。擴散模型也已經展示出了出色的中等解析度視訊生成能力。

在此基礎上，Google推出了 Imagen Video，它是一個基於級聯視訊擴散模型的文字條件視訊生成系統。給予文字提示，Imagen Video 就可以透過一個由 frozen T5 文字編碼器、基礎視訊生成模型、級聯時空視訊超解析度模型組成的系統來產生高清視訊。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

論文網址：https://imagen.research.google/video/paper.pdf

在論文中，Google詳細描述如何將該系統擴展為一個高清文本轉視頻模型，包括某些分辨率下選擇全卷積時空超分辨率模型以及選擇擴散模型的v 參數化等設計決策。谷歌也將以往基於擴散的影像生成研究成果成功地遷移到了視訊生成設定。

Google發現，Imagen Video 能夠將以往工作產生的 24fps 64 幀 128×128 影片提升至 128 幀 1280×768 高畫質影片。此外，Imagen Video 還具有高度的可控性和世界知識，能夠生成多樣化藝術風格的影片和文字動畫，還具備了 3D 物件理解能力。

讓我們再來欣賞一些Imagen Video 生成的視頻，例如開車的熊貓：

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

遨遊太空的木船：

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

更多生成影片請參閱：https://imagen.research.google/video/

方法與實驗

整體而言，Google的視訊生成框架是七個子視訊擴散模型的級聯，它們相應地執行文字條件視訊生成、空間超解析度和時間超解析度。借助整個級聯，Imagen Video 能夠以每秒 24 幀的速度生成 128 幀 1280×768 的高清視訊（約 1.26 億像素）。

同時，在漸進式蒸餾的幫助下，Imagen Video 的每個子模型中僅使用八個擴散步驟就能產生高品質視訊。這將影片生成時間加快了大約 18 倍。

下圖6 展示了Imagen Video 的整個級聯pipeline，包括1 個frozen 文字編碼器、1 個基礎視訊擴散模型以及3 個空間超解析度（SSR）和3 個時間超解析度（TSR）模型。這七個視訊擴散模型共有 116 億參數。

在生成過程中，SSR 模型提高了所有輸入幀的空間分辨率，同時 TSR 模型透過在輸入幀之間填充中間幀來提高時間分辨率。所有模型同時產生一個完整的幀塊，這樣 SSR 模型就不會遭受明顯的偽影。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

Imagen Video 建構在影片 U-Net 架構之上，如下圖 7 所示。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

在實驗中，Imagen Video 在公開可用的LAION-400M 圖像文字資料集、1400 萬個視訊文字對和6000 萬個圖像文本對上進行訓練。結果如上文所述，Imagen Video 不僅能夠生成高清視頻，還具備一些純粹從資料中學習的非結構化生成模型所沒有的獨特功能。

下圖 8 展示了 Imagen Video 能夠生成具有從圖像訊息中學得的藝術風格的視頻，例如梵高繪畫風格或水彩畫風格的視頻。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

下圖9 展示了Imagen Video 對3D 結構的理解能力，它能夠產生旋轉物件的視頻，同時物體的大致結構也能保留。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

下圖 10 展示了 Imagen Video 能夠可靠地生成各種動畫樣式的文本，其中一些使用傳統工具很難來製作。

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

更多實驗細節請參考原文。

Phenaki：你講故事我來畫

我們知道，雖然從本質上講，影片就是一系列圖像，但生成一個連貫的長影片並沒有那麼容易，因為在這項任務中，可用的高品質資料非常少，而且任務本身的運算需求又很大。

更麻煩的是，像之前那種用於圖像生成的簡短文字 prompt 通常不足以提供對影片的完整描述，影片需要的是一系列 prompt 或故事。理想情況下，一個視頻生成模型必須能夠生成任意長度的視頻，並且要能根據某個時刻 t 的 prompt 變化調節生成的視頻幀。只有具備這樣的能力，模型生成的作品才能稱之為“視頻”，而不是“移動的圖像”，並開啟在藝術、設計和內容創作方面的現實創意應用之路。

Google等機構的研究人員表示，「據我們所知，基於故事的條件影片生成之前從未被探索過，這是第一篇朝著該目標邁進的早期論文。”

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

論文連結：https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

#專案連結：https://phenaki.github.io/#interactive 圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

#由於沒有基於故事的資料集可以拿來學習，研究人員沒有辦法簡單地依靠傳統深度學習方法（簡單地從資料中學習）來完成這些任務。因此，他們專門設計了一個模型來完成這項任務。

這個新的文字轉視訊模型名為 Phenaki，它使用了「文字轉影片」和「文字轉影像」資料聯合訓練。該模型具有以下能力：

2、根據一個故事（即一系列prompt）生成視頻，如下圖1 和圖5 所示：

#從以下動圖中我們可以看到Phenaki 產生影片的連貫性和多樣性：

圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度

###要實現這些功能，研究人員無法依賴現有的視頻編碼器，因為這些編碼器要么只能解碼固定大小的視頻，要么獨立編碼幀。為了解決這個問題，他們引入了一個新的編碼器 - 解碼器架構——C-ViViT。 ############C-ViViT 可以：################利用影片中的時間冗餘來提高每個畫面模型的重構質量，同時將視訊token 的數量壓縮40% 或更多；############在給定因果結構的情況下，允許編碼和解碼可變長度視訊。 ##################PHENAKI 模型架構################受先前自回歸文字轉圖像、文字轉影片研究的啟發，Phenaki 的設計主要包含兩大部分（見下圖2）：一個將視訊壓縮為離散嵌入（即token）的編碼器- 解碼器模型和一個將文字嵌入轉換為視訊token 的transformer 模型。 #####################取得影片的壓縮表示法是從文字產生影片的主要挑戰之一。先前的工作要么使用 per-frame 圖像編碼器，如 VQ-GAN，要么使用固定長度視訊編碼器，如 V ideoVQVAE。前者允許生成任意長度的視頻，但在實際使用中，視頻必須要短，因為編碼器不能及時壓縮視頻，並且 token 在連續幀中是高度冗餘的。後者在 token 數量上更加高效，但它不允許生成任意長度的影片。 ######

在 Phenaki 中，研究者的目標是產生可變長度的視頻，同時盡可能壓縮視頻 token 的數量，這樣就可以在當前的計算資源限制下使用 Transformer 模型。為此，他們引入了 C-ViViT，這是 ViViT 的一種因果變體，為視頻生成進行了額外的架構更改，它可以在時間和空間維度上壓縮視頻，同時保持時間上的自回歸。此功能允許產生任意長度的自回歸影片。

為了得到文字嵌入，Phenaki 也用到了一個預先訓練的語言模型－T5X。

具體細節請參考原文。

以上是圖片生成捲膩了，Google全面轉向文字→視訊生成，兩大利器同時挑戰解析度和長度的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles