首頁 >科技週邊 >人工智慧 >Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

王林轉載: 2024-01-29 09:09:261308瀏覽

建立會做影片的世界模型，也能透過Transformer來實現了！

來自清華和極佳科技的研究人員聯手，推出了全新的影片生成通用世界模型－WorldDreamer。

它可以完成多種影片生成任務，包括自然場景和自動駕駛場景，如文生影片、圖生影片、影片編輯、動作序列生影片等。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

根據團隊介紹，透過預測Token的方式來建立通用場景世界模型，WorldDreamer是業界首個。

它把影片產生轉換為一個序列預測任務，可以對物理世界的變化和運動規律進行充分地學習。

視覺化實驗已經證明，WorldDreamer已經深刻地理解了通用世界的動態變化規律。

那麼，它都能完成哪些影片任務，效果如何呢？

支援多種視訊任務

映像產生視訊（Image to Video）

#WorldDreamer可以基於單一影像預測未來的幀。

只需首張圖片輸入，WorldDreamer將剩餘的視訊影格視為被遮罩的視覺Token，並對這部分Token進行預測。

如下圖所示，WorldDreamer具有產生高品質電影級影片的能力。

其生成的影片呈現出無縫的逐幀運動，類似於真實電影中流暢的攝影機運動。

而且，這些影片嚴格遵循原始影像的約束，確保幀構圖的顯著一致性。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

文字產生影片（Text to Video）

#WorldDreamer也可以基於文字進行影片產生。

僅僅給定語言文字輸入，此時WorldDreamer認為所有的視訊框架都是被遮罩的視覺Token，並對這部分Token進行預測。

下圖展示了WorldDreamer在各種風格範式下從文字生成影片的能力。

產生的影片與輸入語言無縫契合，其中使用者輸入的語言可以塑造影片內容、風格和相機運動。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

影片修改（Video Inpainting）

#WorldDreamer進一步可以實作影片的inpainting任務。

具體來說，給定一段視頻，用戶可以指定mask區域，然後根據語言的輸入可以更改被mask區域的視頻內容。

如下圖所示，WorldDreamer可以將水母更換為熊，也可以將蜥蜴換成猴子，更換後的影片高度符合使用者的語言描述。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

影片風格化（Video Stylization）

除此之外，WorldDreamer可以實現影片的風格化。

如下圖所示，輸入一個影片段，其中某些像素被隨機掩碼，WorldDreamer可以改變影片的風格，例如根據輸入語言建立秋季主題效果。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

基於動作合成影片（Action to Video）

#WorldDreamer也可以實現在自動駕駛場景下的駕駛動作到影片的生成。

如下圖所示，給定相同的初始幀以及不同的駕駛策略（如左轉、右轉），WorldDreamer可以產生高度符合首幀約束以及駕駛策略的影片。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

那麼，WorldDreamer又是怎麼實現這些功能的呢？

用Transformer建構世界模型

研究人員認為，目前最先進的影片產生方法主要分為兩類－基於Transformer的方法和基於擴散模型的方法。

利用Transformer進行Token預測可以高效學習到視訊訊號的動態訊息，並且可以重複使用大語言模型社群的經驗，因此，基於Transformer的方案是學習通用世界模型的有效途徑。

而基于扩散模型的方法难以在单一模型内整合多种模态，且难以拓展到更大参数，因此很难学习到通用世界的变化和运动规律。

而当前的世界模型研究主要集中在游戏、机器人和自动驾驶领域，缺乏全面捕捉通用世界变化和运动规律的能力。

所以，研究团队提出了WorldDreamer来加强对通用世界的变化和运动规律的学习理解，从而显著增强视频生成的能力。

借鉴大型语言模型的成功经验，WorldDreamer采用Transformer架构，将世界模型建模框架转换为一个无监督的视觉Token预测问题。

具体的模型结构如下图所示：

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

WorldDreamer首先使用视觉Tokenizer将视觉信号（图像和视频）编码为离散的Token。

这些Token在经过掩蔽处理后，输入给研究团队提出的Sptial Temporal Patchwuse Transformer（STPT）模块。

同时，文本和动作信号被分别编码为对应的特征向量，以作为多模态特征一并输入给STPT。

STPT在内部对视觉、语言、动作等特征进行充分的交互学习，并可以预测被掩码部分的视觉Token。

最终，这些预测出的视觉Token可以用来完成各种各样的视频生成和视频编辑任务。

Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界

值得注意的是，在训练WorldDreamer时，研究团队还构建了Visual-Text-Action（视觉-文本-动作）数据的三元组，训练时的损失函数仅涉及预测被掩蔽的视觉Token，没有额外的监督信号。

而在团队提出的这个数据三元组中，只有视觉信息是必须的，也就是说，即使在没有文本或动作数据的情况下，依然可以进行WorldDreamer的训练。

这种模式不仅降低了数据收集的难度，还使得WorldDreamer可以支持在没有已知或只有单一条件的情况下完成视频生成任务。

研究团队使用大量数据对WorldDreamer进行训练，其中包括20亿经过清洗的图像数据、1000万段通用场景的视频、50万段高质量语言标注的视频、以及近千段自动驾驶场景视频。

团队对10亿级别的可学习参数进行了百万次迭代训练，收敛后的WorldDreamer逐渐理解了物理世界的变化和运动规律，并拥有了各种的视频生成和视频编辑能力。

论文地址：https://arxiv.org/abs/2401.09985
项目主页：https://world-dreamer.github.io/

以上是Transformer模型在挑戰視訊生成中成功利用20億個數據點學習物理世界的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构 Token github transformer https

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：OpenAI聯合創始人Karpathy發布文章：以自動駕駛為例解釋AGI！已刪除的原文，請立即收藏下一篇：OpenAI聯合創始人Karpathy發布文章：以自動駕駛為例解釋AGI！已刪除的原文，請立即收藏

看更多