近年来,基于生成对抗式网络(Generative Adversarial Network, GAN)的基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解生成研究工作取得了显著的进展。除了能够生成高分辨率、逼真的基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解之外,许多创新应用也应运而生,诸如基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解个性化编辑、基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解动画化等。然而,如何利用 GAN 进行视频生成仍然是一个颇有挑战的问题。
除了对单帧基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解的建模之外,视频生成还需要学习复杂的时序关系。近来,来自香港中文大学、上海人工智能实验室、蚂蚁技术研究院以及加州大学洛杉矶分校的研究者提出了一个新的视频生成方法(Towards Smooth Video Composition)。文中,他们针对不同跨度(短时范围、适中范围、长范围)的时序关系,分别进行了细致的建模与改进,并在多个数据集上取得了相较于之前工作大幅度的提升。该工作为基于 GAN 的视频生成方向提供了一个简单且有效的新基准。
- 论文地址:https://arxiv.org/pdf/2212.07413.pdf
- 项目代码链接:https://github.com/genforce/StyleSV
模型架构
基于 GAN 的图像生成网络可以表示为:I=G(Z),其中 Z 是随机变量,G 是生成网络,I 是生成基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解。我们可以简单地将此框架拓展到视频生成范畴:I_i=G(z_i),i=[1,...,N],其中我们一次性采样 N 个随机变量 z_i,每一个随机变量 z_i 对应生成一帧基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解 I_i。将生成的基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解在时间维度堆叠起来就可以得到生成的视频。
MoCoGAN, StyleGAN-V 等工作在此基础上提出了一种解耦的表达:I_i=G(u, v_i),i=[1,...,N],其中 u 表示控制内容的随机变量,v_i 表示控制动作的随机变量。这种表达认为,所有帧共享相同的内容,并具有独特的动作。通过这种解耦的表达,我们可以更好地生成内容风格一致,同时具有多变真实的动作视频。新工作采纳了 StyleGAN-V 的设计,并将其作为基准。
视频生成的难点:如何有效并合理地建模时序关系?
新工作着眼于不同跨度(短时范围、适中范围、长范围)的时序关系,分别进行了细致的建模与改进:
1. 短时间(~5 帧)时序关系
让我们首先考虑仅有几帧的视频。这些短时间的视频帧通常包含了非常相似的内容,仅仅展示了非常细微的动作。因此,真实地生成帧间的细微动作至关重要。然而,StyleGAN-V 生成的视频中出现了严重的纹理粘连(texture sticking)现象。
纹理粘连指的是生成的部分内容对特定坐标产生了依赖,造成了 “黏” 在固定区域上的现象。在图像生成领域中,StyleGAN3 通过细致的信号处理、扩大 padding 范围等操作缓解了纹理粘连问题。本工作验证了同样的技术对视频生成仍然有效。
在下图的可视化中,我们追踪视频每一帧中相同位置的像素。容易发现,在 StyleGAN-V 的视频中,有些内容长期 “黏” 在固定坐标,并没有随着时间移动,因此在可视化中产生了“笔刷现象”。而在新工作生成的视频中,所有像素都展示了自然的移动。
然而,研究員發現,引用 StyleGAN3 的 backbone 會讓影像生成品質下降。為了緩解這個問題,他們引入了圖像層面的預訓練。在預訓練階段, 網路僅需考慮影片中某一幀的生成質量,無需學習時序範圍的建模,從而更易學習有關影像分佈知識。
2. 中等長度(~5 秒)時序關係
#隨著產生的影片擁有更多的幀數,它將能夠展現更具體的動作。因此,確保生成的影片中擁有真實的動作非常重要。例如,如果我們想要產生第一人稱開車的視頻,就應該產生逐漸後退的地面、街景,臨車也應遵循自然的駕駛軌跡。
在對抗訓練中,為了確保生成網路獲得足夠的訓練監督,判別網路至關重要。因此在影片生成中,為了確保生成網路能夠產生真實的動作,判別網路需要對多幀中的時序關係進行建模,並捕捉產生的不真實的運動。然而,在先前的工作中,判別網路僅僅使用了簡單的拼接操作(concatenation operation)來進行時序建模:y = cat (y_i),其中 y_i 表示單幀特徵,y 表示時域融合後的特徵。
針對判別網絡,新工作提出了一種明確的時序建模,即在判別網絡的每一層,引入時序移位模組(Temporal Shift Module,TSM) 。 TSM 來自動作識別領域,透過簡單的移位操作實現時序上的信息交換:
#實驗表明,在引入TSM 之後,三個資料集上的FVD16,FVD128 得到了很大程度的降低。
#3. 無限長影片產生
##先前介紹的改進主要圍繞短時和適中時間長度的視訊生成,新工作進一步探索如何生成高品質的任意長度(包括無限長)的影片。先前工作(StyleGAN-V)能夠產生無限長的視頻,然而視頻中卻包含著非常明顯的周期性抖動現象:
##如圖所示,在StyleGAN-V 產生的影片中,隨著自車前進,斑馬線原本正常的後退,隨後卻突然改為向前運動。本工作發現,動作特徵(motion embedding)的不連續性導致了此抖動現象。
先前工作採用線性內插法來計算動作特徵,然而線性內插會導致一階不連續性,如下圖所示(左邊為插值示意圖,右圖為T-SNE 特徵視覺化):
本工作提出了B 樣條控制的動作特徵(B-Spline based motion embedding)。透過B 樣條進行插值,能夠獲得關於時間更加平滑的動作特徵,如圖所示(左邊為插值示意圖,右圖為T-SNE 特徵可視化):
透過引入B 樣條控制的動作特徵,新工作緩解了抖動現象:
如圖所示,StyleGAN-V 產生的影片中,路燈、地面會突然改變運動方向。而在新工作產生的影片中,運動的方向是一致、自然的。
同時,新工作針對動作特徵也提出了低秩(low rank)的約束,來進一步緩解週期性重複內容的出現。
實驗
工作在三個資料集(YouTube Driving, Timelapse, Taichi-HD)上進行了充分的實驗,並充分對比了先前的工作,結果顯示,新工作在圖片品質(FID)以及影片品質(FVD)上,都取得了充分的提升。
SkyTimelapse 實驗結果:
Taichi-HD 實驗結果:
YouTube Driving 實驗結果:
#總結
新工作是基於GAN 模型,提出了一個全新的視訊生成基準,從不同尺度的時序關係出發,提出了新穎、有效地改進。在多個資料集上的實驗顯示,新工作成功取得了大幅超越先前工作的視訊品質。
以上是基於GAN生成流暢視頻,效果很能打:無紋理粘連、抖動緩解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE

2022年,他創立了社會工程防禦初創公司Doppel,以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓,Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快,更快,

瞧,通過與合適的世界模型進行交互,可以實質上提高生成的AI和LLM。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭,而懷舊遊行則穿過城市街道。然而,慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C

為了幫助解決這一緊急且令人不安的趨勢,在2025年2月的TEM期刊上進行了同行評審的文章,提供了有關該技術深擊目前面對的最清晰,數據驅動的評估之一。 研究員

從大大減少制定新藥所需的時間到創造更綠色的能源,企業將有巨大的機會打破新的地面。 不過,有一個很大的問題:嚴重缺乏技能的人

幾年前,科學家發現某些類型的細菌似乎通過發電而不是吸收氧氣而呼吸,但是它們是如何做到的,這是一個謎。一項發表在“雜誌”雜誌上的新研究確定了這種情況的發生方式:Microb

在本週的RSAC 2025會議上,Snyk舉辦了一個及時的小組,標題為“前100天:AI,政策和網絡安全如何碰撞”,其中包括全明星陣容:前CISA董事Jen Easterly;妮可·珀洛斯(Nicole Perlroth),前記者和帕特納(Partne)


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Dreamweaver CS6
視覺化網頁開發工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

SublimeText3漢化版
中文版,非常好用

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。