圖像到視訊生成(I2V)任務是電腦視覺領域的一項挑戰,旨在將靜態圖像轉化為動態視訊。這個任務的困難在於從單張影像中提取並產生時間維度的動態訊息,同時保持影像內容的真實性和視覺上的連貫性。現有的I2V方法通常需要複雜的模型架構和大量的訓練資料來實現這一目標。
近期,快手主導的一項新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》發布。該研究引入了一種創新的影像到視訊轉換方法,提出了一種輕量級適配器模組,即I2V-Adapter。此適配器模組能夠在不改變現有文字到視訊生成(T2V)模型原始結構和預訓練參數的情況下,將靜態影像轉換成動態視訊。此方法在影像到影片轉換領域具有廣泛的應用前景,能夠為影片創作、媒體傳播等領域帶來更多可能性。這項研究結果的發布對於推動影像和視訊技術的發展具有重要意義,為相關領域的研究者提供了一種有效的工具和方法。
- #論文網址:https://arxiv.org/pdf/2312.16693 .pdf
- 專案首頁:https://i2v-adapter.github.io/index.html
- 程式碼位址:https://github.com/I2V-Adapter/I2V-Adapter-repo
相對於現有方法而言,I2V-Adapter在可訓練參數方面取得了巨大的改進,其參數數量最低可達到22M,僅為主流方案Stable Video Diffusion的1%。同時,此適配器也具備與Stable Diffusion社群開發的客製化T2I模型(如DreamBooth、Lora)和控制工具(如ControlNet)的兼容性。透過實驗,研究者證明了I2V-Adapter在產生高品質視訊內容方面的有效性,為I2V領域的創意應用開啟了新的可能性。
方法介紹
Temporal modeling with Stable Diffusion
相較於影像生成,影片生成面臨獨特的挑戰,即建模視訊影格之間的時序連貫性。目前大多數的方法都是基於預先訓練的T2I模型,例如Stable Diffusion和SDXL,透過引入時序模組對影片中的時序資訊進行建模。受到AnimateDiff的啟發,這是一個最初設計用於定制T2V任務的模型,它通過引入與T2I模型解耦的時序模組來建模時序信息,並保留了原始T2I模型的能力,能夠生成流暢的視頻。因此,研究者認為預先訓練的時序模組可以被視為通用的時序表徵,並可以應用於其他視訊生成場景,如I2V生成,而無需進行任何微調。因此,研究者直接使用預先訓練的AnimateDiff時序模組,並保持其參數固定。
Adapter for attention layers
#I2V任務中的另一個挑戰是保持輸入影像的ID資訊。目前的解決方案主要有兩種:一種是使用預先訓練的影像編碼器對輸入影像進行編碼,並透過交叉關注機制將編碼後的特徵注入到模型中以指導去噪過程;另一種是將影像與有雜訊的輸入在通道維度上進行拼接,然後一起輸入到後續的網路中。然而,前一種方法由於影像編碼器難以捕捉底層訊息,可能導致產生的視訊ID發生變化;而後一種方法往往需要改變T2I模型的結構和參數,訓練代價高且相容性較差。
為了解決上述問題,研究者提出了 I2V-Adapter。具體來說,研究者將輸入圖像與noised input 並行輸入給網絡,在模型的spatial block 中,所有幀都會額外查詢一次首幀信息,即key,value 特徵都來自於不加噪的首幀,輸出結果與原始模型的self attention 相加。此模組中的輸出映射矩陣使用零初始化並且只訓練輸出映射矩陣與 query 映射矩陣。為了進一步加強模型對輸入影像語意資訊的理解,研究者引入了預先訓練的 content adapter(本文使用的是 IP-Adapter [8])注入影像的語意特徵。
Frame Similarity Prior
#為了進一步增強產生結果的穩定性,研究者提出了幀間相似性先驗,用於在生成影片的穩定性和運動強度之間取得平衡。其關鍵假設是,在相對較低的高斯雜訊水準上,具有雜訊的第一幀和帶雜訊的後續幀足夠接近,如下圖所示:
於是,研究者假設所有幀結構相似,並在加入一定量的高斯雜訊後變得難以區分,因此可以把加噪後的輸入影像作為後續影格的先驗輸入。為了排除高頻資訊的誤導,研究者還使用了高斯模糊算子和隨機遮罩混合。具體來說,運算由下式給出:
#實驗結果
定量結果
本文計算了四種定量指標分別是DoverVQA (美學評分)、CLIPTemp (首幀一致性)、FlowScore (運動幅度) 以及WarppingError (運動誤差)用於評價生成影片的品質。表 1 顯示 I2V-Adapter 得到了最高的美學評分,在首幀一致性上也超過了所有對比方案。此外,I2V-Adapter 產生的影片有著最大的運動幅度,並且相對較低的運動誤差,表明此模型的能夠產生更動態的影片並且同時保持時序運動的準確性。
定性結果
#Image Animation(左為輸入,右為輸出):
w/ Personalized T2Is(左為輸入,右為輸出):
##w/ ControlNet(左為輸入,右為輸出):
總結
本文提出了 I2V-Adapter,一個即插即用的輕量級模組,用於圖像到視訊生成任務。此方法保留原始T2V 模型的spatial block 與motion block 結構與參數固定,並行輸入不加噪的第一幀與加噪的後續幀,透過注意力機制允許所有幀與無雜訊的第一幀交互,從而產生時序連貫且與首格一致的影片。研究者透過定量與定性實驗證明了該方法在 I2V 任務上的有效性。此外,其解耦設計使得該方案能夠直接結合 DreamBooth、Lora 與 ControlNet 等模組,證明了該方案的兼容性,也促進了定制與可控圖像到視頻生成的研究。
以上是SD社群的I2V-Adapter:無需配置,即插即用,完美相容於圖生視訊插件的詳細內容。更多資訊請關注PHP中文網其他相關文章!

近年来,多模态学习受到重视,特别是文本 - 图像合成和图像 - 文本对比学习两个方向。一些 AI 模型因在创意图像生成、编辑方面的应用引起了公众的广泛关注,例如 OpenAI 先后推出的文本图像模型 DALL・E 和 DALL-E 2,以及英伟达的 GauGAN 和 GauGAN2。谷歌也不甘落后,在 5 月底发布了自己的文本到图像模型 Imagen,看起来进一步拓展了字幕条件(caption-conditional)图像生成的边界。仅仅给出一个场景的描述,Imagen 就能生成高质量、高分辨率

今天的主角,是一对AI界相爱相杀的老冤家:Yann LeCun和Gary Marcus在正式讲述这一次的「新仇」之前,我们先来回顾一下,两位大神的「旧恨」。LeCun与Marcus之争Facebook首席人工智能科学家和纽约大学教授,2018年图灵奖(Turing Award)得主杨立昆(Yann LeCun)在NOEMA杂志发表文章,回应此前Gary Marcus对AI与深度学习的评论。此前,Marcus在杂志Nautilus中发文,称深度学习已经「无法前进」Marcus此人,属于是看热闹的不

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

日前,美国西北大学工程师开发出有史以来最小的遥控步行机器人,它以一种小巧可爱的螃蟹形式出现。这种微小的“螃蟹”机器人宽度只有半毫米,可以弯曲、扭曲、爬行、行走、转弯甚至跳跃,无需液压或电力。IT之家了解到,相关研究成果发表在《科学・机器人》上。据介绍,这种机器人是用形状记忆合金材料所制造的,然后可以变成所需的形状,当你加热后又会变回原来的形状,而热量消失时可以再次弹回变形时的样子。据介绍,其热量是由激光所带来的。激光通过“螃蟹”加热合金,但因为它们非常小,所以热量传播非常快,这使得它们的响应速度

近几年,自我博弈中的强化学习已经在围棋、国际象棋等一系列游戏中取得了超人的表现。此外,自我博弈的理想化版本还收敛于纳什均衡。纳什均衡在博弈论中非常著名,该理论是由博弈论创始人,诺贝尔奖获得者约翰 · 纳什提出,即在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。之前就有研究表明,自我博弈中看似有效的连续控制策略也可以被对抗策略利用,这表明

由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力」的属性被称作「突现」能力,代表我们向通用人工智能迈进了一大步。如今,来自谷歌、斯坦福、Deepmind和北卡罗来纳大学的研究人员,正在探索大型语言模型中的「突现」能力。解码器提示的 DALL-E神奇的「突现」能力自然语言处理(NLP)已经被基于大量文本数据训练的语言模型彻底改变。扩大语言模型的规模通常会提高一系列下游N

分子是维持物质化学稳定性的最小单位。对分子的研究,是药学、材料学、生物学、化学等众多科学领域的基础性问题。分子的表征学习(MolecularRepresentationLearning)是近年来非常热门的方向,目前可分为诸多门派:计算药学家说:分子可以表示为一串指纹,或者描述符,如上海药物所提出的AttentiveFP,是这方面的杰出代表。NLPer说:分子可以表示为SMILES(序列),然后当作自然语言处理,如百度的X-Mol,是这方面的杰出代表。图神经网络研究者说:分子可以表示为一个图(G

ChatGPT发布后,「用语言模型辅助论文写作」到底算作弊剽窃,还是合理使用写作工具,目前各高校、论文会议中仍然没有统一标准,甚至不同的科研人员对ChatGPT都持有不同的态度。有人认为ChatGPT可以提高写作质量,让非英语母语者减少语法错误等;但也有人认为生成的文字并不属于作者,违反学术道德。最近,康奈尔大学的副教授AlexanderRush在参加ICLR2023期间,在会议交流时采访了多位参会人员对「用LLM写论文」的态度。从结果来看,支持与反对占比基本五五开,并且支持和反对的程度相差无几


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

Dreamweaver CS6
視覺化網頁開發工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器