搜尋
首頁科技週邊人工智慧14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

Meta的視訊合成新框架為我們帶來了一些驚喜


就今天的人工智慧發展水平來說,文生圖、圖生影片、影像/影片風格遷移都已經不算什麼難事。

生成式 AI 天賦異禀,能夠毫不費力地創建或修改內容。尤其是圖像編輯,在以十億規模數據集為基礎預訓練的文本到圖像擴散模型的推動下,經歷了重大發展。這股浪潮催生了大量圖像編輯和內容創建應用。

基於圖像的生成模型所取得的成就基礎上,下一個挑戰的領域必然是為其增加“時間維度”,從而實現輕鬆而富有創意的視頻編輯。

一種直接策略是使用圖像模型逐幀處理視頻,然而,生成式圖像編輯本身俱有高變異性—即使根據相同的文字提示,也存在無數種編輯給定圖像的方法。如果每一幀都獨立編輯,​​很難保持時間上的一致性。

在最近的一篇論文中,來自Meta GenAI團隊的研究者提出了Fairy——透過對圖像編輯擴散模型進行「簡單的改編」,大大增強了AI在影片編輯上的表現。

以下是Fairy的編輯影片效果展示:

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

Fairy 產生120 幀512×384 影片(4 秒時長,30 FPS)的時間僅14 秒,比之前的方法至少快44 倍。一項涉及 1000 個生成樣本的全面用戶研究證實,該方法生成質量上乘,明顯優於現有方法。

怎麼做到的?

根據論文介紹,Fairy以基於錨點的跨幀注意力概念為核心,這種機制可隱性地跨幀傳播擴散特徵,確保了時間一致和高保真的合成效果。 Fairy 不僅解決了以往模型在記憶體和處理速度等方面的局限性,還透過獨特的資料增強策略提高了時間一致性,這種策略使模型等價於來源影像和目標影像的仿射變換。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

  • 論文網址:https://arxiv.org/pdf/2312.13834.pdf
  • #專案首頁:https://fairy-video2video.github.io/

方法

Fairy在擴散模型特徵的背景下對先前的追蹤-傳播(tracking-and-propagation)範式進行了重新審視。特別是,該研究用對應估計( correspondence estimation)架起了跨幀注意之間的橋樑,使得模型在擴散模型內可以追蹤和傳播中間特徵。

跨幀的注意力圖可以解釋為一種相似性度量,用來評估各個幀中token之間的對應關係,其中一個語義區域的特徵會將更高的注意力分配給其他幀中的相似語義區域,如下圖3所示。

因此,目前的特徵表示透過注意力幀間相似區域的加權和進行細化和傳播,從而有效地最小化幀之間的特徵差異。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

一系列操作下來產生了基於錨點的模型,這是 Fairy 的核心組件。

為了確保生成影片的時間一致性,該研究採樣了K個錨點幀,從而提取擴散特徵,並且提取的特徵被定義為一組要傳播到連續幀的全局特徵。當產生每個新幀時,該研究針對錨點幀的快取特徵將自註意力層替換為跨幀注意力。透過跨幀注意力,每個幀中的 token都採用錨點幀中表現出類似語義內容的特徵,從而增強一致性。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

實驗評估

#在實驗部分,研究者主要基於指令型影像編輯模型來實現Fairy,並使用跨幀注意力替換模型的自註意力。他們將錨定幀的數量設定為3。模型可以接受不同長寬比的輸入,並將較長尺寸的輸入解析度重新擴展為512,並保持長寬比不變。研究者對輸入影片的所有畫面進行編輯,而不進行下採樣。所有計算在8塊A100 GPU上分配完成。

定性評估

#研究者首先展示了Fairy的定性結果,如下圖5所示,Fairy可以對不同的主題進行編輯。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

在下圖6中,研究者展示了Fairy可以依照文字指令來進行不同類型的編輯,包括風格化、角色變化、局部編輯、屬性編輯等。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

下圖9展示了Fairy可以根據指令將來源角色轉換為不同的目標角色。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

量化評估

研究者在下圖7中展示了整體品質比較結果,其中Fairy產生的影片更受歡迎。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

下圖10展示了與基準模型的視覺比較結果。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

更多技術細節和實驗結果參考原論文。

以上是14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了Oct 07, 2023 pm 06:17 PM

自己动手做过莫比乌斯带吗?莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单,即使是小孩子也可以轻松完成。你只需要取一张纸带,扭曲一次,然后将两端粘在一起。然而,这样容易制作的莫比乌斯带却有着复杂的性质,长期吸引着数学家们的兴趣。最近,研究人员一直被一个看似简单的问题困扰着,那就是关于制作莫比乌斯带所需纸带的最短长度?布朗大学RichardEvanSchwartz谈到,对于莫比乌斯带来说,这个问题没有解决,因为它们是「嵌入的」而不是「浸入的」,这意味着它们不会相互渗透或自我

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版