搜尋
首頁科技週邊人工智慧華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

近兩年來,隨著大規模圖文資料集如LAION-5B的開放,圖片生成領域湧現出了一系列效果驚人的方法,如Stable Diffusion、DALL-E 2、ControlNet和Composer 。這些方法的出現使得圖片生成領域取得了巨大的突破和進展。圖片生成領域可謂在過去短短兩年內取得了快速發展。

然而,影片產生仍然面臨著巨大的挑戰。首先,與圖片生成相比,影片生成需要處理更高維度的數據,並且需要考慮到額外的時間維度,這帶來了時序建模的問題。為了驅動時序動態的學習,我們需要更多的視訊-文字對資料。然而,對影片進行準確的時序標註非常昂貴,這限制了視訊-文字資料集的規模。目前,現有的WebVid10M影片資料集僅包含10.7M個影片-文字對,與LAION-5B圖片資料集相比,資料規模相差甚遠。這嚴重限制了視訊生成模型規模化擴展的可能性。

為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯合研究團隊於近期發布了TF-T2V 視訊方案:

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!


#論文網址:https://arxiv.org/abs/2312.15770

項目首頁:https://tf-t2v.github.io/

即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案) 。

該方案另闢蹊徑,提出了基於大規模無文字標註視訊資料進行視訊生成,能夠學習豐富的運動動態。

先來看看TF-T2V 的影片產生效果:

文生影片任務

提示詞:產生在冰雪覆蓋的土地上有一隻冰霜般的大生物的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示字:產生一隻卡通蜜蜂的動畫影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示:產生包含一輛未來幻想摩托車的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示詞:產生一個小男孩快樂微笑的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示字:產生一個老人覺得頭痛的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

#組合式影片產生任務

給定文字與深度圖或文字與素描草圖,TF-T2V 能夠進行可控的視訊生成:

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

也可以進行高解析度視訊合成:

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!


華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

#

半監督設定

在半監督設定下的TF-T2V 方法還可以產生符合運動文本描述的視頻,如「人從右往左跑」。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

方法簡介

TF-T2V 的核心思想是將模型分為運動分支和表觀分支,運動分支用於建模運動動態,表觀分支用於學習視覺表觀資訊。這兩個分支進行聯合訓練,最終可以實現透過文字驅動視訊生成。

為了提升產生影片的時序一致性,作者團隊也提出了時序一致性損失,並明確地學習影片影格之間的連續性。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

值得一提的是,TF-T2V 是一種通用的框架,不僅適用於文生視訊任務,還能應用於組合式影片產生任務,如sketch-to-video、video inpainting、first frame-to-video 等。

具體細節和更多實驗結果可以參考原論文或專案首頁。

此外,作者團隊也將TF-T2V 作為教師模型,利用一致性蒸餾技術得到了VideoLCM 模型: 

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

##論文網址:https://arxiv.org/abs/2312.09109

專案首頁:https://tf-t2v.github.io/

即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案)。

不同於先前視訊產生方法需要大約50 步DDIM 去噪步驟,基於TF-T2V 的VideoLCM 方法可以只需要進行大約4 步推理去噪就產生高保真的視頻,大大提升了視訊生成的效率。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

一起來看看VideoLCM 進行4 步驟去雜訊推理的結果:華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

##具體細節和更多實驗結果可以參考VideoLCM 原始論文或專案首頁。

#########總而言之,TF-T2V 方案為影片生成領域帶來了新思路,克服了資料集規模和標註難題帶來的挑戰。利用大規模的無文字標註視頻數據,TF-T2V 能夠產生高品質的視頻,並應用於多種視訊生成任務。這項創新將推動視訊生成技術的發展,為各行各業帶來更廣闊的應用場景和商業機會。 ######

以上是華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
解读CRISP-ML(Q):机器学习生命周期流程解读CRISP-ML(Q):机器学习生命周期流程Apr 08, 2023 pm 01:21 PM

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

人工智能的环境成本和承诺人工智能的环境成本和承诺Apr 08, 2023 pm 04:31 PM

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键,要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注,掩盖了人工智能可能加剧环境退化的方式,通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术,同时承认其大量消耗能源,引领人工智能潮流的科技公司需要探索人工智能对环境影响的

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用什么呈现数据条形统计图用什么呈现数据Jan 20, 2021 pm 03:31 PM

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按一定的顺序排列起来;从条形统计图中很容易看出各种数量的多少。条形统计图分为:单式条形统计图和复式条形统计图,前者只表示1个项目的数据,后者可以同时表示多个项目的数据。

自动驾驶车道线检测分类的虚拟-真实域适应方法自动驾驶车道线检测分类的虚拟-真实域适应方法Apr 08, 2023 pm 02:31 PM

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“,2022年5月,加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集,但光照真实模拟环境生成的合成数据推动的无监督域适应(UDA,Unsupervised Domain Adaptation)方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成(adversarial d

数据通信中的信道传输速率单位是bps,它表示什么数据通信中的信道传输速率单位是bps,它表示什么Jan 18, 2021 pm 02:58 PM

数据通信中的信道传输速率单位是bps,它表示“位/秒”或“比特/秒”,即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数,也称“比特率”。比特率表示单位时间内传送比特的数目,用于衡量数字信息的传送速度;根据每帧图像存储时所占的比特数和传输比特率,可以计算数字图像信息传输的速度。

数据分析方法有哪几种数据分析方法有哪几种Dec 15, 2020 am 09:48 AM

数据分析方法有4种,分别是:1、趋势分析,趋势分析一般用于核心指标的长期跟踪;2、象限分析,可依据数据的不同,将各个比较主体划分到四个象限中;3、对比分析,分为横向对比和纵向对比;4、交叉分析,主要作用就是从多个维度细分数据。

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元Apr 09, 2023 am 10:31 AM

2021年10月,Jeff Dean亲自撰文介绍了一个全新的机器学习架构——Pathways。目的很简单,就是让一个AI能够跨越数以万计的的任务,理解不同类型的数据,并同时以极高的效率实现:在大半年之后的2022年3月,Jeff Dean终于发布了Pathways的论文。论文连接:https://arxiv.org/abs/2203.12533其中,补充了不少技术上的细节,比如最基本的系统架构等等。2022年4月,谷歌用Pathways的PaLM语言模型横空出世,接连打破多项自然语言处理任务的S

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境