什麼?瘋狂動物城被國產AI搬進現實了?
與影片一同曝光的,是名為「可靈」全新國產影片生成大模型。
Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。
數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。
另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的 #產品級應用。
而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影APP 中正式開啟邀測。
話不多說,接下來就帶大家欣賞一下可靈的大作~
相信透過開頭的視頻,大家已經感受到了可靈豐富的想像力。
可靈不但在想上天馬行空,在描繪運動時又能做到符合真實的運動規律,複雜、大幅度的時空運動也能準確刻畫。
例如這隻在公路上高速奔跑的老虎,不僅畫面連貫,隨鏡頭角度的變化合理,老虎四肢的動作協調,而且還把奔跑過程中軀幹部分的抖動也展現得淋漓盡致。
還有太空人在月球上奔跑的畫面,動作流暢,步態和影子的運動合理恰當,太絕了。
除了運動,可靈大模型還能模擬真實物理世界特性,產生的影片更符合物理法則。
在這段倒牛奶的影片中,力學方面的重力規律、液面的上升都符合現實,連倒液體時泡沫一直在最上層的特性也考慮到了:
還有光學上的#反射規律也考慮到了,注意看這只彈鋼琴的貓貓,光滑表面上影子裡的貓爪和琴鍵,都在隨著本體同步變化。
另外,與真實物理世界的互動,也能被真實反映-下面影片中小男孩吃漢堡的生成影片中,一口咬下去,齒印一直都在,小男孩享受吃漢堡的享受過程宛如就在眼前。
要知道,符合物理法則對於大模型來說還是相當困難的事,連Sora也不能完全做好。
例如同樣是吃漢堡這個場景,Sora生成的影片不僅有人手只有三根手指這樣的槽點,咬合位置與漢堡上的咬痕也並不匹配…
#不只是真實世界中的物理規律和運動,對於想像力的場景,可靈也是信手拈來。
例如這隻戴著眼鏡的兔子邊喝咖啡,邊看報紙,悠閒自得。
同時,可靈對細節的刻畫也很到位,例如兩朵緩慢綻放的花,可以看到花瓣和花蕊的細節。
而且,可靈不僅產生的影片更真實,產生的影片解析度高達1080p,長度高達2分鐘(幀率30fps),且 #支持自由的寬高比。
其中也包括豎版視頻,可以說是和快手的短視頻生態相當匹配了。
畫面中,一列火車向前方行駛,窗外的風景走過了春夏秋冬四季,整個兩分多鐘的畫面都十分連貫。
到這裡,相信效果展示得已經夠多了,如果還意猶未盡的話,可以前往可靈官網平台(傳送門見文末) ,看更多神奇的AI影片吧!
(註:本文中的影片有壓縮,高清及最新效果以官方網頁為準)
那麼在可靈的這些影片背後,都運用了哪些獨特的技術呢?
整體上,可靈大模型的採用了原生的文生視訊技術路線,取代了影像生成+時序模組的組合,這也是可靈生成時間長、幀率高,能精確處理複雜運動的核心奧義。
具體來看,快手大模型團隊認為,優秀的影片產生模型,需要考慮四大核心要素-模型設計、資料保障、運算效率,以及模型能力的擴展。
先從模型的設計說起,這當中主要應考慮兩方面的因素,一是足夠強的擬合能力,二是足夠的參數容量。
架構的選擇面,可靈整體框架採用了類別Sora的DiT結構,用Transformer取代了傳統擴散模型中基於卷積網路的U- Net。
Transformer的處理能力和生成能力更強大,擴展能力更強、收斂效率更好,解決了U-Net在處理複雜任務時冗餘過大、感受野和定位精度不可兼得的局限。
在此基礎之上,快手大模型團隊也對模型中的隱空間編/解碼、時序建模等模組進行了升維。
目前,在隱空間編/解碼上,主流的視訊生成模型通常沿用Stable Diffusion的2D VAE進行空間壓縮,但這對於視訊而言存在明顯的資訊冗餘。
因此,快手大模型團隊自研了3D VAE網路,實現時空同步壓縮,獲得了較高的重建質量,在訓練性能和效果取得了最佳平衡。
另外在時序資訊建模上,快手大模型團隊設計了一款計算高效的全注意力機制(3D Attention)作為時空建模模組。
此方法可以更精確地建模複雜時空運動,同時還能兼顧具運算成本,有效提升了模型的建模能力。
當然,除了模型本身的能力,使用者輸入的文字提示詞也對最終生成的效果有著重要影響。
為此,團隊特別設計了專用的語言模型,可以對使用者輸入的提示詞進行高品質擴充及最佳化。
說完了模型的設計,資料對於模型的表現同樣至關重要。
事實上,訓練資料的規模和品質不足,也正是許多影片生成模型研發者所面臨的棘手問題。
網路影片普遍品質低、難以滿足訓練需求。快手大模型團隊建構了較為完整的標籤體系,可以精細化的篩選訓練數據,或對訓練數據的分佈進行調整。
該體系從視訊基礎品質、美學、自然度等多個維度對視訊資料品質進行刻畫,並針對每個維度設計多種客製化的標籤特徵。
在训练视频生成模型时,需要同时把视频及对应文本描述喂给模型。视频本身质量也有了保证,其对应文本描述,应该如何获得?
开发团队专门研发了视频描述模型,可以生成精确、详尽、结构化的视频描述。显著提升视频生成模型的文本指令响应能力。
模型和数据都有了,运算效率也要跟得上,如此才能在有限的时间内完成海量规模数据训练,看到显著的效果。
为了获得更高的运算效率,可灵大模型并没有采用当前行业主流的DDPM方案,而是使用了传输路径更短的flow模型作为扩散模型基座。
从另一层面上看,算力的不足也是不少AI从业者面临的难题,即使像OpenAI这样的大模型巨头,所拥有的算力资源同样紧缺。
这一问题在短时间内可能无法彻底解决,但可以做的是,在总体硬件资源有限的条件下,尽可能地提高算力的运用效率。
快手大模型团队便使用了分布式训练集群,并通过算子优化、重算策略优化等手段,大幅提升了可灵大模型的硬件利用率。
在训练过程当中,可灵也没有选择一步到位,而是采取分阶段训练策略来逐步提升分辨率:
在初期的低分辨率阶段,主要是以数量取胜,通过大量数据增强模型对概念多样性的理解和建模能力;
在随后的高分辨率阶段,数据的质量开始变成更重要的考量因素,目的是进一步提高模型性能,并加强在细节上的表现。
采取这样的策略,有效结合了量与质的优势,确保了模型在训练的各个阶段均能得到优化提升。
在基础模型的研发工作之上,快手大模型团队也从长宽比等多个维度上对其能力进行了扩展。
在长宽比上,可灵同样没有采用主流模型在固定分辨率上进行训练的方式。
因为传统方法在面对长宽比多变的真实数据时,通常会引入前处理逻辑,破坏了原始数据的构图,导致生成结果构图较差。
相比之下,快手大模型团队的方案可以使模型直接处理不同长宽比的数据,保留原始数据的构图。
为了应对未来数分钟甚至更长的视频生成需求,团队也研发了基于自回归的视频时序拓展方案,且不会出现明显的效果退化。
除了文本输入外,可灵还支持多种控制信息输入,如相机运镜、帧率、边缘/关键点/深度等,为用户提供了丰富的内容控制能力。
大模型行业“卷”到今天,我们见证了太多技术的高光时刻,但技术突破的初心仍然还是应用。
快手可灵视频生成模型,诞生于短视频头部厂商,也持续面向应用在探索。非常值得一提的是,可灵大模型是发布即上线,不画饼!不画饼!不画饼!
可灵的文生视频模型,已在快影APP中正式开启邀测,目前开放的版本支持720P视频生成,竖版视频生成能力也即将开放。
除了文生视频,快手还基于可灵大模型推出了其他应用,如“AI舞王”已在快手和快影APP中上线。
无论是科目三还是二人转,只要上传一张全身照,都能分分钟让人物跟着音乐优雅地跳动,甚至兵马俑也能跳起最炫民族风。
除了视频生成模块,快手大模型团队还向其中加入了自研3D人脸重建技术,以及背景稳定性和重定向模块,更生动地展现表情和运动效果。
而且,更新一些的“AI唱跳”技术也迎来了首发,在跳舞的同时,也能让人物张嘴唱歌了。
順便再做個劇透,基於可靈大模型的圖生影片功能,也將於近期與用戶見面。
實際上,身為頭部視訊廠商,快手在大模型熱潮之中也動作迅速,此前就曾相繼推出語言模型和文生圖模型。
基於這些模型,AI文案、AI生圖,AI生視頻,以及更多AI創作功能,都已相繼在快手和快影APP中上線。
在影片產生上,快手也曾與多個大學或研究機構聯手,陸續發布可控運動的影片生成演算法Direct-a-Video、多模態生成演算法Video-LaVIT、圖生視訊演算法I2V-Adapter、多模態美學評估模型UNIAA等關鍵技術,為可靈大模型累積了深厚的技術沉澱。
現在,快手完整的文生視訊功能終於華麗登場,我們期待快手作為一家擁有獨特場景優勢和廣泛應用場景的短視頻賽道巨頭,能夠率先把視頻生成能力在短視頻場景中落地生花。
如果你對AI影片創作有興趣,不妨到快影APP中一探究竟。
傳送門:https://www.php.cn/link/1e4dc58a5c8c8908a4d317d6ef44a4d0
以上是快手版Sora「可靈」開放測試:生成超120s視頻,更懂物理,複雜運動也能精準建模的詳細內容。更多資訊請關注PHP中文網其他相關文章!