我們選擇動畫模型,直接輸入提示詞即可輸出動畫風格影片。 說實話,這畫風有宮崎駿老爺的味道。 Vidu 讀懂了提示詞,小女孩切菜動作一氣呵成,就是手指和刀具在不經意間仍有變形。
提示詞:動畫風格,一個戴著耳機的小女孩在跳舞。
Vidu 的想像力還挺豐富,自個兒把背景設定為有噴泉的公園,這也讓影片畫面不那麼單調。
當然,我們還可以上傳一張動漫參考圖片,再輸入提示詞,如此一來,圖片中的動漫人物就能動起來啦。
例如,我們上傳一張蠟筆小新的靜態圖,然後輸入提示詞:蠟筆小新大笑著舉起手裡的小花。圖片用途選擇「用作起始影格」。 我們來瞅瞅效果:再上傳一張呆萌皮卡丘的圖像,輸入提示詞為「皮卡丘開心地蹦起來」。圖片用途選擇「用作起始影格」。
繼續上效果:上傳《海賊王》路飛的圖像,再餵它提示詞:男孩突然哭起來。
效果如下:不得不說, Vidu 的動畫效果相當驚艷,在保持風格一致性的同時,顯著提高了畫面的穩定性和流暢性,沒有出現變形、崩壞或六指狂魔、左右腿不分等「邪門」畫面。 在「圖生視頻」板塊中,除了支援首幀圖上傳,Vidu 這次還上新一項功能- 角色一致性(Charactor To Video)。 所謂角色一致性,就是上傳一個角色圖像,然後可以指定該角色在任意場景中做出任意動作。
提示詞:在一艘宇宙飛船裡,吳京正穿著太空服,對鏡頭揮手。
如果說,首幀圖上傳適合創作場景一致性的視頻,那麼,有了角色一致性功能,從科幻角色到現代劇,演員七十二變,信手拈來。 此外,有了角色一致性功能,一般使用者創作「梗圖」、「表情包」可以燥起來了! 例如讓北美「意難忘」賈斯汀・比伯和賽琳娜再續前緣:
《武林外傳》中佟湘玉和白展堂嗑著瓜子,聊著同福客棧的八卦:
還有《甄嬛傳》皇后只要腦洞夠大,什麼地鐵老人吃手機、鰲拜和韋小寶打啵、容嬤餵紫薇吃雞腿,Vidu 都能整出來。 影片產生過程中,使用者最煩啥?當然是龜速爬行的進度條。 試想,為了一段幾秒的視頻,愣是趴在電腦前等個十分鐘,再慢性子的人也很難不破防。 目前,市面上主流 AI 視訊工具會產生一段約 4 秒的影片片段,通常需要 1 到 5 分鐘,甚至更長。 例如,Runway 最新推出的Gen-3 工具需要1 分鐘來完成5s 視訊生成,可靈需要2-3 分鐘,而Vidu 將這一等待時間縮短至30 秒,速度比業界最快水準的Gen-3 還要再快一倍。
「 Vidu」底層則是基於完全自研的U-ViT 架構,由團隊在2022 年9 月提出,早於Sora 採用的DiT 架構,是全球首個Diffusion 和Transformer 融合的架構。
在DiT 論文發布兩個月前,清華大學的朱軍團隊提交了一篇論文—《All are Worth Words: A ViT Backbone for Diffusion Models》。這篇論文提出了以 Transformer 取代基於 CNN 的 U-Net 的網路架構 U-ViT。這是「Vidu」最重要的技術基礎。
由於不涉及中間的插幀和拼接等多步驟的處理,文本到視頻的轉換是直接且連續的,“Vidu” 的作品感官上更加一鏡到底,視頻從頭到尾連續生成,沒有插幀痕跡。除了底層架構上的創新,「Vidu」也復用了生數科技過往累積下的工程化經驗與能力。 生數科技曾稱,從圖任務的統一到融合視頻能力,“Vidu”可被視為一款通用視覺模型,能夠支持生成更加多樣化、較長時長的影片內容。他們也透露,「Vidu」還在加速迭代提升。面向未來,「Vidu」靈活的模型架構也將能夠相容於更廣泛的多模態能力。 生數科技成立於2023 年3 月,核心成員來自清華大學人工智慧研究院,致力於自主研發世界領先的可控多模態通用大模型。自 2023 年成立以來,團隊已獲得螞蟻集團、啟明創投、BV 百度創投、位元組錦秋基金等多家知名產業機構的認可,完成數億元融資。據悉,生數科技是目前國內在多模態大模型賽道估值最高的創業團隊。 公司首席科學家由清華人工智慧研究院副院長朱軍擔任;CEO 唐家渝本碩就讀於清華大學計算機系,是THUNLP 組成員;CTO 鮑凡是清華大學計算機系博士生、朱軍教授的課題組成員,長期關注擴散模型領域研究,U-ViT 和UniDiffuser 兩項工作均是由他主導完成的。 今年 1 月,生數科技旗下視覺創意設計平台 PixWeaver 上線了短視頻生成功能,支援 4 秒高美學性的短視頻內容。 2 月Sora 推出後,生數科技內部成立攻堅小組,加快了原本視頻方向的研發進度,不到一個月的時間,內部就實現了8 秒的視頻生成,緊接著4 月份就突破了16 秒生成,生成品質與時長全方面取得突破。 如果說4 月份的模型發布展示了Vidu 在視頻生成能力上的領先,這次正式發布的產品則展示了Vidu 在商業化方面的精心佈局。生數科技目前採取模型層和應用層兩條路走路的模式。 一方面,建構覆蓋文字、影像、影片、3D 模型等多模態能力的底層通用大模型,面向 B 端提供模型服務能力。 另一方面,以影像產生、影片產生等場景打造垂類應用,依照訂閱等形式收費,應用方向主要是遊戲製作、影視後製等內容創作場景。
參考連結: