首頁  >  文章  >  科技週邊  >  快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

王林
王林原創
2024-06-21 01:13:40586瀏覽
短短一年後,AI 生成的「吃麵」已經如此自然流暢?這讓全球網友都感受到了億點震撼。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                            個人資料
右側的這些生成視頻,都來自快手剛剛推出的文生視頻大模型“可靈」(Kling)。

不是預發布、不是純 Demo 合集,而是直接開放測試的產品級應用,人人都能申請。而且,可靈支持生成最長 2 分鐘、30fps 的 1080P 視頻,主打從頭腦風暴到可發布作品的“一鍵轉化”。 (官方網址:https://kling.kuaishou.com/)

最早一批用上的使用者已經「真香」:

 圖源:https://x.com/ op7418/status/1799047146089619589

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

     .com/7714861068/Oig1Qm8Or?refer_flag=1001030103_

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

500 人上限的交流群,很快就滿員了,滿屏都是tql:

還沒用上的外國友人只能幹著急,在社群媒體上發「求求了」:

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

不誇張地說,可靈現在是「一誇張地說,可靈現在是「一誇張號難求」:
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
消息傳到矽谷創投圈,更是引發了一場熱議。 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
Stability AI 前CEO Emad Mostaque 表示:「中國的AI 技術有自己的優點。」

   
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
 ostaque/status/1799133463003684918

YC CEO 也在X 平台轉發了可靈生成的Demo:
就圖中這個「吃漢堡」的案例而言,在相同的提示詞下,可靈的生成效果確實比Sora 更生動、真實:快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

Prompt:Une personne tapant son meilleur croc dans son hamburger

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

🎜🎜🎜
                    視訊位址:https://x.com/AngryTomtweets/status/1799787209651859910幾天一定陸陸續續看過很多可靈生成的作品了。本站也是第一時間就點進了申請頻道,並拿到了試用資格。

接下來,我們不妨一邊試用、一邊分析可靈爆火的原因。

國內首個文生視頻產品級應用

或許你還記得這個曾經非常火爆的「氣球人」影片。三位創作者花費近兩週時間,使用 Sora 製作了這本 1 分 21 秒的影片短片,讓人感到十分驚艷。不過,負責後製的 Patrick Cederberg 坦白了過程中的許多問題,例如氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等。
                             Sora 產生中中。完整影片地址:https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh

對於先前的影片產生模型來說,「一氣呵成」產生1 分鐘以上的內容確實有難度,特別要求畫面中的各種元素保持前後一致。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛公開了自己用可靈製作的“氣球人”視頻,並表示自己僅用了“幾十分鐘”,就做出了連續性、真實度、清晰度都很優秀的短片。 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
在內測的過程中,我們還發現了一個專業創作者社區自發建立的教程與 Demo 文檔,包含了上百個可靈生成的作品,還提供了測試維度的指導。

有興趣的讀者請戳:https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

的,你看得出來嗎? 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求在創作者@AIGC 十三的作品《瘋狂動物城賽車大賽》中,這20 秒包含了疾速行駛的賽車(大幅度運動)、動物駕駛車輛(考驗想像力的概念組合)等生成困難快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求還有一個很有趣的案例是@八級技工創作的《假期開啟方式》,這段56 秒的短頻共花了3 小時製作,包含23 個鏡頭。然後在可靈的生成結果之上加上配音,詼諧的感覺馬上就有了:
                  /  

看完這些,我們應該已經意識到,可靈所代表的視訊生成技術的影響力,遠遠超出了單純的創作。在不同的研究領域和產業賽道,這項技術的落地正在加速,為從自動內容生成到複雜決策過程的各種任務提供了變革潛力。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
哪些產業最早被改變?
傳統的遊戲開發通常受到預先渲染的環境和腳本事件的限制。一旦將影片生成模型整合到遊戲領域,遊戲的開發、玩耍和體驗方式都將得到創新,為講故事、互動和沈浸式體驗帶來新的可能性。對於遊戲開發者來說,最直觀的一種玩法是,根據使用者敘述產生自訂的視覺效果甚至角色動作。
在下方的demo 中,我們可以看到,使用者能夠藉助可靈創造出無與倫比的身臨其境體驗:

 https://x.com/dustinhollywood /status/1800056286215553444

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                           

另外一個將被顛覆的產業就是影視製作。傳統的電影製作是一個艱鉅而昂貴的過程,往往需要數年的努力、大量的設備和資金投入。視訊生成技術的出現預示著電影製作進入了一個新的「民主化時代」,從簡單的文字輸入中自主生成個人影視作品的夢想正在成為現實。

現在,我們用可靈生成的是 5 秒的單鏡頭片段,伴隨著技術的不斷演進,用戶單次能夠生成的視頻時長也會增加。比如說,我們未來或許能夠一次生成更長的影片內容,保持故事場景的連貫性和觀賞性。其中的運鏡手法也許會更高級,例如連貫的長鏡頭。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                              /status/1800007000849629674

下面這段剪影作品再次印證了一點:AI 對藝術的理解力與美學水準,絲毫不遜於人類。

Prompt:「A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”🜎
                             可靈產生。圖來源:https://x.com/dustinhollywood/status/1799970059957555210

科幻電影的風格完全拿取             來源:可靈創作者@狗狗李快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
AI 同樣能為奢侈品大片的製作注入靈感:

              快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
我們可以看一下可靈生成的這段「蜂蜜」廣告片,AI 在模擬傾倒蜂蜜特寫鏡頭的表現完全不會輸專業攝影團隊:
                                       
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求 可靈背後有哪些技術?
我們無法從OpenAI 簡略的技術報告中獲得足夠的Sora 研發細節,但可靈大模型官網卻披露了更具參考意義的信息,主要包括從數據準備、模型架構、訓練方案及優化策略幾個方面。

資料準備

依托快手在視頻技術領域的多年積累,可靈大模型團隊已經構建了完備的標籤體系,包括從視頻基礎質量、美學、自然度等多個美學、自然度維度將影片資料品質刻畫,並針對每個維度設計多種客製化的標籤特徵,以此來精細化篩選訓練資料或調整訓練資料的分佈。

為了滿足訓練文生視頻模型過程中成對的視頻和文本描述需求,可靈大模型團隊自研了視頻描述模型,可以產生精確、詳盡、結構化的視頻描述,顯著提升視頻生成模型的文字指令響應能力。
模型架構

高品質的標註資料準備完畢後,可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢?

在整體架構設計上,可靈採用了目前火熱的 Diffusion Transformer (DiT) 。傳統的擴散模型主要利用包含下採樣和上採樣塊的捲積 U-Net 作為去噪網絡骨幹。但一些研究表明,U-Net 架構對擴散模型的良好性能並非至關重要。透過採用更靈活的 Transformer 架構,擴散模型可以使用更多的訓練資料和更大的模型參數。 DiT 就是這個研究思路下的代表作之一。
這幾個月來,業內形成一個共識,視頻生成模型的成功,歸根結底是 Scaling Law 的作用。這項共識正是基於DiT 論文的發現,使用Transformer 能穩定地擴大模型規模:隨著訓練計算量的增加(訓練模型的時間延長或模型增大,或兩者兼而有之),性能也會隨之提高。

這意味著,對於影片產生模型,只要用更多的算力、更多的數據去 Scale up,產生品質還會持續提升。

可靈之所以能夠將用戶的文本提示轉化為具體的畫面,包括那些真實世界中不會出現的虛構場景,就是基於對文本- 視頻語義的深刻理解和Diffusion Transformer 架構的強大能力。在自研架構和 Scaling Law 激發出的強大建模能力推動下,可靈能夠很好地模擬真實世界的物理特性,產生符合物理規律的影片。

與此同時,基於團隊自研的3D VAE 網絡,可靈大模型能夠生成1080p 分辨率的電影級視頻,無論是浩瀚壯大的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                              自然場景下,並在光線中流動的變化非常流暢。測試者:@杉杉

當然,對於視頻生成模型來說,另一個必須考慮的因素是:視頻是一種具有時間維度的視覺內容,不連貫的內容會讓用戶的觀看體驗大打折扣。

為了確保畫面中運動的呈現更加合理,可靈大模型採用3D 時空聯合注意力機制,更好地建模複雜時空運動,即可產生較大幅度運動的視頻內容,同時能夠符合運動規律。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

訓練及優化策略

如果你已經親自測試過,就會發現可靈支持推理過程中同樣的內容輸出多種視頻寬高比。這是因為可靈採用了可變解析度的訓練策略,目的是滿足更豐富場景中的視訊素材使用需求。

與此同時,得益於高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達 2 分鐘的視頻,且幀率達到 30fps。

視頻生成,不再是一場「追趕OpenAI」的遊戲

2024 年被稱為視頻生成技術的爆發之年,但在可靈
2024 年被稱為視頻生成技術的爆發之年,但在可靈
Sora 等級的可用產品,而Sora 何時開放也是未知數。

某種意義上說,可靈是第一個真正的「中國版 Sora」,並讓這項技術真正進入了可用、好用、實用的階段。

正如傅盛所說:「這可能是今天在全世界範圍內,你能夠使用到的最好的文生視頻產品。」任何親自試用過可靈的人,都會明白這絕不是過譽。

傅盛的影片也給了另一個觀點:「反過來也說明,Sora 並不是技術性的突破,而是產品型的突破。」

還記得幾個月前,Sora 以長達60 秒的連貫視頻、高清畫面質感、連貫的鏡頭移動、運動方式等優點,拉高了整個視頻生成賽道的技術水平,掀起了文生視頻賽道的競爭浪潮。

我們以為,影片產生領域會像去年的文字大模型一樣,演化為國內對海外的技術追趕。但可靈的發布,意味著國產文生視頻大模型技術的探索已經達到了一個全新的高度,而且在產品落地層面做到了實質領先。我們可能不需要再重新經歷一次「追趕 OpenAI」的遊戲了。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求有人給出判斷:中國正在人工智慧領域超越美國。

可靈的誕生,或許意味著一個新時代開啟了。在生成式 AI 時代,生成和編輯影片或許會像今天我們用手機 P 圖一樣簡單,想像力與現實之間的阻隔將被徹底打破。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求由於太過火爆,目前在排隊測試可靈的人數已經超過了 5 萬人。如果你對 AI 生成影片的玩法感興趣,不妨先關注「可靈 AI 影片號」,收穫更多優質案例。
🎜🎜🎜

以上是快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn