快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

王林

Jun 21, 2024 am 01:13 AM

快手產業文生影片

短短一年後，AI 生成的「吃麵」已經如此自然流暢？這讓全球網友都感受到了億點震撼。

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

^個人資料

右側的這些生成視頻，都來自快手剛剛推出的文生視頻大模型“可靈」（Kling）。

不是預發布、不是純 Demo 合集，而是直接開放測試的產品級應用，人人都能申請。而且，可靈支持生成最長 2 分鐘、30fps 的 1080P 視頻，主打從頭腦風暴到可發布作品的“一鍵轉化”。（官方網址：https://kling.kuaishou.com/）

最早一批用上的使用者已經「真香」：

圖源：https://x.com/ op7418/status/1799047146089619589

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

.com/7714861068/Oig1Qm8Or?refer_flag=1001030103_

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

500 人上限的交流群，很快就滿員了，滿屏都是tql：

還沒用上的外國友人只能幹著急，在社群媒體上發「求求了」：

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

不誇張地說，可靈現在是「一誇張地說，可靈現在是「一誇張號難求」：

消息傳到矽谷創投圈，更是引發了一場熱議。快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

Stability AI 前CEO Emad Mostaque 表示：「中國的AI 技術有自己的優點。」

ostaque/status/1799133463003684918

YC CEO 也在X 平台轉發了可靈生成的Demo：

就圖中這個「吃漢堡」的案例而言，在相同的提示詞下，可靈的生成效果確實比Sora 更生動、真實：快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

Prompt：Une personne tapant son meilleur croc dans son hamburger

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

🎜🎜🎜

^{視訊位址：https://x.com/AngryTomtweets/status/1799787209651859910}幾天一定陸陸續續看過很多可靈生成的作品了。本站也是第一時間就點進了申請頻道，並拿到了試用資格。

接下來，我們不妨一邊試用、一邊分析可靈爆火的原因。

國內首個文生視頻產品級應用

或許你還記得這個曾經非常火爆的「氣球人」影片。三位創作者花費近兩週時間，使用 Sora 製作了這本 1 分 21 秒的影片短片，讓人感到十分驚艷。不過，負責後製的 Patrick Cederberg 坦白了過程中的許多問題，例如氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等。

^{Sora 產生中中。完整影片地址：https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh}

對於先前的影片產生模型來說，「一氣呵成」產生1 分鐘以上的內容確實有難度，特別要求畫面中的各種元素保持前後一致。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛公開了自己用可靈製作的“氣球人”視頻，並表示自己僅用了“幾十分鐘”，就做出了連續性、真實度、清晰度都很優秀的短片。

在內測的過程中，我們還發現了一個專業創作者社區自發建立的教程與 Demo 文檔，包含了上百個可靈生成的作品，還提供了測試維度的指導。

有興趣的讀者請戳：https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

益

的，你看得出來嗎？

在創作者@AIGC 十三的作品《瘋狂動物城賽車大賽》中，這20 秒包含了疾速行駛的賽車（大幅度運動）、動物駕駛車輛（考驗想像力的概念組合）等生成困難快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

還有一個很有趣的案例是@八級技工創作的《假期開啟方式》，這段56 秒的短頻共花了3 小時製作，包含23 個鏡頭。然後在可靈的生成結果之上加上配音，詼諧的感覺馬上就有了：

看完這些，我們應該已經意識到，可靈所代表的視訊生成技術的影響力，遠遠超出了單純的創作。在不同的研究領域和產業賽道，這項技術的落地正在加速，為從自動內容生成到複雜決策過程的各種任務提供了變革潛力。

哪些產業最早被改變？

傳統的遊戲開發通常受到預先渲染的環境和腳本事件的限制。一旦將影片生成模型整合到遊戲領域，遊戲的開發、玩耍和體驗方式都將得到創新，為講故事、互動和沈浸式體驗帶來新的可能性。對於遊戲開發者來說，最直觀的一種玩法是，根據使用者敘述產生自訂的視覺效果甚至角色動作。

在下方的demo 中，我們可以看到，使用者能夠藉助可靈創造出無與倫比的身臨其境體驗：

https://x.com/dustinhollywood /status/1800056286215553444

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

另外一個將被顛覆的產業就是影視製作。傳統的電影製作是一個艱鉅而昂貴的過程，往往需要數年的努力、大量的設備和資金投入。視訊生成技術的出現預示著電影製作進入了一個新的「民主化時代」，從簡單的文字輸入中自主生成個人影視作品的夢想正在成為現實。

現在，我們用可靈生成的是 5 秒的單鏡頭片段，伴隨著技術的不斷演進，用戶單次能夠生成的視頻時長也會增加。比如說，我們未來或許能夠一次生成更長的影片內容，保持故事場景的連貫性和觀賞性。其中的運鏡手法也許會更高級，例如連貫的長鏡頭。

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

/status/1800007000849629674

下面這段剪影作品再次印證了一點：AI 對藝術的理解力與美學水準，絲毫不遜於人類。

Prompt：「A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”🜎
^{可靈產生。圖來源：https://x.com/dustinhollywood/status/1799970059957555210}

科幻電影的風格完全拿取來源：可靈創作者@狗狗李
^{AI 同樣能為奢侈品大片的製作注入靈感：}

我們可以看一下可靈生成的這段「蜂蜜」廣告片，AI 在模擬傾倒蜂蜜特寫鏡頭的表現完全不會輸專業攝影團隊：

可靈背後有哪些技術？
我們無法從OpenAI 簡略的技術報告中獲得足夠的Sora 研發細節，但可靈大模型官網卻披露了更具參考意義的信息，主要包括從數據準備、模型架構、訓練方案及優化策略幾個方面。

資料準備

依托快手在視頻技術領域的多年積累，可靈大模型團隊已經構建了完備的標籤體系，包括從視頻基礎質量、美學、自然度等多個美學、自然度維度將影片資料品質刻畫，並針對每個維度設計多種客製化的標籤特徵，以此來精細化篩選訓練資料或調整訓練資料的分佈。

為了滿足訓練文生視頻模型過程中成對的視頻和文本描述需求，可靈大模型團隊自研了視頻描述模型，可以產生精確、詳盡、結構化的視頻描述，顯著提升視頻生成模型的文字指令響應能力。
模型架構

高品質的標註資料準備完畢後，可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢？

在整體架構設計上，可靈採用了目前火熱的 Diffusion Transformer (DiT) 。傳統的擴散模型主要利用包含下採樣和上採樣塊的捲積 U-Net 作為去噪網絡骨幹。但一些研究表明，U-Net 架構對擴散模型的良好性能並非至關重要。透過採用更靈活的 Transformer 架構，擴散模型可以使用更多的訓練資料和更大的模型參數。 DiT 就是這個研究思路下的代表作之一。
這幾個月來，業內形成一個共識，視頻生成模型的成功，歸根結底是 Scaling Law 的作用。這項共識正是基於DiT 論文的發現，使用Transformer 能穩定地擴大模型規模：隨著訓練計算量的增加（訓練模型的時間延長或模型增大，或兩者兼而有之），性能也會隨之提高。

這意味著，對於影片產生模型，只要用更多的算力、更多的數據去 Scale up，產生品質還會持續提升。

可靈之所以能夠將用戶的文本提示轉化為具體的畫面，包括那些真實世界中不會出現的虛構場景，就是基於對文本- 視頻語義的深刻理解和Diffusion Transformer 架構的強大能力。在自研架構和 Scaling Law 激發出的強大建模能力推動下，可靈能夠很好地模擬真實世界的物理特性，產生符合物理規律的影片。