搜尋
首頁科技週邊人工智慧快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

短短一年後,AI 生成的「吃麵」已經如此自然流暢?這讓全球網友都感受到了億點震撼。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                            個人資料
右側的這些生成視頻,都來自快手剛剛推出的文生視頻大模型“可靈」(Kling)。

不是預發布、不是純 Demo 合集,而是直接開放測試的產品級應用,人人都能申請。而且,可靈支持生成最長 2 分鐘、30fps 的 1080P 視頻,主打從頭腦風暴到可發布作品的“一鍵轉化”。 (官方網址:https://kling.kuaishou.com/)

最早一批用上的使用者已經「真香」:

 圖源:https://x.com/ op7418/status/1799047146089619589

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

     .com/7714861068/Oig1Qm8Or?refer_flag=1001030103_

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

500 人上限的交流群,很快就滿員了,滿屏都是tql:

還沒用上的外國友人只能幹著急,在社群媒體上發「求求了」:

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

不誇張地說,可靈現在是「一誇張地說,可靈現在是「一誇張號難求」:
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
消息傳到矽谷創投圈,更是引發了一場熱議。 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
Stability AI 前CEO Emad Mostaque 表示:「中國的AI 技術有自己的優點。」

   
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
 ostaque/status/1799133463003684918

YC CEO 也在X 平台轉發了可靈生成的Demo:
就圖中這個「吃漢堡」的案例而言,在相同的提示詞下,可靈的生成效果確實比Sora 更生動、真實:快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

Prompt:Une personne tapant son meilleur croc dans son hamburger

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

🎜🎜🎜
                    視訊位址:https://x.com/AngryTomtweets/status/1799787209651859910幾天一定陸陸續續看過很多可靈生成的作品了。本站也是第一時間就點進了申請頻道,並拿到了試用資格。

接下來,我們不妨一邊試用、一邊分析可靈爆火的原因。

國內首個文生視頻產品級應用

或許你還記得這個曾經非常火爆的「氣球人」影片。三位創作者花費近兩週時間,使用 Sora 製作了這本 1 分 21 秒的影片短片,讓人感到十分驚艷。不過,負責後製的 Patrick Cederberg 坦白了過程中的許多問題,例如氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等。
                             Sora 產生中中。完整影片地址:https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh

對於先前的影片產生模型來說,「一氣呵成」產生1 分鐘以上的內容確實有難度,特別要求畫面中的各種元素保持前後一致。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛公開了自己用可靈製作的“氣球人”視頻,並表示自己僅用了“幾十分鐘”,就做出了連續性、真實度、清晰度都很優秀的短片。 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
在內測的過程中,我們還發現了一個專業創作者社區自發建立的教程與 Demo 文檔,包含了上百個可靈生成的作品,還提供了測試維度的指導。

有興趣的讀者請戳:https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

的,你看得出來嗎? 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求在創作者@AIGC 十三的作品《瘋狂動物城賽車大賽》中,這20 秒包含了疾速行駛的賽車(大幅度運動)、動物駕駛車輛(考驗想像力的概念組合)等生成困難快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求還有一個很有趣的案例是@八級技工創作的《假期開啟方式》,這段56 秒的短頻共花了3 小時製作,包含23 個鏡頭。然後在可靈的生成結果之上加上配音,詼諧的感覺馬上就有了:
                  /  

看完這些,我們應該已經意識到,可靈所代表的視訊生成技術的影響力,遠遠超出了單純的創作。在不同的研究領域和產業賽道,這項技術的落地正在加速,為從自動內容生成到複雜決策過程的各種任務提供了變革潛力。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
哪些產業最早被改變?
傳統的遊戲開發通常受到預先渲染的環境和腳本事件的限制。一旦將影片生成模型整合到遊戲領域,遊戲的開發、玩耍和體驗方式都將得到創新,為講故事、互動和沈浸式體驗帶來新的可能性。對於遊戲開發者來說,最直觀的一種玩法是,根據使用者敘述產生自訂的視覺效果甚至角色動作。
在下方的demo 中,我們可以看到,使用者能夠藉助可靈創造出無與倫比的身臨其境體驗:

 https://x.com/dustinhollywood /status/1800056286215553444

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                           

另外一個將被顛覆的產業就是影視製作。傳統的電影製作是一個艱鉅而昂貴的過程,往往需要數年的努力、大量的設備和資金投入。視訊生成技術的出現預示著電影製作進入了一個新的「民主化時代」,從簡單的文字輸入中自主生成個人影視作品的夢想正在成為現實。

現在,我們用可靈生成的是 5 秒的單鏡頭片段,伴隨著技術的不斷演進,用戶單次能夠生成的視頻時長也會增加。比如說,我們未來或許能夠一次生成更長的影片內容,保持故事場景的連貫性和觀賞性。其中的運鏡手法也許會更高級,例如連貫的長鏡頭。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                              /status/1800007000849629674

下面這段剪影作品再次印證了一點:AI 對藝術的理解力與美學水準,絲毫不遜於人類。

Prompt:「A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”🜎
                             可靈產生。圖來源:https://x.com/dustinhollywood/status/1799970059957555210

科幻電影的風格完全拿取             來源:可靈創作者@狗狗李快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
AI 同樣能為奢侈品大片的製作注入靈感:

              快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
我們可以看一下可靈生成的這段「蜂蜜」廣告片,AI 在模擬傾倒蜂蜜特寫鏡頭的表現完全不會輸專業攝影團隊:
                                       
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求 可靈背後有哪些技術?
我們無法從OpenAI 簡略的技術報告中獲得足夠的Sora 研發細節,但可靈大模型官網卻披露了更具參考意義的信息,主要包括從數據準備、模型架構、訓練方案及優化策略幾個方面。

資料準備

依托快手在視頻技術領域的多年積累,可靈大模型團隊已經構建了完備的標籤體系,包括從視頻基礎質量、美學、自然度等多個美學、自然度維度將影片資料品質刻畫,並針對每個維度設計多種客製化的標籤特徵,以此來精細化篩選訓練資料或調整訓練資料的分佈。

為了滿足訓練文生視頻模型過程中成對的視頻和文本描述需求,可靈大模型團隊自研了視頻描述模型,可以產生精確、詳盡、結構化的視頻描述,顯著提升視頻生成模型的文字指令響應能力。
模型架構

高品質的標註資料準備完畢後,可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢?

在整體架構設計上,可靈採用了目前火熱的 Diffusion Transformer (DiT) 。傳統的擴散模型主要利用包含下採樣和上採樣塊的捲積 U-Net 作為去噪網絡骨幹。但一些研究表明,U-Net 架構對擴散模型的良好性能並非至關重要。透過採用更靈活的 Transformer 架構,擴散模型可以使用更多的訓練資料和更大的模型參數。 DiT 就是這個研究思路下的代表作之一。
這幾個月來,業內形成一個共識,視頻生成模型的成功,歸根結底是 Scaling Law 的作用。這項共識正是基於DiT 論文的發現,使用Transformer 能穩定地擴大模型規模:隨著訓練計算量的增加(訓練模型的時間延長或模型增大,或兩者兼而有之),性能也會隨之提高。

這意味著,對於影片產生模型,只要用更多的算力、更多的數據去 Scale up,產生品質還會持續提升。

可靈之所以能夠將用戶的文本提示轉化為具體的畫面,包括那些真實世界中不會出現的虛構場景,就是基於對文本- 視頻語義的深刻理解和Diffusion Transformer 架構的強大能力。在自研架構和 Scaling Law 激發出的強大建模能力推動下,可靈能夠很好地模擬真實世界的物理特性,產生符合物理規律的影片。

與此同時,基於團隊自研的3D VAE 網絡,可靈大模型能夠生成1080p 分辨率的電影級視頻,無論是浩瀚壯大的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

                              自然場景下,並在光線中流動的變化非常流暢。測試者:@杉杉

當然,對於視頻生成模型來說,另一個必須考慮的因素是:視頻是一種具有時間維度的視覺內容,不連貫的內容會讓用戶的觀看體驗大打折扣。

為了確保畫面中運動的呈現更加合理,可靈大模型採用3D 時空聯合注意力機制,更好地建模複雜時空運動,即可產生較大幅度運動的視頻內容,同時能夠符合運動規律。

快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

訓練及優化策略

如果你已經親自測試過,就會發現可靈支持推理過程中同樣的內容輸出多種視頻寬高比。這是因為可靈採用了可變解析度的訓練策略,目的是滿足更豐富場景中的視訊素材使用需求。

與此同時,得益於高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達 2 分鐘的視頻,且幀率達到 30fps。

視頻生成,不再是一場「追趕OpenAI」的遊戲

2024 年被稱為視頻生成技術的爆發之年,但在可靈
2024 年被稱為視頻生成技術的爆發之年,但在可靈
Sora 等級的可用產品,而Sora 何時開放也是未知數。

某種意義上說,可靈是第一個真正的「中國版 Sora」,並讓這項技術真正進入了可用、好用、實用的階段。

正如傅盛所說:「這可能是今天在全世界範圍內,你能夠使用到的最好的文生視頻產品。」任何親自試用過可靈的人,都會明白這絕不是過譽。

傅盛的影片也給了另一個觀點:「反過來也說明,Sora 並不是技術性的突破,而是產品型的突破。」

還記得幾個月前,Sora 以長達60 秒的連貫視頻、高清畫面質感、連貫的鏡頭移動、運動方式等優點,拉高了整個視頻生成賽道的技術水平,掀起了文生視頻賽道的競爭浪潮。

我們以為,影片產生領域會像去年的文字大模型一樣,演化為國內對海外的技術追趕。但可靈的發布,意味著國產文生視頻大模型技術的探索已經達到了一個全新的高度,而且在產品落地層面做到了實質領先。我們可能不需要再重新經歷一次「追趕 OpenAI」的遊戲了。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求有人給出判斷:中國正在人工智慧領域超越美國。

可靈的誕生,或許意味著一個新時代開啟了。在生成式 AI 時代,生成和編輯影片或許會像今天我們用手機 P 圖一樣簡單,想像力與現實之間的阻隔將被徹底打破。
快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求由於太過火爆,目前在排隊測試可靈的人數已經超過了 5 萬人。如果你對 AI 生成影片的玩法感興趣,不妨先關注「可靈 AI 影片號」,收穫更多優質案例。
🎜🎜🎜

以上是快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),