首頁 >科技週邊 >人工智慧 >單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

王林
王林原創
2024-06-18 20:57:51534瀏覽

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

瀾晨Open-Sora 團隊在720p 高清文生視頻質量和生成時長上實現了突破性進展,支持無縫產出任意風格的高質量短片,令人驚喜的是,,令人驚喜的是,他們選擇再帶給開源社群億點點震撼,繼續全部開源

開源位址:https://github.com/hpcaitech/Open-Sora

透過他們的模型權重,能夠產生各種酷炫的短片,例如海浪和海螺的親密接觸,還有那些深不可測的森林祕境。

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

人物肖像的渲染也相當逼真。

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

還能精準渲染賽博朋克風,讓短片瞬間充滿強烈的未來感和科技感。

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

                               之後壓縮中壓縮使用。

也能產生有趣生動的動畫鏡頭,帶來極具表現力的視覺體驗。

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

                            之後中壓縮使用。

即使是電影級的鏡頭製作,也能輕鬆應付。

例如,實現流暢的變焦效果,為影片增添專業級的視覺效果。 單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

                               之後壓縮中壓縮使用。

還能幫助電影製作人員創造出逼真的電影鏡頭。 單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

                               之後壓縮中壓縮使用。

瀟晨的Open-Sora 模型以其卓越的性能揭示了視頻生成領域的廣闊前景,而他們的模型權重和訓練代碼已經全面開源,感興趣的朋友可以訪問他們的GitHub 地址:https ://github.com/hpcaitech/Open-Sora

文生視訊界的開源戰士

LambdaLabs,美國科技界獨角獸,基於潞晨團隊先前開源的Open-Sora 模型權重打造了一個數位晨獸樂高宇宙,樂高迷在這裡找到了極致的創意體驗。

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

潞晨團隊深諳開源對於文生視訊技術突破的加速度,他們不僅持續開源模型權重,還在Github 上曬出了技術路線,讓每個玩家都能成為文生視頻大模型的掌控者,不再是單純的圍觀群眾。報告一出爐,我們就火速進行了深度挖掘和解析,試圖捕捉文生視訊技術的最新動向。 (報告網址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md)

技術深度解碼

在潞晨 OpenSora 團隊發布的這份技術報告中,他們深度剖析了本次模型訓練的核心與關鍵。在上一個版本基礎上,引入了視訊壓縮網路(Video Compression Network)、更優的擴散模型演算法、更多的可控性,並利用更多的資料訓練出了 1.1B 的擴散生成模型。

在這個 "算力為王" 的時代,我們深知視頻模型訓練的兩大痛點:計算資源的巨大消耗與模型輸出質量的高標準。潞晨 Open-Sora 團隊以一種極簡而有效的方案,成功地在成本和品質之間找到了平衡點。

OpenSora 團隊提出了一個創新的視訊壓縮網路(VAE),該網路在空間和時間兩個維度上分別進行壓縮。具體來說,他們首先在空間維度上進行了 8x8 倍的壓縮,接著在時間維度上進一步壓縮了 4 倍。透過這種創新的壓縮策略,既避免了因抽幀而犧牲視訊流暢度的弊端,又大幅降低了訓練成本,實現了成本與品質的雙重優化。 單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了

                               視訊壓縮網路結構中的擴散影片產生的品質。儘管SD3 的rectified flow 訓練程式碼尚未公開,但瀟晨Open-Sora 團隊已經基於SD3 的研究成果,提供了一套完整的訓練解決方案,包括:

    簡單易用的整流(rectified flow)訓練
  • 用於訓練加速的Logit-norm 時間步長採樣
  • 基於分辨率和視頻長度的時間步長採樣
  • 透過這些技術的整合,我們不僅能夠加快模型的訓練速度,也能顯著減少推理階段的等待時間,確保使用者體驗的流暢性。此外,這套訓練方案也支援在推理過程中輸出多種影片寬高比,滿足了多樣化場景下的影片素材需求,為影片內容創作者提供了更豐富的創作工具。

他們在報告中也透露了更多關於模型訓練的核心細節,包括資料清洗和模型調優的實用技巧,以及建構了更完善的模型評估體系,保障模型的穩健性和泛化能力。他們還提供了可以自行一鍵部署的 Gradio 應用,並支援調節輸出的運動分數、美學分數和鏡頭移動方式等參數,甚至可以一鍵透過 GPT-4o 自動修改指令並支援中文輸入。要忍不住get hands dirty 了,詳情請戳https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

打破閉環,開源賦能

自OpenAI Sora發布以來,業界對Sora 的開放性期待值爆表,但現實卻是持續的等待遊戲。潞晨 Open-Sora 的開源,為文生視訊的創新和發展注入了強勁的活力。 “授人以魚不如授人以漁”,訪問他們的 github 地址,即可零門檻免費獲得模型權重和全套訓練代碼,這使用戶從被動的內容消費者轉變為積極的內容創造者。這項轉型為企業用戶解鎖了自主開發文生視訊應用的新技能,無論是打造沉浸式遊戲、創意廣告還是製作影視大片,文生視訊技術的應用場景都得到了指數級擴展。

單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了我們期待這股星星之火,能夠點燃整個文生視頻領域的創新激情,實現從點到面的燎原之勢。

最後附上潞晨OpenSora 開源連結:

https://github.com/hpcaitech/Open-Sora

參考連結:
( /Text2Bricks-Fine-tuning-Open-Sora-in-1-000-GPU-Hours--Vmlldzo4MDE3MTky

https://hpc-ai.com/blog/open-sora-from-hpc-ai -tech-team-continues-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use

以上是單鏡頭16秒720p高清影片一鍵生成,開源版Sora又有新驚喜了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn