首頁  >  文章  >  科技週邊  >  速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

王林
王林原創
2024-07-02 04:22:00748瀏覽
近期,視頻生成模型賽道火熱,文生視頻,圖生視頻,花樣層出不窮。然而,儘管市場上模型眾多,大部分人還是因為沒有內測資格無法體驗,只能望 “模” 興嘆。前不久我們報道過潞晨科技的 Open-Sora 模型,作為全球首個開源類 Sora 模型,它不但在多種類型的視頻上表現優異,還主打低成本且人人可用。它好用嗎?怎麼用?一起來看看本站的評測。

最近Open-Sora 全新開源的1.2 版本,可以生成最長16s 的720p 高清視頻,官方視頻效果如下:速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

這個生成的效果確實驚艷,也難怪體驗。

對比一眾閉源軟體,需要排長隊等候內測資格,這個完全開源的 Open-Sora 顯然更加易得。但是,在 Open-Sora 的官方 Github 上,密密麻麻全是技術和程式碼,要自己部署體驗,且不說模型對硬體要求高,配置環境時對使用者的程式碼功底也是不小的挑戰。

那麼有沒有辦法,讓 AI 小白用戶也能輕鬆使用 Open-Sora 呢?

先下結論:有,而且可以一鍵部署,啟動後還能零程式碼控制影片長度、片幅、鏡頭等參數。

心動了嗎?那就讓我們一起看看,要如何實作 Open-Sora 的部署。文末有保母等級的詳細教學和使用地址,無需任何技術背景就能操作。

基於 Gradio 的可視化方案

有關 Open-Sora 的最新技術細節,我們曾經做過一篇深度報道。在報告中,我們重點討論了 OpenSora 模型的核心架構和其創新的視訊壓縮網路(VAE)。在那篇文章結尾,我們提到,潞晨 Open-Sora 團隊提供了可以自行一鍵部署的 Gradio 應用程式。那麼,這個 Gradio 應用具體是什麼樣子呢?

Gradio 本身就是一個 Python 包,專為機器學習模型的快​​速部署而設計。它允許開發者透過定義模型的輸入和輸出,自動產生一個網頁介面,從而簡化了模型的線上展示和互動過程。

我們仔細閱讀了 Open-Sora 的 GitHub 首頁,發現該應用將 Open-Sora 模型與 Gradio 有機地結合起來,提供了一個優雅簡潔的交互方案。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

它採用影像介面,使操作更簡單。在介面中,使用者可以自由修改生成影片的長度、長寬比和解析度等基礎參數,同時還能自主調節生成影片的移動幅度、美感分數和更高階的鏡頭移動方式。它還支援調用 GPT-4 對 prompt 進行最佳化,因此,可以同時支援中文和英文文字輸入。

在部署好應用程式後,使用者在使用 Open-Sora 模型時則不需要編寫任何程式碼,只需要輸入 prompt 和點擊替換參數,即可嘗試不同的參數組合產生影片。產生的影片也將直接展示在 Gradio 介面中,可直接在網頁端下載,無需配備複雜的路徑。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

                                圖片中使用:://gak/pu.

我們注意到,瀾晨Open-Sora 團隊已經在Github 中提供了將模型與Gradio 適配的腳本,並且也提供了部署的命令列程式碼。然而,我們仍需要經歷複雜的環境配置,才能成功運行部署程式碼。如果我們想完整體驗 Open-Sora 的功能,尤其是生成長時間高分辨率(比如 720P 16 秒)的視頻,更是需要性能好顯存大的顯示卡(官方使用的是 H800)。 Gradio 方案似乎沒有提到如何解決這兩個問題。

這兩個問題乍看十分棘手,卻能被潞晨雲完美地解決,真正實現了無需技術輕鬆部署。如何上手?本站這裡有一份超簡單的教學。

超簡單的一鍵部署教學

在潞晨雲上部署 Open-Sora 有多簡單呢?

首先,潞晨雲提供多類型的顯示卡,其中,A800 和 H800 這樣的高階顯示卡也可以輕鬆租到。經我們測試,這種 80GB 顯存的卡,單卡就可以滿足 Open-Sora 專案的推理需求。

其次,潞晨雲為 Open-Sora 專案配備了專屬鏡像。這個鏡像就像可以拎包入住的精裝房,全套運作環境可以一鍵啟動,省去了複雜的環境配置環節。

最後,潞晨雲還有超優惠的價格和超人性化的服務。一張 A800 的卡片每小時價格不到 10 元,初始化鏡像的時間全部不計費,雲端主機隨時關機停止計費。換句話說,不到 10 元 / 時,即可充分享受 Open-Sora 帶來的驚喜體驗!除此之外,我們還放了一個 100 元優惠券的獲取方式在文末,趕緊註冊帳號薅上券,跟著我們的教程開整吧!

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

潞晨雲網址:https://cloud.luchentech.com/

首先,進入網址在潞晨雲上註冊帳號。一進入主頁面,就可以直接看到算力市場的可租借機器。領上優惠券,或是儲值 10 元錢,就能跟著潞晨雲的用戶指南,開始建立雲端主機。

第一步是選擇鏡像。一打開公共鏡像,點開第一個就是 OpenSora (1.2),真是方便至極。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

第二步是選擇計費方式。計費方式有兩種,潮汐計費和按量計費。我們試用後發現潮汐計費更省錢,在空閒時段 A800 的價格還能更低!

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

對於 Open-Sora 的推理,一張 A800 足夠了,我們選擇了 1 卡配置,並且允許了 SSH 連接、存儲持久化,還掛載了公開數據(包括模型權重)。這些功能都不額外收費,還能提供更多便利,超級良心。

選好後點擊創建,雲端主機啟動的時間非常短,幾十秒內機器就起來了。這段時間是不計費的,所以如果遇到比較大的鏡像等待時間較長時也不必擔心費用問題。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

第三步,我們從雲端主機頁面點擊 JupyerLab, 進入網頁。一進去就為我們打開了一個終端。

我們輸入 ls,查看雲端主機的文件,可以看到 Open-Sora 這個資料夾就在初始路徑處。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

由於我們使用的是 Open-Sora 專屬鏡像,我們無需額外安裝任何環境。最耗時的這一步被完美地解決了。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

這時候,我們直接輸入執行 Gradio 的指令,就可以快速啟動 Gradio,真正實現了一鍵部署。

Bashpython gradio/app.py

速度非常快,只要十多秒,Gradio 就跑起來了。

不過,我們發現,這個gradio 是預設在伺服器的http://0.0.0.0:7860 上跑,要想在自己本地的瀏覽器用,得先把自己的ssh 公用秘鑰加入到滄晨雲的機器中。這一步也很簡單,只要進入下面這個文件,貼上本地機器的秘鑰進去就好。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

接著,我們還需要寫上本地完成端口映射指令,我們可以照著這個截圖中的指令來寫,大家使用的時候需要替換成自己雲主機的具體地址和 port。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

接著,打開對應網頁,很快就出現了可視化操作介面。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

我們先隨意輸入了一個英文提示,點擊開始產生 (用了預設的 480p,速度會快一些)。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

                          a river flowing through a rich landscape of trees and mountains (一条河流流经茂密的树木和山脉)

很快生成就完成了,耗时约 40 秒。生成结果整体还不错,有河有山有树木,和指令符合。但是我们期待的是雄鹰从高处俯瞰的效果。速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

没关系,调整了指令再来一次:

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

                               a bird's eye view of a river flowing through a rich landscape of trees and mountains (鸟瞰河流流经树木和山脉的丰富景观)

这次生成的内容果然带上了鸟瞰效果。不错,这个模型还是很听话的。速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

如前文所说,gradio 界面上还有很多其他选项,比如调整分辨率、画幅长宽比、视频时长,甚至还能控制视频的动态效果幅度等,可玩性非常强,我们测试时使用的是 480P 分辨率,而最高可支持 720P,大家可以逐个尝试,看看不同选项搭配的效果。

想要进阶?微调也能轻松上手

此外,继续深挖 Open-Sora 的网页,我们发现他们还提供了继续微调模型的代码指令。使用自己喜欢的类型的视频微调模型的话,就能让这个模型生成更符合我的审美要求的视频了!

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

让我们用潞晨云的公开数据中提供的视频数据来验证一下。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

由于环境全都是配置好的,我们只需复制粘贴训练指令。

torchrun --standalone --nproc_per_node 1 scripts/train.py configs/opensora-v1-2/train/stage1.py --data-path /root/commonData/Inter4K/meta/meta_inter4k_ready.csv

这边输出了一连串模型训练的信息。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

训练已经正常启动了,居然只要单卡就能训!

( 踩坑提示:在此之前我们遭遇了一次 OOM, 结果发现程序挂了以后显存依旧被占用,然后发现是忘记关闭上一步 Gradio 的推理了 ORZ,所以大家用单卡训的时候一定要记得关掉 Gradio,因为 Gradio 上面加载了模型一直在等待用户输入来进行推理)。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

以下是我们训练的时候 GPU 资源占用情况:

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

简单算一笔账,训练一步大约耗时约 20 秒,根据 Open-Sora 提供的数据,训练 70k 步(如下图所示),那他们耗时大约在 16 天左右,和他们文档中声称的 2 周左右相近(假设他们的所有机器各完成一个 step 的时间和我们这台机器相似)。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

在这 70k 步中,第一阶段占 30k 步,第二阶段占 23k 步,那第三阶段其实只训练了 17k 步。而这个第三阶段,就是用高质量视频进行微调,用来大幅度提升模型质量,也就是我们现在想要做的事情。

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

不过,从报告中看,他们的训练使用了 12 台 8 卡机器,所以如果我们用潞晨云平台训练和第三阶段相同的数据量,大约需要:

95 小时 * 8 卡 * 12 台 * 10 元 / 小时 = 91200 元

這個數字對於測評來說還是有點門檻的,但是對於打造一個專屬的文生視頻大模型來說也太划算了。尤其是對於企業來說,基本上不需要什麼前期準備工作,按照教程一步步走,就可以用不到十萬塊的價格甚至更少完成一次微調。我真的很期待能看到更多 Open-Sora 在專業領域的強化版!

最後,放上我們前面提到的 100 元優惠券福利活動~儘管我們本次測評成本不到 10 元,但是羊毛該薅還得薅!

從潞晨雲官方資料看到,用戶在社交媒體和專業論壇(如知乎、小紅書、微博、CSDN 等)上分享使用體驗(帶#瀾晨雲@潞晨晨科技),有效分享一次可得100 元代金券(有效期一周),換算成我們測評時生成的這種視頻,相當於五六百個~

速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成

最後,我們整理了相關的資源鏈接放在下面,方便大家快速上手。想要立刻嘗試的朋友們,點擊閱讀原文即可一鍵傳送,開啟你的 AI 影片旅程!

相關資源連結:

相關資源連結:

瀟晨雲平台:https://cloud.luchentech.com/

tech

庫. /Open-Sora/tree/main?tab=readme-ov-file#inference

🎜Bilibili 教學:https://www.bilibili.com/video/BV1ow4m1e7PX/?vvd_source 🎜

以上是速來!潞晨Open-Sora羊毛可薅,10元輕鬆上手影片生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn