首頁  >  文章  >  科技週邊  >  穩定AI發布穩定視頻擴散模型,根據圖像生成視頻

穩定AI發布穩定視頻擴散模型,根據圖像生成視頻

王林
王林轉載
2023-11-22 20:38:25825瀏覽

IT之家 11 月 22 日消息,專注於開發人工智慧(AI)產品的新創公司 Stability AI 發布了其最新的 AI 模型 ——Stable Video Diffusion。這款模型能夠透過現有圖片生成視頻,是基於先前發布的 Stable Diffusion 文本轉圖片模型的延伸,也是目前為止市面上少有的能夠生成視頻的 AI 模型之一。

穩定AI發布穩定視頻擴散模型,根據圖像生成視頻

不過,這款模型目前並不是對所有人開放的。 Stable Video Diffusion 目前處於 Stability AI 所謂的「研究預覽」階段。想要使用這款模型的人必須同意一些使用條款,其中規定了Stable Video Diffusion 的預期應用場景(例如“教育或創意工具”、“設計和其他藝術過程”等)和非預期的場景(例如“對人或事件的事實或真實的表達」)。

穩定視訊擴散實際上由兩個模型組成—SVD和SVD-XT。 SVD可以將靜態圖片轉換為14幀的576×1024像素影片。 SVD-XT採用相同的結構,但幀數提高到24。兩者都能以每秒3到30幀的速度產生影片

根據Stability AI 隨Stable Video Diffusion 一起發布的一篇白皮書,SVD 和SVD-XT 最初是在一個包含數百萬視頻的數據集上進行訓練的,然後在一個規模較小的數據集上進行了“微調”,這個資料集只有幾十萬到一百萬左右的影片片段。這些影片的來源並不十分清楚,白皮書暗示許多是來自公開的研究資料集,所以無法判斷是否有任何版權問題。

SVD和SVD-XT均能夠產生高品質的四秒視頻,從Stability AI部落格上精心挑選的樣本來看,其品質可以與Meta最新的視頻生成模型、谷歌、AI新創公司Runway和Pika Labs的AI生成影片相媲美

穩定AI發布穩定視頻擴散模型,根據圖像生成視頻

IT之家注意到,穩定視訊擴散也有限制。 Stability AI對此也非常坦誠,他們稱這些模型不能生成沒有運動或緩慢攝像機平移的視頻,也不能通過文本進行控制,也不能渲染文字(至少不能清晰地渲染),也不能一致地“正確地”生成人臉和人物

儘管處於早期階段,Stability AI指出這些模型具有很高的擴展性,可以適應生成物體的360度視圖等各種用例

Stability AI 最終的目標似乎是將其商業化,並表示 Stable Video Diffusion 在「廣告、教育、娛樂等領域」都有潛在的應用。

以上是穩定AI發布穩定視頻擴散模型,根據圖像生成視頻的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:sohu.com。如有侵權,請聯絡admin@php.cn刪除