首頁  >  文章  >  科技週邊  >  把腳本變成視頻,人工智慧只需一步

把腳本變成視頻,人工智慧只需一步

WBOY
WBOY轉載
2023-04-14 21:16:012078瀏覽

Meta在一篇宣布這項工作的部落格文章中表示:「生成式人工智慧研究為人們提供了快速、輕鬆創建新內容的工具,從而推動了創造性表達的發展。只需幾句話或幾行文字,Make-A-Video就能將想像力賦予生命,創造出獨一無二的充滿生動色彩和風景的影片。」

把腳本變成視頻,人工智慧只需一步

Meta執行長馬克·祖克柏在Facebook上稱這項工作為“驚人的進步”,並補充說:“生成影片比生成照片要困難得多,因為除了正確生成每個像素外,系統還必須預測它們將如何隨時間變化。」

這些視頻不超過5秒,不包含任何音頻,但包含了大量的提示。判斷模型性能的最佳方法是觀察它的輸出。不過目前不允許任何人存取模型。這意味著這些片段可能是研發人員精心挑選出來的,以最好的方式展示這個系統。

同樣,雖然這些影片顯然是電腦生成的,但這種人工智慧模型的輸出在不久的將來將迅速提高。相較之下,在短短幾年的時間裡,人工智慧影像產生器已經從創造難以理解的邊緣圖片發展到逼真的內容。儘管影片的進展可能會因為這一主題的近乎無限的複雜性而緩慢,但無縫影片生成的價值將激勵許多機構和公司向該專案投入大量資源。

與文字到圖像模型一樣,有可能也會產生有害的應用。

Meta在宣布Make-a-Video的部落格中指出,影片產生工具「對創作者和藝術家」來說可能是無價的。但是,就像從文字到圖像的模式一樣,前景也令人擔憂。這些工具的輸出可能被用於虛假資訊、宣傳。

Meta表示,它希望“對如何建立這樣的生成式AI系統進行深思熟慮”,目前只發表了一篇關於Make-A-Video模型的論文。該公司表示,計劃發布該系統的演示版本,但沒有說明何時或如何限制對該模型的存取。

值得一提的是,Meta並不是唯一致力於AI視訊產生器的機構。今年早些時候,清華大學和北京人工智慧研究院(BAAI)的一組研究人員發布了他們自己的文字到視訊模型,命名為CogVideo。

Meta的研究人員在一篇描述該模型的論文中指出,Make-A-Video正在對成對的圖像和標題以及未標記的影片片段進行訓練。訓練內容來自兩個資料集(WebVid-10M和HD-VILA-100M),這兩個資料集總共包含了數百萬個視頻,跨越數十萬小時的鏡頭。這包括由Shutterstock等網站創建並從網路上抓取的庫存影片片段。

研究人員在論文中指出,除了模糊的鏡頭和不連貫的動畫外,該模型還有許多技術限制。例如,它們的訓練方法無法學習可能只有人類觀看影片時才能推斷出的資訊——例如,一個揮手的影片是從左到右還是從右向左。其他問題包括產生超過5秒的視頻,包含多個場景和事件的視頻,以及更高的分辨率。 Make-A-Video目前輸出16幀解析度為64 * 64像素的視頻,然後使用單獨的人工智慧模型將其尺寸提高到768 * 768。

Meta的團隊也指出,就像所有使用從網路上抓取的資料訓練的人工智慧模型一樣,Make-A-Video學習並可能誇大了社會偏見,包括有害的偏見。在文本到圖像的模型中,這些偏見通常會強化社會偏見。例如,讓一個產生一個「恐怖分子」的圖像,它很可能描繪的是一個戴著頭巾的​​人。然而,在沒有開放存取的情況下,很難說Meta的模型學習到了什麼偏見。

Meta表示,該公司「正在與技術社群公開分享這種生成式AI研究和結果,以獲得他們的回饋,並將繼續使用我們負責任的AI框架來完善和發展我們對這種新興技術的方法。」

隨著繪畫和影片領域人工智慧生成器逐漸火熱,相信很快(也許已經)就會出現其他藝術(例如音樂)的人工智慧生成工具了。

#

以上是把腳本變成視頻,人工智慧只需一步的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除