搜尋
首頁科技週邊人工智慧加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

相信很多人已經領會過生成式 AI 技術的魅力,特別是在經歷了 2022 年的 AIGC 爆發之後。以Stable Diffusion 為代表的文本到圖像生成技術一度風靡全球,無數用戶湧入,借助AI 之筆表達自己的藝術想像……

相比於圖像編輯,視頻編輯是一個更具有挑戰性的議題,它需要合成新的動作,而不僅僅是修改視覺外觀,此外還需要保持時間上的一致性。

在這條賽道上探索的公司也不少。前段時間,Google發布的 Dreamix 以將文字條件視訊擴散模型(video diffusion model, VDM)應用於影片編輯。

近日,曾參與創建Stable Diffusion 的Runway 公司推出了一個新的人工智慧模型“Gen-1”,該模型透過應用文字prompt 或參考圖像指定的任何風格,可將現有影片轉化為新影片。

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

論文連結:https://arxiv.org/pdf/2302.03011.pdf

#計畫首頁:https://research.runwayml.com/gen1

2021 年,Runway 與慕尼黑大學的研究人員合作,建立了Stable Diffusion 的第一個版本。隨後英國的一家新創公司 Stability AI 介入,資助了在更多數據上訓練模型所需的計算費用。 2022 年,Stability AI 將 Stable Diffusion 納入主流,從研究計畫轉變為全球現象。

Runway 表示,希望 Gen-1 能像 Stable Diffusion 在影像上所做的那樣為影片服務。

「我們已經看到圖像生成模型的大爆炸,」Runway 執行長兼聯合創始人 Cristóbal Valenzuela 說。 「我真的相信,2023 年將是影片之年。」

具體來說,Gen-1 支援幾種編輯模式:

#1、風格化。將任何影像或 prompt 的風格轉移到影片的每一幀。

2、分鏡。將模型變成完全風格化和動畫的渲染。

3、遮罩。分離影片中的主題並使用簡單的文字 prompt 對其進行修改。

4、渲染。透過應用輸入影像或 prompt,將無紋理渲染變成逼真的輸出。

5、客製化。透過自訂模型以獲得更高保真度的結果,釋放 Gen-1 的全部功能。

在該公司官方網站上發布的 demo 中,展示了 Gen-1 如何絲滑地更改影片風格,來看幾個範例。

例如將「街上的人」變成「黏土木偶」,只需要一行prompt:

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

或將「堆放在桌上的書」變成「夜晚的城市景觀」:

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

從「雪地上的奔跑」到「月球漫步」:

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

年輕女孩,竟然秒變成古代先哲:

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

論文細節

視覺特效與影片編輯在當代媒體領域無所不在。隨著以影片為中心的平台的普及,對更直觀、性能更強的影片編輯工具的需求也在增加。然而,由於視訊資料的時間性,在這種格式下的編輯仍然是複雜且耗時的。最先進的機器學習模型在改善編輯過程方面顯示出了巨大的前景,但許多方法不得不在時間一致性和空間細節之間取得平衡。

由於引入了在大規模資料集上訓練的擴散模型,用於影像合成的生成方法最近在品質和受歡迎程度上經歷了一個快速增長階段。一些文字條件模型,如 DALL-E 2 和 Stable Diffusion,使新手只需輸入一個文字 prompt 就能產生詳細的圖像。潛在擴散模型提供了有效的方法,透過在感知壓縮的空間中進行合成來產生影像。

在本論文中,研究者提出了一個可控的結構和內容感知的視頻擴散模型,該模型是在未加字幕的視頻和配對的文本- 圖像數據的大規模資料集上訓練的。研究者選擇用單眼深度估計來表徵結構,並以預先訓練的神經網路預測的嵌入來表徵內容。

此方法在其生成過程中提供了幾種強大的控制模式:首先,與影像合成模型類似,研究者訓練模型使推斷出的影片內容,如其外觀或風格,與使用者提供的圖像或文字prompt 相符(圖1)。其次,受擴散過程的啟發,研究者對結構表徵應用了一個資訊掩蔽過程,以便能夠選擇模型對給定結構的支持程度。最後,研究者透過一個自訂的指導方法來調整推理過程,該方法受到無分類指導的啟發,以實現對生成片段的時間一致性的控制。

整體來說,本研究的亮點如下:

  • #透過在預訓練影像模型中引入時間層,並在在圖像和視頻上進行聯合訓練,將潛在擴散模型擴展到了視頻生成領域;
  • 提出了一個結構和內容感知的模型,在樣本圖像或文本的指導下修改視頻。編輯工作完全是在推理時間內進行的,不需要額外對每個影片進行訓練或預處理;
  • #展示了對時間、內容和結構一致性的完全控制。該研究首次表明,對影像和視訊資料的聯合訓練能夠讓推理時間控制時間的一致性。對於結構的一致性,在表徵中不同的細節層次上進行訓練,可以在推理過程中選擇所需的設定;
  • 在一個使用者研究中,本文的方法比其他幾種方法更受歡迎;
  • 透過對一小部分影像進行微調,可以進一步自訂訓練過的模型,以產生更準確的特定主體的影片。

方法

就研究目的而言,從內容和結構的角度來考慮一個影片將是有幫助的。對於結構,此處指的是描述其幾何和動態的特徵,例如主體的形狀和位置,以及它們的時間變化。對於內容,此處將其定義為描述影片的外觀和語義的特徵,例如物體的顏色和風格以及場景的照明。 Gen-1 模型的目標是編輯影片的內容,同時保留其結構。

為了實現這個目標,研究者學習了影片x 的生成模型p (x|s, c),其條件是結構表徵(以s 表示)和內容表徵(用c 表示)。他們從輸入影片推斷出形狀表徵 s,並根據描述編輯的文字 prompt c 對其進行修改。首先,描述了對生成模型的實現,作為一個條件潛在的視訊擴散模型,然後,描述了對形狀和內容表徵的選擇。最後,討論了模型的最佳化過程。

模型結構如圖 2 所示。

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

實驗

為了評估方法,研究者採用了 DAVIS 的影片和各種素材。為了自動建立編輯 prompt,研究者首先運行了一個字幕模型來獲得原始影片內容的描述,然後使用 GPT-3 來產生編輯 prompt。

定性研究

#如圖5 所示,結果證明,本文的方法在一些不同的輸入上表現良好。

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

使用者研究

研究者還使用Amazon Mechanical Turk(AMT)對35 個代表性的影片編輯prompt 的評估集進行了使用者研究。對於每個樣本,均要求5 個註解者在基線方法和本文方法之間對比對視頻編輯prompt 的忠實度(“哪個視頻更好地代表了所提供的編輯過的字幕?”),然後以隨機順序呈現,並使用多數票來決定最終結果。

結果如圖7 所示:

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

##定量評估

圖6 展示了每個模型使用本文框架一致性和prompt 一致性指標的結果。本文模型在這兩方面的表現都傾向於超越基線模型(即,在圖的右上角位置較高)。研究者還注意到,在基線模型中增加強度參數會有輕微的 tradeoff:更大的強度縮放意味著更高的 prompt 一致性,代價是更低的框架一致性。同時他們也觀察到,增加結構縮放會導致更高的 prompt 一致性,因為內容變得不再由輸入結構決定。

客製化

#圖10 展示了一個具有不同數量的客製化步驟和不同程度的結構依附性ts 的例子。研究者觀察到,客製化提高了對人物風格和外觀的保真度,因此,儘管使用具有不同特徵的人物的驅動視頻,但結合較高的 ts 值,還是可以實現精確的動畫效果。

加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣

以上是加特技只要一句話or一張圖,Stable Diffusion的公司把AIGC玩出了新花樣的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
DeepCoder-14b:O3-Mini和O1的開源競賽DeepCoder-14b:O3-Mini和O1的開源競賽Apr 26, 2025 am 09:07 AM

在AI社區的重大發展中,Agentica和AI共同發布了一個名為DeepCoder-14B的開源AI編碼模型。與OpenAI等封閉源競爭對手提供代碼生成功能

一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)