首頁  >  文章  >  科技週邊  >  被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

WBOY
WBOY轉載
2024-03-12 22:55:02943瀏覽

2024 開年,OpenAI 就在生成式 AI 領域扔下了重磅炸彈:Sora。

這幾年,影片產生領域的技術迭代持續加速,許多科技公司也公佈了相關技術進展和落地成果。在此之前,Pika、Runway 都曾推出過類似產品,但 Sora 放出的 Demo,顯然以一己之力抬高了影片產生領域的標準。

在今後的這場競爭中,哪家公司將率先打造出超越 Sora 的產品,仍是未知數。

國內這邊,目光聚集於一眾科技大廠。

先前有消息指出,位元組跳動在 Sora 發布之前就研發出了一款名為 Boximator 的影片生成模型。

Boximator 提供了一個精確控制影片中物件生成的方法。使用者無需編寫複雜的文字指令,只需在參考影像中繪製方框以選擇目標,然後添加額外的方框和線條來定義目標的終點位置或整個跨幀運動路徑,如下圖所示:

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

位元組跳動對此保持低調態度,相關人士向媒體回應稱,Boximator 是他們在視訊生成領域控制物件運動技術方法研究的專案。目前尚未完全成品化,與國外領先的視訊生成模型在畫面品質、保真率和視訊時長等方面仍存在較大差距。

在相關技術論文(https://arxiv.org/abs/2402.01566)中提到,Boximator以插件的方式進行運行,能夠與現有的影片生成模型輕鬆整合。透過增加運動控制功能,它不僅保持了視訊質量,還提升了靈活性和實用性。

影片產生涉及多個細分領域的技術,與影像/影片理解、影像生成、超解析度等技術密切相關。經過深入研究發現,位元組跳動在多個分支領域已經公開發表了一些研究成果。

這篇文章將介紹來自位元組跳動智慧創作團隊的 9 項研究,涉及文生圖、文生影片、圖面影片、影片理解等多項最新成果。我們不妨從這些研究中,追蹤探索視覺生成類別模型的技術進展。

關於影片生成,位元組有哪些成果?

在今年 1 月初,位元組跳動就發布過一個影片生成模型 MagicVideo-V2,一度引發社群熱議。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?


  • #論文標題:MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
  • 論文連結:https://arxiv.org/abs/2401.04468
  • 專案地址:https://magicvideov2.github.io/

#MagicVideo-V2 的創新在於將文字到圖像模型、視訊運動產生器、參考影像嵌入模組和幀插值模組整合到端到端視訊生成pipeline 中。得益於這一架構設計,MagicVideo-V2 在“美學”上能夠保持著穩定的高水平表現,不僅生成美觀的高分辨率視頻,還兼具比較好的保真度和流暢度。

具體而言,研究者首先使用 T2I 模組創建一個 1024×1024 的圖像,封裝所描述的場景。隨後,I2V 模組對此靜態影像進行動畫處理,產生 600×600×32 的幀序列,先前的潛在雜訊確保了初始幀的連續性。 V2V 模組將這些幀增強到 1048×1048 分辨率,同時完善視訊內容。最後,插值模組將序列擴展到 94 個幀,得到 1048×1048 分辨率的視頻,所生成視頻具有較高的美學質量和時間平滑性。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

研究者進行的大規模使用者評估證明:MagicVideo-V2 比一些知名的T2V 方法更受青睞(綠色、灰色和粉紅色條分別代表MagicVideo-V2 被評為較好、相當或較差)。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

高品質視訊生成背後

統一視覺和語言學習的研究範式

從MagicVideo-V2 的論文中,我們可以看出,視訊生成技術的進展,離不開文生圖、圖生視訊等AIGC 技術的鋪路。而產生高美感水準內容的基礎在於理解,特別是模型對於視覺和語言兩種模態學習、融合能力的進步。

近年來,大語言模型的可擴展性和通用能力,催生出了統一視覺和語言學習的研究範式。為了跨越「視覺」和「語言」兩種模態之間的天然鴻溝,研究者們將預訓練好的大語言模型和視覺模型的表徵連接起來,提取跨模態特性,完成如視覺問題解答、圖像字幕、視覺知識推理和對話等任務。

在這些方向上,位元組跳動也有相關探索。

例如,針對開放世界視覺任務中的多目標推理分割挑戰,位元組跳動聯合北京交通大學、北京科技大學的研究者提出了高效像素級推理大模型PixelLM ,並將其開源。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?


  • #論文標題:Pixel Reasoning with Large Multimodal Model
  • 論文連結:https://arxiv.org/pdf/2312.02228.pdf
  • 項目地址:https://pixellm.github.io/ 

#PixelLM 能夠熟練地處理任意數量的開放集目標和不同推理複雜性的任務,下圖展示了PixelLM 在各種分割任務中產生高品質目標遮罩的能力。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

PixelLM 的核心是一個新穎的像素解碼器和一個分割codebook:codebook 包含了可學習的token,這些token 編碼了與不同視覺尺度目標參考相關的上下文和知識,像素解碼器根據codebook token 的隱藏嵌入和圖像特徵產生目標遮罩。在保持 LMM 基本結構的同時,PixelLM 可以在沒有額外的、昂貴的視覺分割模型的情況下產生高品質的掩碼,從而提高了效率和向不同應用程式的可遷移性。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

值得關注的是,研究者建構了一個全面的多目標推理分割資料集 MUSE。他們從 LVIS 資料集中選取了共 910k 個高品質實例分割遮罩以及基於影像內容的詳細文字描述,利用這些建構了 246k 個問題 - 答案對。

比起影像,如果涉及影片內容,模型遭遇的挑戰難度就增加了不少。因為影片不僅包含豐富多變的視覺訊息,還涉及時間序列的動態變化。

現有的多模態大模型在處理影片內容時,通常會將影片畫面轉換為一系列的視覺 token,並與語言 token 結合以產生文字。但隨著生成文字長度的增加,影片內容的影響會逐漸減弱,導致生成的文字越來越偏離原始影片內容,產生所謂的「幻覺」。

面對這個問題,位元組跳動聯合浙江大學提出了專門針對影片內容的複雜性設計的多模態大模型 Vista-LLaMA。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

#
  • 論文標題:Vista-LLaMA:Reliable Video Narrator via Equal Distance to Visual Tokens
  • #論文連結:https ://arxiv.org/pdf/2312.08870.pdf
  • 專案網址:https://jinxxian.github.io/Vista-LLaMA/ 

Vista-LLaMA 採用了一種改良的注意力機制- 視覺等距離token 注意力(EDVT),在處理視覺與文字token 時去除了傳統的相對位置編碼,同時保留了文字與文字之間的相對位置編碼。這種方法大幅提高了語言模型對影片內容的理解深度和準確性。

特別是,Vista-LLaMA 引入的序列化視覺投影機為影片中的時間序列分析問題提供了新的視角,它透過線性投影層編碼視覺token 的時間上下文,增強了模型對視訊動態變化的理解能力。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

在最近被ICLR 2024 接收的一項研究中,位元組跳動的研究者也探討了一種提升模型對視訊內容學習能力的預訓練方法。

由於影片- 文字訓練語料的規模和品質有限,大多數視覺語言基礎模型都採用圖像- 文字資料集進行預訓練,並主要關注視覺語義表徵建模,而忽略了時間語意表徵和相關性。

為了解決這個問題,他們提出了 COSA,一種串聯樣本預訓練視覺語言基礎模型。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?


  • #論文標題:COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
  • 論文連結:https://arxiv.org/pdf/2306.09085.pdf
  • 專案首頁:https://github.com/TXH-mercury/COSA

#COSA 僅使用圖像- 文字語料庫對視覺內容和事件層級時間線索進行聯合建模。研究者將多個圖像 - 文字對按順序串聯起來,作為預訓練的輸入。這種轉換能有效地將現有的圖像 - 文字語料庫轉換成偽長格式影片 - 段落語料庫,從而實現更豐富的場景轉換和明確的事件 - 描述對應關係。實驗證明,COSA 能夠持續提高各種下游任務的效能,包括長 / 短影片 - 文字任務和圖像 - 文字任務(如檢索、字幕和問題解答)。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

從圖像到影片

被重新認識的「擴散模型」

在視覺- 語言模型之外,擴散模型同樣是大部分影片生成模型所採用的技術。

透過在大量圖像 - 文字配對資料集上進行嚴格訓練,擴散模型能夠完全根據文字資訊產生細節豐富的圖像。除了圖片生成,擴散模型還可用於音訊生成、時間序列生成、3D 點雲生成等等。

例如在一些短影片應用程式中,使用者只需要提供一張圖片,就能產生一段以假亂真的動作影片。

數百年來保持神秘微笑的蒙娜麗莎,都能馬上跑起來:

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

這項有趣應用背後的技術,是新加坡國立大學和位元組跳動的研究者聯合推出的「MagicAnimate」。

MagicAnimate 是一個基於擴散的人類圖像動畫框架,在根據特定的運動序列生成影片的任務中,能夠很好地保證整個動畫的時間一致性並提升動畫保真度。而且,MagicAnimate 專案是開源的。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

  • 論文標題:MagicAnimate:Temporally Consistent Human Image Animation using Diffusion Model
  • ##論文連結:https://arxiv.org/pdf/2311.16498.pdf
  • 專案網址:https://showlab .github.io/magicanimate/ 

為了解決生成動畫普遍存在的「閃爍」問題,研究者透過將時間注意力(temporal attention)區塊合併到擴散主幹網路中,來建立用於時間建模的視訊擴散模型。

MagicAnimate 將整個影片分解為重疊的片段,並簡單地將重疊影格的預測進行平均。最後,研究者還引入影像 - 視訊聯合訓練策略,以進一步增強參考影像保留能力和單幀保真度。雖然僅接受了真實人類資料的訓練,MagicAnimate 卻展現出了泛化到各種應用場景的能力,包括對未見過的領域資料進行動畫處理、與文字- 影像擴散模型的整合以及多人動畫等。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

另一項基於擴散模型思想的研究“DREAM-Talk”,則解決了從單張肖像圖像生成會說話的情緒化人臉的任務。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?


  • #論文標題:DREAM-Talk:Diffusion-based Realistic Emotional Audio- driven Method for Single Image Talking Face Generation
  • 論文連結:https://arxiv.org/pdf/2312.13578.pdf
  • #專案網址:https://dreamtalkemo.github.io/ 

我們知道,在這項任務中,很難同時實現富有表現力的情感對話和準確的唇語同步,通常為了確保唇語同步的準確性,表現力往往會大打折扣。

「DREAM-Talk」是一個基於擴散的音訊驅動框架,分為兩個階段:首先,研究者提出了一個新穎的擴散模組EmoDiff,可根據音訊和參考情緒風格產生多種高度動態的情緒表情和頭部姿勢。鑑於唇部動作與音頻之間的強相關性,研究者隨後利用音頻特徵和情感風格對動態進行了改進,從而提高了唇部同步的準確性,此外還部署了一個視頻到視頻渲染模組,實現了將表情和唇部動作轉移到任意肖像。

從效果來看,DREAM-Talk 在表現力、唇部同步準確度和感知品質方面的確不錯:

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

但不管是影像生成還是影片生成,目前基於擴散模型路線的研究都還有一些基礎挑戰需要解決。

例如許多人關心生成內容的品質問題(對應 SAG、DREAM-Talk),這可能與擴散模型的生成過程中的一些步驟有關,例如引導取樣。

擴散模型中的引導採樣大致可分為兩類:需要訓練的和無需訓練的。免訓練引導採樣是利用現成的預訓練網絡(如美學評估模型)來引導生成過程,旨在以更少的步驟和更高的精度從預訓練的模型中獲取知識。目前的訓練無指導採樣演算法是基於對乾淨影像的一步估計來獲得指導能量函數。然而,由於預訓練網路是針對乾淨影像進行訓練的,因此乾淨影像的一步估計過程可能不準確,尤其是在擴散模型的早期階段,導致早期時間步驟的指導不準確。

針對這個問題,位元組跳動和新加坡國立大學的研究者共同提出了 Symplectic Adjoint Guidance (SAG)。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

  • 論文標題:Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
  • 論文連結:https://arxiv.org/pdf/2312.12030.pdf

SAG 透過兩個內階段計算梯度引導:首先,SAG 透過n 個函數呼叫估計乾淨影像,其中n 作為一個靈活的參數,可以根據特定的影像品質要求進行調整。其次,SAG 使用對稱偶方法精確且有效率地獲得關於記憶體需求的梯度。這種方法可支援各種影像和影片生成任務,包括風格引導影像生成、美學改進和影片風格化,並有效提升了生成內容的品質。

最近入選 ICLR 2024 的一篇論文,則著重討論了「擴散機率模型梯度反向傳播的臨界靈敏度方法」。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?


  • #論文標題:Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models
  • 論文連結:https://arxiv.org/pdf/2307.10711.pdf

由於擴散機率模型的採樣過程涉及對去噪U-Net 的遞歸調用,因此naïve 梯度反向傳播需要儲存所有迭代的中間狀態,從而導致極高的記憶體消耗。

在這篇論文中,研究者提出的 AdjointDPM 首先透過求解對應的機率流 ODE 從擴散模型中產生新樣本。然後,透過求解另一個增強的 ODE,使用鄰接靈敏度方法反向傳播模型參數(包括調節訊號、網路權重和初始雜訊)損失的梯度。為了減少前向生成和梯度反向傳播過程中的數值誤差,研究者使用指數積分進一步將機率流 ODE 和增強型 ODE 重新參數化為簡單的非剛性 ODE。

研究者指出,AdjointDPM 在三個任務中極具價值:將視覺效果轉換為識別文本嵌入、針對特定類型的風格化對擴散概率模型進行微調,以及優化初始雜訊以產生用於安全審計的對抗樣本,以減少優化工作中的成本。

對於視覺類別的感知任務,採用文字到圖像的擴散模型作為特徵提取器的方法也受到越來越多的關注。在這一方向上,字節跳動的研究者在論文中提出了一個簡單而有效的方案。

被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

  • 論文標題;Harnessing Diffusion Models for Visual Perception with Meta Prompts
  • #論文連結:https://arxiv.org/pdf/2312.14733.pdf

這篇論文的核心創新是在預在訓練的擴散模型中引入可學習的嵌入(元提示)以提取感知特徵,不依賴額外的多模態模型來產生圖像標題,也不使用資料集中的類別標籤。

元提​​示有兩方面的作用:首先,作為T2I 模型中文本嵌入的直接替代物,它可以在特徵提取過程中激活與任務相關的特徵;其次,它將用於重新排列提取的特徵,以確保模型專注於與手頭任務最相關的特徵。此外,研究者也設計了一種循環細化訓練策略,充分利用擴散模型的特性,從而獲得更強的視覺特徵。

「中文版 Sora」誕生前

#還有多遠的路要走?

在這幾篇新論文中,我們已經了解到字節跳動這樣的國內科技公司,在視頻生成技術上的一系列積極的探索。

但與 Sora 相比,無論是位元組跳動,還是 AI 視訊生成領域的一眾明星公司,都存在著肉眼可見的差距。 Sora 的優勢建立在對 Scaling Law 的信念和突破性的技術創新上:透過 patchs 統一視訊數據,依托 Diffusion Transformer 等技術架構和 DALL・E 3 的語義理解能力,真正做到了「遙遙領先」。

從 2022 年文生圖的大爆發,到 2024 年 Sora 的橫空出世,人工智慧領域的技術迭代速度,已經超過了大家的想像。 2024 年,相信這一領域還會出現更多的「爆款」。

位元組顯然也在加緊投入技術研發。近期,Google VideoPoet 專案負責人蔣路,開源多模態大模式 LLaVA 團隊成員之一、前微軟研究院首席研究員 Chunyuan Li 都被爆出已加入位元組跳動智慧創作團隊。團隊也正在大力招聘,官網上已放出多個大模型演算法相關職位。

不只是字節,BAT 等老牌巨頭也放出眾多令人矚目的影片生成研究成果,一眾大模型創業公司更是極具衝勁。文生視訊技術又將出現哪些新的突破?我們拭目以待。

以上是被誤解的「中文版Sora」背後,位元組跳動有哪些技術?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除