搜尋
首頁科技週邊人工智慧給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

影片在當今社群媒體和網路文化中扮演著愈發重要的角色,抖音,快手,B 站等已經成為數以億計用戶的熱門平台。用戶圍繞影片分享自己的生活點滴、創意作品、有趣時刻等內容,與他人互動和交流。

近期,大語言模型展現了令人矚目的能力。我們能否給大模型裝上 “眼睛” 和 “耳朵”,讓它能夠理解視頻,陪著用戶互動呢?

從這個問題出發,達摩院的研究人員提出了 Video-LLaMA,一個具有綜合視聽能力大模型。 Video-LLaMA 能夠感知和理解視訊中的視訊和音訊訊號, 並能理解使用者輸入的指令,完成一系列基於音訊視訊的複雜任務,例如音 / 視訊描述,寫作,問答等。目前論文,代碼,交互 demo 都已開放。另外,在 Video-LLaMA 的專案首頁中,研究團隊也提供了中文版本的模型,讓中文使用者的體驗更絲滑。

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

  • #論文連結:https://arxiv.org/abs/2306.02858
  • 程式碼位址:https://github.com/DAMO-NLP-SG/Video-LLaMA


模型設計

#Video-LLaMA 採用了模組化設計原則,將影片中的視覺和音訊模態資訊會對應到大語言模型的輸入空間中,以實現跨模態指令跟隨的能力。與先前專注於靜態影像理解的大模型研究(MiNIGPT4,LLaVA)不同,Video-LLaMA 面臨著視訊理解中的兩個挑戰:捕捉視覺中的動態場景變化和整合視聽訊號。

為了捕捉影片中的動態場景變化,Video-LLaMA 引入了一個可插拔的視覺語言分支。此分支首先使用BLIP-2 中預先訓練好的圖片編碼器得到每一幀影像的單獨特徵,再與對應的幀位置嵌入結合後,所有影像特徵被送入Video Q-Former,Video Q-Former 將聚合幀級別的影像表示並且產生定長的綜合視訊表徵。最後採用一個線性層將視訊表徵對齊到大語言模型的 embedding 空間。

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

至於視訊中的聲音訊號,Video-LLaMA 使用音訊 - 語言分支進行處理。首先從原始影片中均勻取樣多個長達兩秒的音訊片段,並將每個片段轉換為 128 維的梅爾頻譜圖。然後,採用強大的 ImageBind 作為音訊編碼器,單獨提取每個聲音片段的特徵。在添加可學習的位置嵌入後,Audio Q-Former 將片段特徵進行整體聚合,並產生固定長度的音訊特徵。與視覺語言分支類似,最後採用線性層將音訊表徵對齊到大語言模型的 embedding 空間。

為了減少訓練成本,Video-LLaMA 凍結了預先訓練好的圖片/ 音訊編碼器,只更新了視覺和音訊分支中的以下參數:Video/Audio Q-Former ,位置編碼層以及線性層(如圖1 所示)。

為了學習視覺和文字的對齊關係,作者們首先利用大規模的影片 - 文字資料集 (WebVid-2M) 和圖像 - 文字資料集(CC-595K)對視覺分支進行預訓練。之後,作者們利用來自 MiniGPT-4,LLaVA 的圖像指令資料集和來自 Video-Chat 的視訊指令資料集來微調,從而達到更好的跨模態指令跟隨能力。

至於音訊 - 文字對齊關係的學習,由於缺乏大規模高品質的音訊 - 文字數據,作者們採用了一種變通策略來達到這一目標。首先,音訊 - 語言分支中可學習參數的目標可以理解為將音訊編碼器的輸出與 LLM 的嵌入空間對齊。而音訊編碼器 ImageBind 具有非常強的多模態對齊能力,它能將不同模態的嵌入對齊到一個共同的空間。因此,作者們使用視覺 - 文字資料來訓練音訊 - 語言分支,將 ImageBind 的公共嵌入空間對齊到 LLM 的文字嵌入空間,從而實現音訊模態到 LLM 文字嵌入空間對齊。透過這種巧妙的方式,Video-LLaMA 能在推理過程中展現出理解音訊的能力,即使從未接受過音訊資料的訓練。

實例展示

作者展示了 Video-LLaMA 基於視訊 / 音訊 / 影像的對話的一些範例。 

(1)下面兩個例子展示了 Video-LLaMA 的視聽綜合感知能力,例子中的會話圍繞著有聲視訊。在例子二中,畫面上僅僅顯示了這個演奏家,但是聲音中是觀眾的歡呼聲和掌聲,如果模型只能接受視覺信號,將無法推測到觀眾的積極響應,音頻中並沒有樂器的聲音,但畫面中出現了薩克斯,如果模型僅能接受聽覺訊號,也將無法得知演奏家演奏了薩克斯風。

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

(2)Video-LLaMA 對於靜態影像也有較強的感知理解能力,可以完成圖片描述,問答等任務。

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

(3)令人驚訝的是,Video-LLaMA 能成功辨識出著名的地標和人物,並且能進行常識性問答。例如下面 VIdeo-LLaMA 就成功辨識出了白宮,並介紹了白宮的情況。又例如輸入龍媽和囧雪的劇照(經典影視劇《權利的遊戲》中角色),VIdeo-LLaMA 不僅能夠成功識別,而且能說出他們剪不斷理還亂的關係。

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

#(4)針對影片的動態事件,Video-llama 也能很好捕捉,例如噓聲的動作,小船行駛的方向。

給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA

總結

#目前,音訊視訊理解依舊是一個非常複雜,尚未有成熟解決方案的研究問題,Video-LLaMA 雖然表現出了令人印象深刻的能力,作者也提到了其存在一些限制。

(1)有限的知覺能力:Video-LLaMA 的視覺聽覺能力仍較為初級,對複雜的視覺聲音訊息依然難以辨認。其中一部分原因是資料集的品質和規模還不夠好。這個研究小組正在努力建立一個高品質的音訊-視訊-文字對齊資料集,以提升模型的感知能力。

(2)難以處理長影片的:長影片 (如電影和電視節目) 包含大量的訊息,對模型的推理能力和計算資源都較高。

(3)語言模型固有的幻覺問題,在 Video-LLaMA 中依然存在。

總的來說,Video-LLaMA 作為一個具有綜合視聽能力的大模型,在音訊視訊理解領域取得了令人印象深刻的效果。隨著研究者的不斷攻堅,以上挑戰也將逐一被克服,使得影音理解模型具有廣泛的實用價值。


#

以上是給語言大模型加上綜合視聽能力,達摩院開源Video-LLaMA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在LLMS中調用工具在LLMS中調用工具Apr 14, 2025 am 11:28 AM

大型語言模型(LLMS)的流行激增,工具稱呼功能極大地擴展了其功能,而不是簡單的文本生成。 現在,LLM可以處理複雜的自動化任務,例如Dynamic UI創建和自主a

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康多動症遊戲,健康工具和AI聊天機器人如何改變全球健康Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

沒有關於AI的投入:獲勝者,失敗者和機遇沒有關於AI的投入:獲勝者,失敗者和機遇Apr 14, 2025 am 11:25 AM

“歷史表明,儘管技術進步推動了經濟增長,但它並不能自行確保公平的收入分配或促進包容性人類發展,”烏托德秘書長Rebeca Grynspan在序言中寫道。

通過生成AI學習談判技巧通過生成AI學習談判技巧Apr 14, 2025 am 11:23 AM

易於使用,使用生成的AI作為您的談判導師和陪練夥伴。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括識別和解釋

泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍泰德(Ted)從Openai,Google,Meta透露出庭,與我自己自拍Apr 14, 2025 am 11:22 AM

在溫哥華舉行的TED2025會議昨天在4月11日舉行了第36版。它的特色是來自60多個國家 /地區的80個發言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主題“人類重新構想”是量身定制的

約瑟夫·斯蒂格利茲(Joseph Stiglitz約瑟夫·斯蒂格利茲(Joseph StiglitzApr 14, 2025 am 11:21 AM

約瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的經濟學家,是諾貝爾經濟獎的獲得者。斯蒂格利茨認為,AI可能會使現有的不平等和合併權力惡化,並在一些主導公司手中加劇,最終破壞了經濟上的經濟。

什麼是圖形數據庫?什麼是圖形數據庫?Apr 14, 2025 am 11:19 AM

圖數據庫:通過關係徹底改變數據管理 隨著數據的擴展及其特徵在各個字段中的發展,圖形數據庫正在作為管理互連數據的變革解決方案的出現。與傳統不同

LLM路由:策略,技術和Python實施LLM路由:策略,技術和Python實施Apr 14, 2025 am 11:14 AM

大型語言模型(LLM)路由:通過智​​能任務分配優化性能 LLM的快速發展的景觀呈現出各種各樣的模型,每個模型都具有獨特的優勢和劣勢。 有些在創意內容gen上表現出色

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具