搜尋
首頁科技週邊人工智慧將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

大型視覺語言模型(LVLM)可以透過擴展模型來提高效能。然而,擴大參數規模會增加訓練和推理成本,因為每個token的計算都會啟動所有模型參數。

來自北京大學、中山大學等機構的研究者聯合提出了一種新的訓練策略,名為MoE-Tuning,用於解決多模態學習和模型稀疏性相關的表現下降問題。 MoE-Tuning能夠建立參數數量驚人但計算成本恆定的稀疏模型。此外,研究者還提出了一種基於MoE的新型稀疏LVLM架構,稱為MoE-LLaVA框架。在這個框架中,透過路由演算法只啟動前k個專家,其餘專家則保持非活動狀態。透過這種方式,MoE-LLaVA框架在部署過程中能夠更有效率地利用專家網路的資源。這些研究成果為解決LVLM模型在多模態學習和模型稀疏性方面的挑戰提供了新的解決方案。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

  • 論文網址:https://arxiv.org/abs/2401.15947

  • 計畫網址: https://github.com/PKU-YuanGroup/MoE-LLaVA

  • Demo網址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

  • 論文題目:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA 只有3B 個稀疏激活參數,表現卻與LLaVA- 1.5-7B 在各種視覺理解資料集上相當,甚至在物體幻覺基準測試中甚至超越了LLaVA-1.5-13B。透過 MoE-LLaVA,該研究旨在建立稀疏 LVLMs 的基準,並為未來研究開發更有效率和更有效的多模態學習系統提供寶貴的見解。 MoE-LLaVA 團隊已經開放了所有的資料、程式碼和模型。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖1 MoE-LLaVA 在幻覺表現上和其他LVLM 的比較

方法簡介

MoE-LLaVA 採用三階段的訓練策略。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖2 MoE-Tuning 的流程圖

如圖2 所示,視覺編碼器(vision encoder)處理輸入圖片得到視覺token 序列。利用一個投影層將視覺 token 映射成 LLM 可接受的維度。類似地,與圖片配對的文字經過一個字嵌入層(word embedding layer)被投影得到序列文字 token。

階段 1:如圖 2 所示,階段 1 的目標是讓視覺 token 適應到 LLM,賦予 LLM 看懂圖片的實體有哪些的能力。 MoE-LLaVA 採用一個 MLP 來將圖片 token 投影到 LLM 的輸入域,這表示一個個圖片小 patch 被 LLM 當作偽文字 token。在這個階段,LLM 被訓練學會描述圖片,理解更高層次的圖片語意。在這個階段 MoE 層不會被應用到 LVLM 中。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖3 更具體的訓練框架和訓練策略

#階段2:用多模態的指令數據來微調是提高大模型能力和可控性的關鍵技術,並且在這個階段LLM 被調整為有多模態理解能力的LVLM。在這個階段研究加入更複雜的指令,包含圖片邏輯推理,文字辨識等高階任務,要求模型有更強的多模態理解能力。通常來說,稠密模型的 LVLM 到此就訓練完成,然而研究團隊發現同時將 LLM 轉為 LVLM 和把模型稀疏化是具有挑戰的。因此,MoE-LLaVA 將使用第二階段的權重作為第三階段的初始化以降低稀疏模型學習的難度。

階段 3:MoE-LLaVA 將 FFN 複製多份作為專家集合的初始化權重。當視覺token 和文字token 被餵入MoE 層時,router 會計算每個token 和專家們的匹配權重,然後每個token 會被送入最匹配的top-k 個專家進行處理,最後根據router 的權重加權求和匯聚成輸出。當 top-k 個專家被激活時,其餘的專家保持非活動狀態,這種模型構成了具有無限可能的稀疏通路的 MoE-LLaVA。

實驗

#如圖4 所示,由於MoE-LLaVA 是第一個基於LVLM 搭載soft router 的稀疏模型,因此研究將先前的模型歸納為稠密模型。研究團隊在 5 個圖片問答 benchmark 上驗證了 MoE-LLaVA 的性能,並報告了激活的參數量和圖片解析度。與 SOTA 方法 LLaVA-1.5 相比,MoE-LLaVA-2.7B×4 展現了強大的圖片理解能力,在 5 個 benchmark 上表現非常接近 LLaVA-1.5。其中 MoE-LLaVA 以 3.6B 的稀疏活化參數在 SQAI 上超過了 LLaVA-1.5-7B 1.9%。值得注意的是,由於 MoE-LLaVA 的稀疏結構,只需要 2.6B 的活化參數量就能全面超過 IDEFICS-80B。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖4 MoE-LLaVA 在9 個benchmark 上的效能

另外,研究團隊也關注到最近的小視覺語言模型TinyGPT-V,MoE-LLaVA-1.8B×4 在相當的活化參數下在GQA 和VisWiz 分別超過TinyGPT-V 27.5% 和10%,這標誌著MoE-LLaVA 強大的理解能力在自然視覺中。

為了更全面地驗證 MoE-LLaVA 的多模態理解能力,該研究在 4 個 benchmark toolkit 上評估了模型性能。 benchmark toolkit 是驗證模型能否自然語言問答的工具包,通常答案是開放性的且無固定模板。如圖 4 所示,MoE-LLaVA-1.8B×4 超過了 Qwen-VL,後者使用更大的圖片解析度。這些結果都展示了 MoE-LLaVA 這個稀疏模型可以用更少的激活參數達到和稠密模型相當甚至超過的性能。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖5 MoE-LLaVA 在幻覺物件偵測上的表現評估

##該研究採用POPE 評估pipeline 來驗證MoE-LLaVA 的物體幻覺,結果如圖5 所示,MoE-LLaVA 展現出最佳的性能,意味著MoE-LLaVA 傾向於生成與給定圖像一致的對象。具體的,MoE-LLaVA-1.8B×4 以 2.2B 的活化參數超過了 LLaVA。另外,研究團隊觀察到 MoE-LLaVA 的 yes ratio 佔比處於較均衡狀態,這表明稀疏模型 MoE-LLaVA 能夠根據問題做出正確的回饋。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖6 專家負載視覺化

圖6 展示了在 ScienceQA 上 MoE-LLaVA-2.7B×4-Top2 的專家負荷。整體上,在訓練初始化時,所有的 MoE 層 中的專家的負荷都比較平衡。然而隨著模型逐漸被稀疏化,第 17 到 27 層的專家的負荷突然增大,甚至幾乎包辦了所有 token。對於淺層的 5-11 層,主要是由專家 2、3、4 共同合作。值得關注的是,專家 1 幾乎只在第 1-3 層工作,隨著模型變深,專家 1 逐漸退出了工作。因此,MoE-LLaVA 的專家們學到了某種特定的模式,它能夠按照一定的規律進行專家分工。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖 7 模態分佈視覺化

#圖 7 展示了不同專家的模態分佈。研究發現 text 和 image 的路由分佈極為相似,例如當專家 3 在 17-27 層努力工作時,它所處理的 text 和 image 的佔比是相似的。這顯示 MoE-LLaVA 對於模態並無明顯的偏好。

該研究也在 token level 上觀察了專家們的行為,並在下游任務上追蹤所有 token 在稀疏網路中的軌跡。對於 text 和 image 所有活化的通路,研究採用 PCA 降維得到主要的 10 條通路,如圖 8 所示。研究團隊發現對於某個未見的 text token 或 image token,MoE-LLaVA 總是偏向派發專家 2 和 3 來處理模型深層。專家 1、4 傾向於處理初始化的 token。這些結果能夠幫助我們更好地理解稀疏模型在多模態學習上的行為,並探索未知的可能性。

將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

圖 8 活化路徑視覺化

以上是將多模態大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境