UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 04, 2023 pm 06:25 PM

理論llava

僅靠視覺（像素）模型能走多遠？ UC 伯克利、約翰霍普金斯大學的新論文探討了這個問題，並展示了大型視覺模型（LVM）在多種 CV 任務上的應用潛力。

最近一段時間以來，GPT 和 LLaMA 等大型語言模型 (LLM) 已經風靡全球。

建立大型視覺模型 (LVM) 是一個備受關注的問題，我們需要什麼來實現它？

LLaVA 等視覺語言模型所提供的想法很有趣，也值得探索，但根據動物界的規律，我們已經知道視覺能力和語言能力二者並不相關。例如許多實驗都表明，非人類靈長類動物的視覺世界與人類的視覺世界非常相似，儘管它們和人類的語言體系「兩模兩樣」。

最新的一篇論文討論了另一個問題的答案，即我們僅靠像素本身能走多遠。該論文由加州大學柏克萊分校和約翰霍普金斯大學的研究人員撰寫

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

#論文連結：https://arxiv.org/ abs/2312.00785
計畫首頁：https://yutongbai.com/lvm.html

研究者試圖在LVM 中效法的LLM的關鍵特徵：1）根據資料的規模成長進行為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長，2）透過提示（上下文學習）靈活地指定任務。

他們指定了三個主要元件，分別是資料、架構和損失函數。

在資料上，研究者想要利用視覺資料中顯著的多樣性。首先只是未標註的原始影像和視頻，然後利用過去幾十年產生的各種標註視覺資料來源（包括語義分割、深度重建、關鍵點、多視圖 3D 物件等）。他們定義了一種通用格式 —— 「視覺句子」（visual sentence），用它來表徵這些不同的註釋，而不需要任何像素以外的元知識。訓練集的總大小為 16.4 億個影像 / 幀。

在架構上，研究者使用大型transformer 架構（30 億參數），在表示為token 序列的視覺資料上進行訓練，並使用學得的tokenizer 將每個影像對應到256 個向量量化的token 字串。

在損失函數上，研究者從自然語言社群汲取靈感，即掩碼 token 建模已經「讓位給了」序列自回歸預測方法。一旦影像、影片、標註影像都可以表示為序列，則訓練的模型可以在預測下一個 token 時最小化交叉熵損失。

透過這個極為簡單的設計，研究者呈現了以下一些值得注意的行為：

隨著模型尺寸和資料大小的增加，模型會自動展現適當的為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長行為
現在很多不同的視覺任務可以透過在測試時設計合適的 prompt 來解決。雖然不像客製化、專門訓練的模型那樣獲得高性能的結果，但單一視覺模型能夠解決如此多的任務這一事實非常令人鼓舞；
大量未經監督的數據對各種視覺任務的表現都有顯著的幫助
在處理分佈外數據和執行新任務時，已經出現了通用視覺推理能力存在的跡象，但仍需要進一步的研究

論文共同一作、約翰霍普金斯大學CS 四年級博士生、伯克利訪問博士生Yutong Bai 發推宣傳了她們的工作。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

^{原文圖來源來自推特帳號：https://twitter.com/YutongBAI1002/status/1731512110247473608}

########## ####在論文作者中，後三位都是UC 柏克萊在CV 領域的資深學者。 Trevor Darrell 教授是伯克利人工智慧研究實驗室 BAIR 創始聯合主任、Jitendra Malik 教授獲得 2019 年 IEEE 電腦先驅獎、 Alexei A. Efros 教授尤以最近鄰研究而聞名。 ###

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

^{由左至右依序為 Trevor Darrell、Jitendra Malik、Alexei A. Efros。}

方法介紹

文章使用兩階段方法：1）訓練一個大型視覺tokenizer（對單一影像進行操作），能夠將每個圖像轉換為一系列視覺token；2）在視覺句子上訓練自回歸transformer模型，每個句子都表示為一系列token。方法如圖2所示

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

圖片Token 化

為了將Transformer 模型套用至影像，典型的操作包括：將影像劃分為patch，並將其視為序列；或使用預先訓練的影像tokenizer，例如VQVAE 或VQGAN，將影像特徵聚集到離散token 網格中。本文採用後者方法，即用 VQGAN 模型產生語意 token。

LVM 框架包括編碼和解碼機制，還具有量化層，其中編碼器和解碼器是用卷積層建構的。編碼器配備了多個下採樣模組來收縮輸入的空間維度，而解碼器配備了一系列等效的上採樣模組以將圖像恢復到其初始大小。對於給定的圖像，VQGAN tokenizer 產生 256 個離散 token。

VQGAN 架構在本文中採用了 Chang 等人提出的實作細節，並遵循了他們的設定。具體而言，下取樣因子為 f=16，碼本大小為 8192。這表示對於大小為 256×256 的圖像，VQGAN tokenizer 會產生 16×16=256 個 token，每個 token 可以採用 8192 個不同的值。此外，本文在LAION 5B 資料集的1.5B 子集上進行了tokenizer 的訓練

視覺句子序列建模

使用VQGAN 將影像轉換為離散token後，本文透過將多個影像中的離散token 連接成一維序列，並將視覺句子視為統一序列。重要的是，所有視覺句子都沒有進行特殊處理 —— 即不使用任何特殊的 token 來指示特定的任務或格式。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

^{視覺句子的功能是將不同的視覺資料格式化成統一的影像序列結構}

實現細節。在將視覺句中的每個圖像 token 化為 256 個 token 後，本文將它們連接起來形成一個 1D token 序列。在視覺 token 序列上，本文的 Transformer 模型其實與自迴歸語言模型相同，因此他們採用 LLaMA 的 Transformer 架構。

本內容使用4096個token的上下文長度，與語言模型相似。在每個視覺句子的開頭添加一個[BOS]（句子開頭）token，末尾添加一個[EOS]（句子結尾）token，並在訓練期間使用序列拼接以提高效率

本文在整個UVDv1資料集（4,200 億個token）上訓練模型，總共訓練了4 個具有不同參數數量的模型：3 億、6 億、10 億和30 億。

實驗結果需要被重寫

該研究進行實驗評估了模型的為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長能力，以及理解和回答各種任務的能力。

為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長

根據圖3所示，該研究首先對不同尺寸的LVM進行了訓練損失的檢查

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

如下圖4 所示，較大的模型在所有任務中複雜度都是較低的，這表示模型的整體表現可以遷移到一系列下游任務。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

根據圖5所示，每個資料組件對下游任務有重要的影響。 LVM不僅可以從更大的資料中受益，還能隨著資料集的多樣性而改進

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

重寫內容，而不改變原意，需要將語言重寫為中文。應該出現原句

為了測試 LVM 對各種 prompt 的理解能力，研究首先在序列推理任務上對 LVM 進行評估實驗。其中，prompt 非常簡單：向模型提供7 張圖像的序列，要求它預測下一張圖像，實驗結果需要重寫如下圖6 所示：

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

研究也將給定類別的項目清單視為序列，讓LVM 預測同一類別的影像，實驗結果需要被重寫如下圖15 所示：

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

那麼，需要多少上下文（context）才能準確預測後續影格？

在這項研究中，我們對模型的幀生成困惑度進行了評估，這是透過給出不同長度（1 到 15 幀）的上下文 prompt 來實現的。結果顯示，困惑度隨著幀數的增加而逐漸改善。具體數據如下圖7 所示，困惑度從1 幀到11 幀有明顯的改善，之後趨於穩定（62.1 → 48.4）

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

Analogy Prompt

這項研究也測試了LVM的高階解釋能力，透過評估更複雜的提示結構，如類比提示

下圖8 顯示了對許多任務進行Analogy Prompt 的定性結果：

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

根據與視覺Prompting 的比較，可以看出序列LVM 在幾乎所有任務上都比以前的方法更優

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

合成任務。圖9顯示了使用單一提示將多個任務組合在一起的結果

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

#其他prompt

研究者試圖透過向模型提供它以往未見過的各種prompt，來觀察模型的為了擴展業務，我們需要尋找新的市場機會。我們計劃進一步擴大產品線，以滿足不斷增長的需求。同時，我們將加強行銷策略，提高品牌知名度。透過積極參與行業展覽和推廣活動，我們將努力開拓更多的客戶群。我們相信，透過這些努力，我們能夠取得更大的成就並實現持續成長能力到底怎樣。下圖 10 展示了一些運作良好的此類 prompt。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

下圖 11 展示了一些用文字難以描述的 prompt，這些任務上 LVM 最終可能會勝過 LLM。

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

在非語言人類IQ 測驗中，圖13 展示了典型視覺推理問題的初步定性結果

UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究

##閱讀原文，了解更多細節。

以上是UC伯克利成功發展通用視覺推理大模型，三位資深學者合力參與研究的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例