首頁 >科技週邊 >人工智慧 >多模態模型評測框架lmms-eval發布！全面覆蓋，低成本，零污染

多模態模型評測框架lmms-eval發布！全面覆蓋，低成本，零污染

王林原創: 2024-08-21 16:38:07578瀏覽

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

隨著大模型研究的深入，如何將其推廣到更多的模態上已經成為了學術界和產業界的熱點。最近發布的閉源大模型如 GPT-4o、Claude 3.5 等都已經具備了超強的圖像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等開源領域模型也展現了越來越接近閉源的性能。

在這個「畝產八萬斤」，「10 天一個SoTA」的時代，簡單易用、標準透明、可復現的多模態評估框架變得越來越重要，而這並非易事。

為解決以上問題，來自南洋理工大學LMMs-Lab 的研究人員聯合開源了LMMs-Eval，這是一個專為多模態大型模型設計的評估框架，為多模態模型（LMMs ）的評測提供了一站式、高效的解決方案。

多模態模型評測框架lmms-eval發布！全面覆蓋，低成本，零污染

程式碼倉庫: https://github.com/EvolvingLMMs-Lab/lmms-eval
官方首頁: https://lmms-lab.github.io/
論文地址: https://arxiv.org/abs/2407.12772
榜單地址：https://huggingface.co/spaces/lmms-lab/LiveBench

自2024 年3 月發布以來， LMMs-Eval 框架已經收到了來自開源社群、公司和大學等多方的協作貢獻。現已在 Github 上獲得 1.1K Stars，超過 30+ contributors，總計包含 80 多個數據集和 10 多個模型，並且還在持續增加中。

標準化評估框架

為了提供一個標準化的評估平台，LMMs-Eval 包含了以下特性：

統一接口: LMMs-Eval 在文本測評框架lm-evaluation-harness 的基礎上進行了改進和擴展，通過定義模型、數據集和評估指標的統一接口，方便了用戶自行新增新的多模態模型和資料集。
一鍵式啟動：LMMs-Eval 在HuggingFace 上託管了80 多個（且數量不斷增加）資料集，這些資料集精心從原始來源轉換而來，包括所有變體、版本和分割。使用者無需進行任何準備，只需一條命令，多個資料集和模型將自動下載並測試，等待幾分鐘即可獲得結果。
透明可復現：LMMs-Eval 內建了統一的logging 工具，模型回答的每一題以及正確與否都會被記錄下來，保證了可復現性和透明性。同時也方便比較不同模型的優勢與缺陷。

LMMs-Eval 的願景是未來的多模態模型不再需要自行編寫資料處理、推理以及提交程式碼。在當今多模態測試集高度集中的環境下，這種做法既不現實，測得的分數也難以與其他模型直接比較。透過連接 LMMs-Eval，模型訓練者可以將更多精力集中在模型本身的改進和最佳化上，而不是在評測和對齊結果上耗費時間。

評測的「不可能三角」

LMMs-Eval 的最終目標是找到一種1. 覆蓋廣2.成本低3.零資料外洩的方法來評估LMMs。然而，即使有了 LMMs-Eval，作者團隊發現想同時做到這三點困難重重，甚至是不可能的。

如下圖所示，當他們將評估資料集擴展到 50 多個時，執行這些資料集的全面評估變得非常耗時。此外，這些基準在訓練期間也容易受到污染的影響。為此， LMMs-Eval 提出了 LMMs-Eval-Lite 來兼顧廣覆蓋和低成本。他們也設計了 LiveBench 來做到低成本和零資料外洩。

LMMs-Eval-Lite: 廣覆蓋輕量級評估

在評測大模型時，往往龐大的參數量和測試任務會使得評測任務的時間和成本急劇上升，因此大家往往會選擇使用較小的數據集或是使用特定的資料集進行評測。然而，有限的評測往往會讓模型能力的理解缺失，為了同時兼顧評測的多樣性和評測的成本，LMMs-Eval 推出了LMMs-Eval-Lite

LMMs-Eval-Lite 旨在建立一個簡化的基準測試集，以在模型開發過程中提供有用且快速的訊號，從而避免現在測試的臃腫問題。如果我們能夠找到現有測試集的子集，在這上面的模型之間的絕對分數和相對排名與全集保持相似，那麼我們可以認為修剪這些資料集是安全的。

為了找到資料集中的資料顯著點，LMMs-Eval 首先使用CLIP 和BGE 模型將多模態評測資料集轉換為向量嵌入的形式並使用k-greedy 聚類的方法找到了數據顯著點。在測驗中，這些規模較小的資料集仍展現出與全集相似的評測能力。

隨後LMMs-Eval 使用了相同的方法製作了涵蓋更多資料集的Lite 版本，這些資料集旨在幫助人們節省開發中的評測成本，以便快速判斷模型效能

LiveBench: LMMs 動態測驗

傳統基準著重於使用固定問題和答案的靜態評估。隨著多模態研究的進展，開源模型在分數比較往往優於商用模型，如 GPT-4V，但在實際使用者體驗上卻有所不及。動態的、使用者導向的 Chatbot Arenas 和 WildVision 在模型評估中越來越受歡迎，但是它們需要收集成千上萬的使用者偏好，評估成本極高。

LiveBench 的核心思想是在一個不斷更新的資料集上評估模型的性能，以實現零污染且保持低成本。作者團隊從網路上收集評估數據，並建立了一條 pipeline，自動從新聞和社區論壇等網站收集最新的全球資訊。為了確保訊息的及時性和真實性，作者團隊從包括 CNN、BBC、日本朝日新聞和中國新華社等 60 多個新聞媒體，以及 Reddit 等論壇中選擇來源。具體步驟如下：

捕捉主頁截圖並移除廣告和非新聞元素。
使用目前最強大的多模態模型（如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro）設計問題和答案集。由另一個模型審查修訂
問題，確保準確性和相關性。
人工審查最終的問答集，每月收集約 500 個問題，保留 100-300 個作為最終的 livebench 問題集。
採用 LLaVA-Wilder 和 Vibe-Eval 的評分標準 -- 評分模型根據提供的標準答案評分，得分範圍為 [1, 10]。預設評分模型為 GPT-4o，也包含 Claude-3-Opus 和 Gemini 1.5 Pro 作為替代品。最終的報告結果將基於得分轉換為 0 到 100 的準確率指標。

未來也可以在我們動態更新的榜單裡查看多模態模型在每個月動態更新的最新評測數據，以及在最新評測數據，以及在最新評測數據榜單上的最新評測的結果。

以上是多模態模型評測框架lmms-eval發布！全面覆蓋，低成本，零污染的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Logging 接口 github cnn https gpt

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：英偉達首個AI NPC進駐遊戲，國產大作，4B模型只需2G顯存下一篇：英偉達首個AI NPC進駐遊戲，國產大作，4B模型只需2G顯存

看更多