BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価
マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識の蓄積と、マルチモーダルな問題を解決するための強力な推論および一般化機能に依存しています。これまでにいくつかの驚くべきモデルが登場しています。絵を読む、書く、絵を見るなどの能力そしてコードを書くこと。
しかし、これらの事例のみに基づいて MLLM のパフォーマンスを完全に反映することは困難であり、MLLM の総合的な評価はまだ不足しています。
この目的を達成するために、Tencent Youtu Lab と厦門大学は、新しく作成された評価ベンチマーク MM で既存の 12 のオープンソース MLLM モデルの包括的な定量的評価を初めて実施し、16 のランキングを発表しました。知覚と認知の 2 つの一般的なリストと 14 のサブリストを含むリスト:
論文リンク: https://arxiv.org/pdf / 2306.13394.pdf
プロジェクト リンク: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
MLLM の既存の定量的評価手法は主に 3 つに分類されますが、いずれも一定の限界があり、パフォーマンスを完全に反映することが困難です。
最初のタイプのメソッドは、画像キャプションやビジュアル質問応答 (VQA) データセットなどの従来の公開データセットで評価されます。
しかし、一方では、これらの従来のデータセットは MLLM の新しい機能を反映するのが難しいかもしれません。他方では、大規模モデル時代のトレーニング セットはもはや存在しないため、統合されているため、これらの評価データセットを保証することは困難であり、他の MLLM によってトレーニングされていません。
2 番目の方法は、公開評価用に新しいデータを収集することですが、これらのデータは公開されていないか [1]、または数が少なすぎます (画像が 50 枚のみ) [2]。
3 番目の方法は、物体の幻覚 [3] や敵対的な堅牢性 [4] など、MLLM の特定の側面に焦点を当てており、完全に評価することはできません。
MLLM の急速な発展に合わせて、包括的な評価ベンチマークが緊急に必要とされています。研究者らは、普遍的で包括的な評価ベンチマークには次の特性が必要であると考えています。
(1) 知覚能力や認知能力を含む、可能な限り多くの範囲をカバーする必要があります。前者は、オブジェクトの存在、量、場所、色などを識別することを指します。後者は、より複雑な推論を実行するために、LLM に感覚情報と知識を統合することを指します。前者は後者の基礎です。
(2) データ漏洩のリスクを軽減するために、データまたは注釈は既存の公開データセットの使用をできる限り避けるべきです。
(3) 指示はできる限り簡潔で、人間の認知習慣と一致している必要があります。異なる命令設計はモデルの出力に大きな影響を与える可能性がありますが、公平性を確保するためにすべてのモデルは統一された簡潔な命令に基づいて評価されます。優れた MLLM モデルは、即時エンジニアリングに陥ることを避けるために、そのような簡潔な指示に一般化する機能を備えている必要があります。
(4) この簡潔な指示に基づく MLLM の出力は、定量的な統計にとって直感的で便利なものである必要があります。 MLLM の無制限の回答は、量的統計に大きな課題をもたらします。既存の方法では GPT または手動スコアリングを使用する傾向がありますが、不正確さや主観性の問題に直面する可能性があります。
# 図 1. MME 評価ベンチマークの例。各絵は 2 つの質問に対応しており、答えはそれぞれ Yes[Y] と No[N] です。質問と「はいまたはいいえで答えてください」を合わせてコマンドを形成します。
上記の理由に基づいて、上記の 4 つの特性を同時に備えた新しい MLLM 評価ベンチマーク MME が構築されました。 1. MME 知覚能力と認知能力は同時に評価されます。 OCR に加えて、センシング機能には、粗粒度および細粒度のターゲット認識が含まれます。前者は、オブジェクトの存在、数量、位置、色を識別します。後者は、映画のポスター、有名人、シーン、ランドマーク、アートワークを識別します。認知能力には、常識的な推論、数値計算、テキストの翻訳、およびコードの推論が含まれます。図 1 に示すように、サブタスクの総数は 14 に達します。
2. MME のすべてのコマンドと応答のペアは手動で構築されます。使用されるいくつかの公開データセットでは、元のアノテーションに依存せずに画像のみが使用されます。同時に、研究者は手動による写真撮影や画像生成を通じてデータを収集することにも全力を尽くしています。
3. MME 命令は、モデル出力に対するプロンプト エンジニアリングの影響を避けるために、できる限り簡潔になるように設計されています。研究者らは、優れた MLLM は、このような簡潔で頻繁に使用される命令を一般化する必要があり、これはすべてのモデルにとって公平であると繰り返しています。各サブタスクの手順を図 1 に示します。
4. 「はいかいいえで答えてください」という命令設計により、モデルが出力する「はい」「いいえ」をもとに定量的な統計を簡単に行うことができます。正確さと客観性を同時に確保できます。研究者らが多肢選択式の質問に対する指示を設計しようとしたことも注目に値しますが、現在の MLLM ではそのような複雑な指示に従うのはまだ難しいことが判明しました。
研究者らは、BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、mPLUG-Owl [2]、 LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、VisualGLM-6B [12]、PandaGPT [13]、ImageBind-LLM [14]、および LaVIN [15] 。
精度、精度、スコアを含む 3 つの統計指標があります。各タスクの精度は質問の統計に基づいており、精度は画像の統計に基づいており (画像に対応する両方の質問に正しく答える必要があります)、スコアは精度と精度の合計です。
知覚の合計スコアは 10 個の知覚サブタスクのスコアの合計であり、認知の合計スコアは 4 つの認知タスクのスコアの合計です。詳細についてはプロジェクトのリンクを参照してください。
#14 のサブタスクにおける 12 のモデルのテストの比較を図 2 に示します。 2. 14 のサブタスクにおける 12 のモデルの比較。各サブタスクの満点は 200 点です。
知覚および認知カテゴリの全体リストと 14 のサブタスクのリストを含む、合計 16 のリストも公開されました。 2 つの全体的なリストをそれぞれ図 3 と図 4 に示しますが、注目に値するのは、BLIP-2 と InstructBLIP がどちらのリストでも上位 3 位に入っていることです。
#図
図 3. 認識タスクの全体リスト
図 4. 認知タスクの全体リスト
##図 5. すべてのリスト
さらに、研究者らは、図 6 に示すように、実験で MLLM モデルによって明らかになったいくつかの一般的な問題も要約し、その後のモデル最適化の指針となることを期待しています。
図
図 6. MLLM によって明らかにされる一般的な問題。 [Y]/[N] は、実際の答えが Yes/No であることを意味します。 [R] は MLLM によって生成された答えです。
#最初の問題は、指示に従わないことです。
非常に簡潔な指示設計が採用されていますが、MLLM には指示に従うのではなく質問に答える自由がまだあります。
図 6 の最初の行に示すように、コマンドには「はいまたはいいえで答えてください」と記載されていますが、MLLM は宣言的な答えしか与えませんでした。回答の先頭に「はい」または「いいえ」が表示されない場合は不正解と判断します。優れた MLLM は、特に命令を微調整した後、このような単純な命令に一般化できる必要があります。 #2 番目の問題は、認識の欠如です。
図 6 の 2 行目に示すように、MLLM は最初の画像のバナナの数と 2 番目の画像の番号を誤って識別し、その結果、不正解の場合。研究者らはまた、同じ画像に対する 2 つの指示が 1 単語だけ異なると、まったく異なる知覚結果が得られるため、知覚パフォーマンスは指示の変更によって容易に影響を受けることにも気づきました。
3 番目の問題は、推論能力の欠如です。
図 6 の 3 行目に示されているように、赤いテキストから、MLLM は最初の写真がオフィス スペースではないことをすでに知っていることがわかりますが、それでも「はい」という不正解でした。
同様に、2 番目の図では、MLLM は正しい算術結果を計算しましたが、最終的には間違った答えも出しました。 「段階的に考えてみましょう」などの思考連鎖のプロンプトを追加すると、より良い結果が得られる可能性があります。この分野でのより詳細な研究が期待されます。
4 番目の質問は、コマンドのオブジェクト ビジョンに続きます。図 6 の 4 行目に示されているように、命令に画像内に存在しないオブジェクトが含まれている場合、MLLM はそのオブジェクトが存在すると想定し、最終的に「はい」と回答します。
常に「はい」と答えるこのアプローチでは、精度は 50% に近く、精度は 0 に近くなります。これは、対象の幻覚を抑制することの重要性を示しており、MLLM によって生成された回答の信頼性についてさらに考える必要もあります。
以上がBLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。 しかし、これはBusineにとって何を意味しますか

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。 クラウドコンピューティングとセキュリティレッスンの台頭 で

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル(LLM)と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。 これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル(LLMS)、強力なAIシステムの例です。

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64%減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。 新しい

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません
