BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価-AI-php.cn

ホームページ

テクノロジー周辺機器

BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価

王林

Jul 13, 2023 pm 02:33 PM

データモデル

マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識の蓄積と、マルチモーダルな問題を解決するための強力な推論および一般化機能に依存しています。これまでにいくつかの驚くべきモデルが登場しています。絵を読む、書く、絵を見るなどの能力そしてコードを書くこと。

しかし、これらの事例のみに基づいて MLLM のパフォーマンスを完全に反映することは困難であり、MLLM の総合的な評価はまだ不足しています。

この目的を達成するために、Tencent Youtu Lab と厦門大学は、新しく作成された評価ベンチマーク MM で既存の 12 のオープンソース MLLM モデルの包括的な定量的評価を初めて実施し、16 のランキングを発表しました。知覚と認知の 2 つの一般的なリストと 14 のサブリストを含むリスト:

BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価

論文リンク: https://arxiv.org/pdf / 2306.13394.pdf

プロジェクトリンク: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

MLLM の既存の定量的評価手法は主に 3 つに分類されますが、いずれも一定の限界があり、パフォーマンスを完全に反映することが困難です。

最初のタイプのメソッドは、画像キャプションやビジュアル質問応答 (VQA) データセットなどの従来の公開データセットで評価されます。

しかし、一方では、これらの従来のデータセットは MLLM の新しい機能を反映するのが難しいかもしれません。他方では、大規模モデル時代のトレーニングセットはもはや存在しないため、統合されているため、これらの評価データセットを保証することは困難であり、他の MLLM によってトレーニングされていません。

2 番目の方法は、公開評価用に新しいデータを収集することですが、これらのデータは公開されていないか [1]、または数が少なすぎます (画像が 50 枚のみ) [2]。

3 番目の方法は、物体の幻覚 [3] や敵対的な堅牢性 [4] など、MLLM の特定の側面に焦点を当てており、完全に評価することはできません。

MLLM の急速な発展に合わせて、包括的な評価ベンチマークが緊急に必要とされています。研究者らは、普遍的で包括的な評価ベンチマークには次の特性が必要であると考えています。

(1) 知覚能力や認知能力を含む、可能な限り多くの範囲をカバーする必要があります。前者は、オブジェクトの存在、量、場所、色などを識別することを指します。後者は、より複雑な推論を実行するために、LLM に感覚情報と知識を統合することを指します。前者は後者の基礎です。

(2) データ漏洩のリスクを軽減するために、データまたは注釈は既存の公開データセットの使用をできる限り避けるべきです。

(3) 指示はできる限り簡潔で、人間の認知習慣と一致している必要があります。異なる命令設計はモデルの出力に大きな影響を与える可能性がありますが、公平性を確保するためにすべてのモデルは統一された簡潔な命令に基づいて評価されます。優れた MLLM モデルは、即時エンジニアリングに陥ることを避けるために、そのような簡潔な指示に一般化する機能を備えている必要があります。

(4) この簡潔な指示に基づく MLLM の出力は、定量的な統計にとって直感的で便利なものである必要があります。 MLLM の無制限の回答は、量的統計に大きな課題をもたらします。既存の方法では GPT または手動スコアリングを使用する傾向がありますが、不正確さや主観性の問題に直面する可能性があります。

BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価

# 図 1. MME 評価ベンチマークの例。各絵は 2 つの質問に対応しており、答えはそれぞれ Yes[Y] と No[N] です。質問と「はいまたはいいえで答えてください」を合わせてコマンドを形成します。

上記の理由に基づいて、上記の 4 つの特性を同時に備えた新しい MLLM 評価ベンチマーク MME が構築されました。 1. MME 知覚能力と認知能力は同時に評価されます。 OCR に加えて、センシング機能には、粗粒度および細粒度のターゲット認識が含まれます。前者は、オブジェクトの存在、数量、位置、色を識別します。後者は、映画のポスター、有名人、シーン、ランドマーク、アートワークを識別します。認知能力には、常識的な推論、数値計算、テキストの翻訳、およびコードの推論が含まれます。図 1 に示すように、サブタスクの総数は 14 に達します。

2. MME のすべてのコマンドと応答のペアは手動で構築されます。使用されるいくつかの公開データセットでは、元のアノテーションに依存せずに画像のみが使用されます。同時に、研究者は手動による写真撮影や画像生成を通じてデータを収集することにも全力を尽くしています。

3. MME 命令は、モデル出力に対するプロンプトエンジニアリングの影響を避けるために、できる限り簡潔になるように設計されています。研究者らは、優れた MLLM は、このような簡潔で頻繁に使用される命令を一般化する必要があり、これはすべてのモデルにとって公平であると繰り返しています。各サブタスクの手順を図 1 に示します。

4. 「はいかいいえで答えてください」という命令設計により、モデルが出力する「はい」「いいえ」をもとに定量的な統計を簡単に行うことができます。正確さと客観性を同時に確保できます。研究者らが多肢選択式の質問に対する指示を設計しようとしたことも注目に値しますが、現在の MLLM ではそのような複雑な指示に従うのはまだ難しいことが判明しました。

研究者らは、BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、mPLUG-Owl [2]、 LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、VisualGLM-6B [12]、PandaGPT [13]、ImageBind-LLM [14]、および LaVIN [15] 。

精度、精度、スコアを含む 3 つの統計指標があります。各タスクの精度は質問の統計に基づいており、精度は画像の統計に基づいており (画像に対応する両方の質問に正しく答える必要があります)、スコアは精度と精度の合計です。

知覚の合計スコアは 10 個の知覚サブタスクのスコアの合計であり、認知の合計スコアは 4 つの認知タスクのスコアの合計です。詳細についてはプロジェクトのリンクを参照してください。

#14 のサブタスクにおける 12 のモデルのテストの比較を図 2 に示します。 2. 14 のサブタスクにおける 12 のモデルの比較。各サブタスクの満点は 200 点です。

BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価知覚および認知カテゴリの全体リストと 14 のサブタスクのリストを含む、合計 16 のリストも公開されました。 2 つの全体的なリストをそれぞれ図 3 と図 4 に示しますが、注目に値するのは、BLIP-2 と InstructBLIP がどちらのリストでも上位 3 位に入っていることです。

#図

図 3. 認識タスクの全体リスト

BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価

図 4. 認知タスクの全体リスト

BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価 ##図 5. すべてのリスト

さらに、研究者らは、図 6 に示すように、実験で MLLM モデルによって明らかになったいくつかの一般的な問題も要約し、その後のモデル最適化の指針となることを期待しています。

BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価

図

図 6. MLLM によって明らかにされる一般的な問題。 [Y]/[N] は、実際の答えが Yes/No であることを意味します。 [R] は MLLM によって生成された答えです。

#最初の問題は、指示に従わないことです。 BLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価

非常に簡潔な指示設計が採用されていますが、MLLM には指示に従うのではなく質問に答える自由がまだあります。

図 6 の最初の行に示すように、コマンドには「はいまたはいいえで答えてください」と記載されていますが、MLLM は宣言的な答えしか与えませんでした。回答の先頭に「はい」または「いいえ」が表示されない場合は不正解と判断します。優れた MLLM は、特に命令を微調整した後、このような単純な命令に一般化できる必要があります。 #2 番目の問題は、認識の欠如です。

図 6 の 2 行目に示すように、MLLM は最初の画像のバナナの数と 2 番目の画像の番号を誤って識別し、その結果、不正解の場合。研究者らはまた、同じ画像に対する 2 つの指示が 1 単語だけ異なると、まったく異なる知覚結果が得られるため、知覚パフォーマンスは指示の変更によって容易に影響を受けることにも気づきました。

3 番目の問題は、推論能力の欠如です。

図 6 の 3 行目に示されているように、赤いテキストから、MLLM は最初の写真がオフィススペースではないことをすでに知っていることがわかりますが、それでも「はい」という不正解でした。

同様に、2 番目の図では、MLLM は正しい算術結果を計算しましたが、最終的には間違った答えも出しました。「段階的に考えてみましょう」などの思考連鎖のプロンプトを追加すると、より良い結果が得られる可能性があります。この分野でのより詳細な研究が期待されます。

4 番目の質問は、コマンドのオブジェクトビジョンに続きます。図 6 の 4 行目に示されているように、命令に画像内に存在しないオブジェクトが含まれている場合、MLLM はそのオブジェクトが存在すると想定し、最終的に「はい」と回答します。

常に「はい」と答えるこのアプローチでは、精度は 50% に近く、精度は 0 に近くなります。これは、対象の幻覚を抑制することの重要性を示しており、MLLM によって生成された回答の信頼性についてさらに考える必要もあります。

以上がBLIP-2 と InstructBLIP がトップ 3 にしっかりと入っています。 12の主要モデル、16のリスト、「マルチモーダル大言語モデル」の総合評価の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ChatGPTが使えない！原因とすぐ試せる対処法を解説【2025年最新】May 14, 2025 am 05:04 AM

ChatGptはアクセスできませんか？この記事では、さまざまな実用的なソリューションを提供しています！多くのユーザーは、ChatGPTを毎日使用する場合、アクセス不能や応答が遅いなどの問題に遭遇する可能性があります。この記事では、さまざまな状況に基づいてこれらの問題を段階的に解決するように導きます。 ChatGPTのアクセス不能性と予備的なトラブルシューティングの原因まず、問題がOpenaiサーバー側にあるのか、ユーザー自身のネットワークまたはデバイスの問題にあるのかを判断する必要があります。以下の手順に従って、トラブルシューティングしてください。ステップ1：OpenAIの公式ステータスを確認してください OpenAIステータスページ（status.openai.com）にアクセスして、ChatGPTサービスが正常に実行されているかどうかを確認してください。赤または黄色のアラームが表示されている場合、それは開くことを意味します

ASIのリスクを計算することは、人間の心から始まりますMay 14, 2025 am 05:02 AM

2025年5月10日、MIT物理学者のMax Tegmarkは、AI Labsが人工的なスーパーインテリジェンスを解放する前にOppenheimerの三位一体計算をエミュレートすべきだとGuardianに語った。「私の評価では、「コンプトン定数」、競争が

ChatGPTで作詞・作曲する方法とおすすめツールをわかりやすく解説May 14, 2025 am 05:01 AM

AI Music Creation Technologyは、1日ごとに変化しています。この記事では、ChatGPTなどのAIモデルを例として使用して、AIを使用して音楽の作成を支援し、実際のケースで説明する方法を詳細に説明します。 Sunoai、Hugging Face、PythonのMusic21 Libraryを通じて音楽を作成する方法を紹介します。これらのテクノロジーを使用すると、誰もがオリジナルの音楽を簡単に作成できます。ただし、AIに生成されたコンテンツの著作権問題は無視できないことに注意する必要があります。使用する際には注意する必要があります。音楽分野でのAIの無限の可能性を一緒に探りましょう！ Openaiの最新のAIエージェント「Openai Deep Research」が紹介します。 [chatgpt] ope

ChatGPT-4とは？できることや料金、GPT-3.5との違いを徹底解説！May 14, 2025 am 05:00 AM

ChATGPT-4の出現により、AIアプリケーションの可能性が大幅に拡大しました。 GPT-3.5と比較して、CHATGPT-4は大幅に改善されました。強力なコンテキスト理解能力を備えており、画像を認識して生成することもできます。普遍的なAIアシスタントです。それは、ビジネス効率の改善や創造の支援など、多くの分野で大きな可能性を示しています。ただし、同時に、その使用における予防策にも注意を払わなければなりません。この記事では、ChATGPT-4の特性を詳細に説明し、さまざまなシナリオの効果的な使用方法を紹介します。この記事には、最新のAIテクノロジーを最大限に活用するためのスキルが含まれています。参照してください。 Openaiの最新のAIエージェント、「Openai Deep Research」の詳細については、以下のリンクをクリックしてください

ChatGPTのアプリの使い方を解説！日本語対応で音声会話機能もMay 14, 2025 am 04:59 AM

ChatGPTアプリ：AIアシスタントで創造性を解き放つ！初心者向けガイド ChatGPTアプリは、文章作成、翻訳、質問応答など、多様なタスクに対応する革新的なAIアシスタントです。創作活動や情報収集にも役立つ、無限の可能性を秘めたツールです。この記事では、ChatGPTスマホアプリのインストール方法から、音声入力機能やプラグインといったアプリならではの機能、そしてアプリ利用上の注意点まで、初心者にも分かりやすく解説します。プラグインの制限やデバイス間の設定同期についてもしっかりと触れていきま

ChatGPTの中文版の利用方法は？登録手順や料金について解説May 14, 2025 am 04:56 AM

Chatgpt中国語版：中国語のAIの対話の新しい体験のロックを解除する ChatGptは世界中で人気がありますが、中国語版も提供していることをご存知ですか？この強力なAIツールは、毎日の会話をサポートするだけでなく、プロのコンテンツを処理し、簡素化された伝統的な中国語と互換性があります。中国のユーザーであろうと、中国語を学んでいる友人であろうと、あなたはそれから利益を得ることができます。この記事では、アカウント設定、中国語の迅速な単語入力、フィルターの使用、さまざまなパッケージの選択を含むChatGpt中国語のバージョンの使用方法を詳細に紹介し、潜在的なリスクと対応戦略を分析します。さらに、ChatGpt中国語版を他の中国のAIツールと比較して、その利点とアプリケーションシナリオをよりよく理解するのに役立ちます。 Openaiの最新のAIインテリジェンス

5 AIエージェントの神話あなたは今信じるのをやめる必要がありますMay 14, 2025 am 04:54 AM

これらは、生成AIの分野で次の飛躍と考えることができ、ChatGptやその他の大規模なモデルのチャットボットを提供しました。単に質問に答えたり情報を生成したりするのではなく、彼らは私たちに代わって行動を起こすことができます。

ChatGPTで複数アカウントを作成・管理する不法をわかりやすく解説May 14, 2025 am 04:50 AM

ChatGPTを活用した効率的な複数アカウント管理術｜ビジネスとプライベートの使い分けも徹底解説！様々な場面で活用されているChatGPTですが、複数アカウントの管理に頭を悩ませている方もいるのではないでしょうか。この記事では、ChatGPTの複数アカウント作成方法、利用上の注意点、そして安全かつ効率的な運用方法を詳しく解説します。ビジネス利用とプライベート利用の使い分け、OpenAIの利用規約遵守といった重要な点にも触れ、複数アカウントを安全に活用するためのガイドを提供します。 OpenAI

See all articles