AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の著者、Zhang Tianyu はカナダのミラ人工知能研究所で学び、チューリング賞受賞者のヨシュア ベンジオ教授に師事しました。 。博士課程の主な研究は、マルチモーダル、GFlowNet、マルチエージェント強化学習、気候変動における AI の応用に焦点を当てていました。現在、ICML、ICLR、ICASSP などの主要な機械学習カンファレンスで論文を発表しています。特徴融合とキーワードからキャプションへの拡張 (CLAP) を使用した大規模な対照的言語音声事前トレーニングとして表されます。
汎用人工知能AGIの最終目標を達成するには、まずモデルが人間が簡単に実行できるタスクを完了できなければなりません。これを行うために、大規模モデル開発の重要なガイドラインの 1 つは、機械に人間のように考え、推論させる方法です。注意メカニズムや思考連鎖などのテクノロジーはこれに触発されました。 しかし、多くの人は、人間にとっての非常に単純な認知タスクの多くが、多くの場合、非常に複雑な推論プロセスを伴うことに気づいていないかもしれません。例として、以下の画像に基づいてブロックされたテキストのギャップを埋めてみてください:
(正解: 世界中の機械学習研究者が新しい GPU に興奮しています。その最先端の機能により、大規模な処理も可能になります) -スケール実験は、ストーブほどの大きさであっても、より効率的で安価です) ほとんどの中国語を母語とする人にとって、このタスクは難しいことではなく、わずか数秒で答えが得られると思います。 。しかし、テキストの露出部分から完全なテキストを推測するには、依然として非常に複雑な推論プロセスが必要です。現代の神経科学の研究では、部分的に遮られたオブジェクトを回復するには、高度な意思決定ができる前頭前野の高度な関与が必要であることがわかっています。 -製作中。 現在の視覚言語モデル (Vision-Language Model、VLM) はオブジェクト認識とテキスト認識を非常に正確に実行できることがわかっています。ただし、遮蔽された部分がテキストである場合、モデルの光学式文字認識 (OCR) が失敗した場合、重要な情報が遮蔽されたテキストの数ピクセルのみである場合、モデルはこのタスクを完了するために人間の推論プロセスをシミュレートできますか? この目的を達成するために、チューリング賞受賞者Yoshua Bengioのチームは、新しいビジュアルQ&Aタスク: ビジュアルキャプション修復(VCR)を提案しました。このタスクを使用して、視覚言語モデルの推論機能を調べてみましょう: 現在の視覚言語モデルは人間の認知レベルからどのくらい離れていますか?
- 論文タイトル: VCR: Visual Caption Restoration
- 論文リンク: arxiv.org/abs/2406.06462
- コードリポジトリ: github.com/tianyu-z/VCR (クリックすると原文が直接読めます)モデルの評価と事前トレーニングのためのデータ生成コードのレビューを含むアクセス)
- Hugging Face リンク:huggingface.co/vcr-org
開発のために VCR タスクのために、研究者たちは画像テキストから VCR 合成画像を生成するプロセスを構築しました。このプロセスでは、テキストを覆う白い四角形のサイズを制御することで、画像内のテキストの可視性を変更することができ、それによってタスクの難易度を制御することができます。 このデータ生成プロセスにより、研究者は
Wikipediaのメイン画像と紹介のペアを介してVCR-wikiデータセットを生成しました。どちらの言語にも、「Easy」と「Hard」の 2 つの難易度があります。その中には、
- 「簡単な」難しい VCR タスク
「難しい」 VCR タスク - は、隠されたテキストごとに 1 ~ 2 個の上部と下部のみを保持します。ピクセル ですが、対応する言語のユーザーがタスクを完了できるようにします。
各言語と難易度で、テスト セットと検証セットに 5000 のサンプルがあり、残りのサンプルはトレーニング セットにあります。
記事の冒頭の例は単なる例です人間にとって小さな挑戦では、この作業を行う人間の究極のレベルと人間の思考とスキルを十分に示すことはできません。問題を解決するときに使用します。難易度「ハード」の VCR ミッションのサンプルを以下に示します。読者は、自分の下にある空白のテキストのギャップを埋めることに、より集中して取り組むことができます。
(正解: 大論文。西暦約 140 年に古代ギリシャのプトレマイオスによって編纂された数学と天文学に関する論文で、星や惑星の複雑な運動経路を提案しました。中世およびルネサンス初期までは、この本で提案されている地動説モデルはイスラム教とヨーロッパで採用されました...)人間はどのようにして部分的に隠されたテキストを完成させるのでしょうか?
と呼ばれる概念があります。 AI を設計するとき、私たち人間は、教師として、
自分の思考プロセスのモニタリングを参考にして、モデルとなる生徒の学習効率を向上させることができます。したがって、「人間がどのように VCR タスクを完了するか」を考えることは、モデルの設計に有益となる可能性があります。 下の図は、参考として、VCR タスクに対する著者の問題解決アイデアの 1 つを示しています。
多くのステップがあるように見えますが、実際には、さまざまな手段を通じて常に情報を取得しているだけです。領域 を確認し、それを繰り返し検証
最初に写真を見たとき、私の頭の中には漠然とした推測しかありませんでしたが、新しい情報を得るために写真を読み続けるうちに、徐々にその推測が検証されました。読んだ後、空欄を埋め始めても、答えを確認するために情報のさまざまな側面を比較することをやめません。 「仮説」が他の情報と一致しない場合、「仮説」は覆され、新たな仮説が再試行されます。
人間の評価結果
人間はVCRタスクにおいてどれくらい優れていますか? 下の表は、簡単/難しい設定における英語/中国語の各言語のネイティブ スピーカーまたは流暢なユーザーの正確さを示しています:
時間、地名、人名などの誤差を考慮すると、難易度が簡単な中国語の平均正解率は約98.58%、難易度が難しい中国語の平均正解率は約91.84%となります。これらの時間、地名、人名による誤差を除けば、人間は易しい中国語の難易度ではほぼ満点に近く、中国語の難しい難易度の正答率も96.63%に達しました。ご覧のとおり、VCR タスクは人間にとって非常に簡単です。 著者は「オールスターラインナップ」をテストしました:Claude 3 Opus、Claude 3.5 Sonnet、Gemini 1.5 Pro、GPT-4o、GPT-4 Turbo、Qwen-VL - Max、Reka Core、および現在入手可能な最もパフォーマンスの高いオープンソース モデルのいくつか。 次の図は、VCR-Wiki 中国語の簡単な難易度での各モデルのパフォーマンスを示しています:
赤いボックスの測定指標には、画像 (VI) および画像内の テキスト ( TEI) 2 つの部分はコンテキスト情報として使用され、モデルは不明瞭なテキストの精度を復元できます。青いボックスは、画像内のテキスト (TEI) のみがコンテキスト情報として含まれており、画像 (VI) は含まれていないことを示します。
- 大多数のモデルは画像情報をうまく活用していません。 、画像情報のせいではありません (VI) そして精度を向上させます。
難易度中国語ハード で、モデルはさらに大きな問題に遭遇しました。最高のパフォーマンスを発揮するのは GPT-4o ですが、その精度はわずか 2.2% です。 CogVLM2- Chinese と Qwen-VL-Max を除いて、ほとんどのモデルの精度は 0% に近いです。 ハードモードでは、元のモデルは、人間に近づくことはおろか、この質問にかなりの割合で正しく答えるのに苦労していることが観察できます。 著者はまた、英語 VCR-Wiki で現在最良のオープン ソースおよびクローズド ソースの視覚言語モデルをテストしました。テスト結果を示す前に、英語の VCR-Wiki タスクの 2 つの例を見てください:
(正解: 米国郵便局が最初の切手を発行して以来) 1847 年、4,000 を超える切手が発行され、800 人を超える人物が登場しました...)
(正解: リンカーンはアメリカの自動車メーカーの高級車部門です。フォード。米国のトップ高級車ブランドとして販売されています。全体的な結果を見ると、モデルは英語のイージーモードとハードモードの両方で中国語よりも優れたパフォーマンスを示しています。この結果は、「特殊なモジュール構成のため、不完全な中国語が完成する可能性が高い」という私たちの一般的な直感と矛盾します。おそらくこれは、事前トレーニング プロセスにおいて、データ量とデータ品質の点で英語の方が中国語よりも優れているためです。 テストされた多くのモデルの中で、GPT-4oはクローズドソースモデルの中で最高であり、CogVLM2はオープンソースモデルの中で最高です。 非常に興味深い現象は、画像の追加により CogVLM2 が大幅に向上した (ハード モードで 20.3% 増加) のに対し、GPT-4o では結果が低下したことです。中国語の試験でも同様の現象が見られます。著者はこれはモデルの構造に起因すると考えています。具体的な詳細については、CogVLM シリーズの論文とコードを参照してください。 さらに、クローズドソース モデルは一般に、オープンソース モデルよりも優れた結果を達成します。これは、より優れたトレーニング戦略またはより多くのモデル パラメーターに起因すると考えられます。しかしそれでも、このモデルは「難しい」設定において大きな課題に直面しました。オープンソース モデルは「簡単な」設定を部分的に完了できますが、難しい設定では、ほとんどのオープンソース モデルは人間にとって非常に簡単なこのタスクを完了できません。 Visual Question Answering (VQA) タスクでは、モデルが入力画像と自然言語の質問に基づいて自由形式の回答を生成する必要があります。 単一の標準的な答えがないため、VQA の評価は非常に困難です。従来の VQA メソッドは主に、画像に埋め込まれたテキスト コンテンツと画像コンテキスト全体の間の複雑な関係を考慮せず、画像内の可視要素を直接クエリすることに重点を置いています。 テキストが画像内の情報の大部分を占める一部の VQA 評価では、モデルのビジュアル モジュールが言語モジュールとまったく連携せずにジョブを実行できる場合もあります。このタイプのプロセスは、画像が OCR ビジュアル モジュールに入力され、OCR ビジュアル モジュールが画像内の文字情報を出力し、これを言語モジュールに入力するためのコンテキストとして使用します。これにより、VQA タスクは画像情報を必要としない QA タスクに縮退します。当初比較された異なる VLM に必要なビジュアル モジュールの位置合わせ機能は無視されましたが、OCR 機能は重視されました。 光学式文字認識 (OCR) タスクは通常、画像のコンテキストに関係なく、画像内の完全な文字を入力し、画像内の文字を表す文字列テキストを出力します。 事前トレーニングされた OCR モデルは、テキストが不完全または不鮮明な場合でも、入力画像から埋め込まれたテキストを抽出できます。ただし、テキストコンポーネントがぼやけたり隠れたりする程度が大きくなると、表示されている部分のみを使用して元のテキストを復元することが困難になり、この場合OCR手法の有効性は限定されます。 VQA タスクには標準的な回答がなく、模範回答の品質を評価することはまだ未解決の問題であることがわかります。 OCR タスクは完了するためにコンテキストを必要とせず、モデルが実際にコンテキスト内の情報の利用方法を学習したかどうかをテストすることは不可能です。 ビジュアルキャプション復元(VCR)タスクは、画像内の遮蔽されたテキストを復元することを目的としています、このタスクはによってサポートされていますVQAとOCR間のブリッジの構築。
- VCR タスク特有の課題は、モデルが視覚情報とテキスト情報の間の正確な位置合わせを行う必要があることです。これは、OCR の単純なテキスト抽出タスクとは大きく対照的です。 OCR の主な関心事は、画像の物語における文脈上の関連性を理解せずに、目に見える文字を認識することです。対照的に、VCR では、遮蔽されたコンテンツを正確に再構築するために、利用可能な部分的なピクセル レベルのテキスト キューと視覚的コンテキストを連携して利用するモデルが必要です。これは、埋め込まれたテキストや視覚要素を処理するモデルの能力をテストするだけでなく、人間がコンテキストや視覚的な手がかりを通じて理解し、反応する認知プロセスと同様に、内部一貫性を維持する能力もテストします。
VQA とは異なり、- VCR タスクの質問には固有の回答があり、精度を通じて評価を行うことができ、評価指標がより明確になります。
- テキストの被覆率を調整することで、タスクの難易度をコントロールすることができ、充実したテスト環境を提供します。
OCR タスクと同様に、VCR タスクも VLM のトレーニング タスクとして機能します。著者らは、任意の画像とテキストのペアに対して VCR タスク グラフを生成できるオープン ソースの変換コードを作成します。
この論文で提案されているビジュアルキャプション回復 (VCR) タスクは、一見単純な字幕回復タスクを通じて、既存のモデルの画像とテキストの位置合わせの限界と推論の違いを巧みに明らかにします。高レベルの認知タスクにおけるモデルと人間の間の能力。このタスクは、将来的にはより効果的な VLM トレーニング、評価、および推論方法を刺激し、マルチモーダル モデルと人間の認知能力の間のギャップをさらに埋めることができると考えられています。 以上がBengio チームは、Claude 3.5 と GPT-4o の弱点をターゲットにした、新しいマルチモーダル ベンチマークを提案しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。