検索
ホームページテクノロジー周辺機器AI7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上

グラフ ニューラル ネットワーク (GNN) は、推論のためにグラフの構造情報を活用することに優れていますが、多くの場合、最適なパフォーマンスを達成するにはドメイン固有の調整が必要となるため、さまざまなタスクにわたって一般化する能力が制限されます。

大規模言語モデル (LLM) は、グラフ推論のための強力なクロスタスク機能と一般化機能を備えていますが、多くの場合、特定のタスクでは専用のグラフ ニューラル ネットワーク モデルほどのパフォーマンスは得られません。

グラフ推論に関する現在の研究では、従来のグラフ ニューラル ネットワークであれ、大規模な言語モデルに基づくグラフ推論手法であれ、グラフ推論における視覚情報の重要性が無視されることがよくあります。

しかし、人間は視覚機能を使用して、グラフ内にリングがあるかどうかの判断など、グラフのタスクを効率的かつ正確に完了します。

したがって、グラフ推論における視覚的な形式のグラフ情報の役割を調査することは非常に重要です。

より具体的には、グラフ (Graph) を画像 (Image) として描画することで、モデルに特別な推論能力を与えることができるでしょうか?これらの画像 (ビジュアル グラフと呼ばれる) は、他のモダリティに基づく既存のグラフ推論モデルを強化できますか?

これらの質問に答えるために、香港科技大学と南方科技大学の研究チームは、ビジュアル グラフ、GITQA、および使用されたオープン ソースを含む最初の推論質問と回答データ セットを構築しました。 GPT-4 ターボ、GPT-4V などのモデルや、Vicuna や LLaVA などのクローズドソース モデルで広範な実験が行われ、グラフ推論におけるビジュアル グラフの役割と、テキスト モダリティとの相互強化が確認されました。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上#写真

論文アドレス: https://arxiv.org/abs/2402.02130

プロジェクト ホームページ: https://v-graph.github.io/

GITQA テスト ベンチマークでは、LLaVA-7B/13B に基づいて微調整されていますGPT-4Vを超えるグラフ推論性能を発揮するマルチモーダルモデルGITA-7B/13B。

GITQA マルチモーダル グラフ推論の質問と回答のデータセット

研究チームは、GITQA データ セットとそれに対応するテスト ベンチマークを確立しました。GITQA データセットには 423,000 を超える質問と回答のインスタンスが含まれています、各インスタンスには、対応するグラフ構造、テキスト、視覚情報と、対応する質問と回答のペアが含まれます。

GITQA データ セットには、GITQA-Base と GITQA-Aug の 2 つのバージョンが含まれています。そのうちの GITQA-Base には、単一スタイルのビジュアル イメージのみが含まれています。

GITQA-Aug はさらに機能が充実しており、レイアウト、ポイントの形状、エッジの幅、ポイントのスタイルなどの変更を含む、ビジュアル マップ上のさまざまなデータ拡張を実行して、より多様な視覚表現を提供します。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上

図 1 に示すように、GITQA テスト ベンチマークには 8 つの代表的なグラフ推論タスクが含まれています。グラフ内の 2 点が接続されているかどうか)、Cycle (グラフ内にサイクルがあるかどうかを判断する)、TS (グラフの位相順序を見つけるため)、SP (グラフ内の 2 点間の最短経路を見つけるため) 、MaxFlow (グラフ内の 2 点間の最大フローを計算します))、BGM (2 部グラフの最大マッチングを計算します)、HP (グラフ内のハミルトニアン パスを見つけます)、および GNN (GNN のメッセージ パッシングをシミュレートします)。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上写真

各タスクに対応するデータセットは、グラフ構造の複雑さに応じてさまざまな難易度に分割されています。のサブセット (関連する統計を表 1 に示します)。

実験と結果

実験 1: さまざまなモーダル グラフ情報に基づくモデルのグラフ推論機能の比較

研究チームは、GITQA-Base データセット上のさまざまなモーダル グラフ入力タイプ (テキストのみ (T-Only)、ビジョンのみ (V-Only)、テキストとビジョン (V T) を含む) に基づいて、一般的なクローズドソース メソッドを評価しました。オープンソースの大規模言語モデル (GPT-4 ターボや Vicuna-7B/13B など) および大規模なマルチモーダル言語モデル (GPT-4V や LLaVA-7B/13B など) のパフォーマンス。写真2に示すように。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上写真

具体的には、クローズドソース モデル GPT-4 および GPT-4V はゼロショット推論を実行しますが、オープンソース モデルの Vicuna と LLaVA は、バックボーン モデルのパラメーターを変更せずに微調整され、トレーニング用の Projector と LoRA 部分のみが微調整されました (特に、ビジュアル テキスト デュアルモーダル微調整後の LLaVA モデルは GITA と名付けられました)研究者による)。

表 2 は、8 つのグラフ推論タスクすべてのテスト結果をまとめたものです。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上画像

ビジュアル モードとテキスト モード

表 2 からわかるように、サイクルと BGM オンのタスクで、視覚的モダリティはテキスト モダリティよりも優れたパフォーマンスを示しましたが、他の 5 つのタスクではテキスト モダリティよりも劣っていました。これは、ビジョンとテキストがそれぞれ、特定のタイプのグラフ推論タスクを処理する際に利点があることを明らかにしています。ビジュアルモダリティとテキストモダリティの相互強化

クローズドソースモデルの場合、GPT-4V (V T) は、GPT-4 Turbo (T のみ) や GPT-4V (V -のみ)。

オープンソース モデル (7B、13B) についても、同様に、二峰性データを使用してトレーニングされた GITA モデルが平均して最高のパフォーマンスを示しました。これらの観察により、視覚情報とテキスト情報を同時に使用すると、モデルのグラフ推論機能が強化され、単一モーダル モデルよりも優れたパフォーマンスが達成できることが検証されます。

より具体的には、GITA-7B (V T) は、ほぼすべてのタスクにおいて LLaVA-7B (V のみ) および Vicuna-7B (T のみ) よりも優れています。クローズドソース モデルの場合、バイモダリティを使用すると、8 つのタスクのうち 5 つで最高の精度が達成されました。微調整された LLaVA モデルは GPT-4V を超える可能性があります

表 2 と図 3 に示すように、GITA-7B および GITA-13B モデル、つまりデュアルモーダル後の LLaVA-7B/13B モデル微調整、ショー GPT-4V と比較して 13% 以上の大幅なパフォーマンス向上。この大幅な改善は、微調整された GITA モデルが GITQA データセットから優れたグラフ推論機能を効果的に学習できることを示しています。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上

実験 2: グラフ タスクに対する難易度の影響

表 3 は、さまざまな条件におけるモデルのパフォーマンスをさらに示しています。難易度テストの精度。GNN タスクはすべてのモデルにとって難しすぎるため省略されました)。

ビジュアル モダリティのみを使用したパフォーマンスはテキスト モダリティを上回り、すべての難易度でサイクル タスクと BGM タスクで両方のモダリティを使用した場合と同等でした。

ただし、他のタスクでは、難易度が簡単から中、または難しいと増加すると、視覚モダリティのみを使用したモデルのパフォーマンスが大幅に低下します。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上写真

同様に、難易度が高くなると、テキスト モダリティのみを使用するモデルとビジュアル テキスト モダリティを使用するモデルも、これらのタスクでより良いパフォーマンスを発揮します。パフォーマンスが大幅に低下します。

接続タスクの場合、GITA-7B (ビジュアル テキスト) と GITA-13B (ビジュアル テキスト) は、3 つの課題レベルすべてで同等のパフォーマンスを示します。

ただし、難易度が上がるとパフォーマンスが低下するため、この一貫したパターンは GPT-4V (ビジュアル テキスト) では観察されません。

実験 3: 視覚的なグラフ強化戦略とスタイル設定

研究チームは、特別なデータ強化の効果についても調査しました。モデルを微調整する際の戦略の説明。

研究者らは、さまざまな拡張戦略に基づいて、GITQA-Aug データ セットを 4 つの拡張サブセット (レイアウト拡張データ セット、ノード形状拡張データ セット、およびエッジ幅拡張データ セット) に分割しました。ノード スタイルの拡張データセット。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上写真

研究者らは、視覚的なマップ情報のみを使用して、LLaVA-7B モデルの 4 つの強化サブセットすべてを実行しました。 -tuning の推論パフォーマンスとデータ拡張前の推論パフォーマンスの比較を表 4 に示します。

レイアウト強化されたデータセット上の困難なタスクに対するモデルの推論能力が劇的に向上していることがはっきりとわかります (SP は 64.8% 増加、HP は 69.63% 増加)。

他の 3 つのデータ拡張戦略は、実際にはパフォーマンスの低下につながります。

具体的には、このモデルはレイアウト拡張セットで優れた結果を達成しており、これは GITQA-Base セットよりも 11% 以上高いです。比較すると、他の拡張セットの 8 つのタスクの平均結果は、基本セットよりも約 5% 低くなります。

7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上写真

これらの発見は、レイアウトベースのデータ拡張がグラフ推論により効果的な視覚的視点を提供することを示唆しています。さらに、研究者らは、各強化戦略の下で同じグループ内の各スタイルに基づくビジュアル グラフ推論のパフォーマンスもテストしました。表 5 に示すように、モデルには明らかなスタイルの優先順位がないことが示されています。

以上が7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。