ホームページ >テクノロジー周辺機器 >AI >7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上
グラフ ニューラル ネットワーク (GNN) は、推論のためにグラフの構造情報を活用することに優れていますが、多くの場合、最適なパフォーマンスを達成するにはドメイン固有の調整が必要となるため、さまざまなタスクにわたって一般化する能力が制限されます。
大規模言語モデル (LLM) は、グラフ推論のための強力なクロスタスク機能と一般化機能を備えていますが、多くの場合、特定のタスクでは専用のグラフ ニューラル ネットワーク モデルほどのパフォーマンスは得られません。
グラフ推論に関する現在の研究では、従来のグラフ ニューラル ネットワークであれ、大規模な言語モデルに基づくグラフ推論手法であれ、グラフ推論における視覚情報の重要性が無視されることがよくあります。
しかし、人間は視覚機能を使用して、グラフ内にリングがあるかどうかの判断など、グラフのタスクを効率的かつ正確に完了します。
したがって、グラフ推論における視覚的な形式のグラフ情報の役割を調査することは非常に重要です。
より具体的には、グラフ (Graph) を画像 (Image) として描画することで、モデルに特別な推論能力を与えることができるでしょうか?これらの画像 (ビジュアル グラフと呼ばれる) は、他のモダリティに基づく既存のグラフ推論モデルを強化できますか?
これらの質問に答えるために、香港科技大学と南方科技大学の研究チームは、ビジュアル グラフ、GITQA、および使用されたオープン ソースを含む最初の推論質問と回答データ セットを構築しました。 GPT-4 ターボ、GPT-4V などのモデルや、Vicuna や LLaVA などのクローズドソース モデルで広範な実験が行われ、グラフ推論におけるビジュアル グラフの役割と、テキスト モダリティとの相互強化が確認されました。
#写真
論文アドレス: https://arxiv.org/abs/2402.02130
プロジェクト ホームページ: https://v-graph.github.io/
GITQA テスト ベンチマークでは、LLaVA-7B/13B に基づいて微調整されていますGPT-4Vを超えるグラフ推論性能を発揮するマルチモーダルモデルGITA-7B/13B。
GITQA マルチモーダル グラフ推論の質問と回答のデータセット研究チームは、GITQA データ セットとそれに対応するテスト ベンチマークを確立しました。GITQA データセットには 423,000 を超える質問と回答のインスタンスが含まれています、各インスタンスには、対応するグラフ構造、テキスト、視覚情報と、対応する質問と回答のペアが含まれます。
GITQA データ セットには、GITQA-Base と GITQA-Aug の 2 つのバージョンが含まれています。そのうちの GITQA-Base には、単一スタイルのビジュアル イメージのみが含まれています。
GITQA-Aug はさらに機能が充実しており、レイアウト、ポイントの形状、エッジの幅、ポイントのスタイルなどの変更を含む、ビジュアル マップ上のさまざまなデータ拡張を実行して、より多様な視覚表現を提供します。
図
図 1 に示すように、GITQA テスト ベンチマークには 8 つの代表的なグラフ推論タスクが含まれています。グラフ内の 2 点が接続されているかどうか)、Cycle (グラフ内にサイクルがあるかどうかを判断する)、TS (グラフの位相順序を見つけるため)、SP (グラフ内の 2 点間の最短経路を見つけるため) 、MaxFlow (グラフ内の 2 点間の最大フローを計算します))、BGM (2 部グラフの最大マッチングを計算します)、HP (グラフ内のハミルトニアン パスを見つけます)、および GNN (GNN のメッセージ パッシングをシミュレートします)。
写真
各タスクに対応するデータセットは、グラフ構造の複雑さに応じてさまざまな難易度に分割されています。のサブセット (関連する統計を表 1 に示します)。
実験と結果研究チームは、GITQA-Base データセット上のさまざまなモーダル グラフ入力タイプ (テキストのみ (T-Only)、ビジョンのみ (V-Only)、テキストとビジョン (V T) を含む) に基づいて、一般的なクローズドソース メソッドを評価しました。オープンソースの大規模言語モデル (GPT-4 ターボや Vicuna-7B/13B など) および大規模なマルチモーダル言語モデル (GPT-4V や LLaVA-7B/13B など) のパフォーマンス。写真2に示すように。
写真
具体的には、クローズドソース モデル GPT-4 および GPT-4V はゼロショット推論を実行しますが、オープンソース モデルの Vicuna と LLaVA は、バックボーン モデルのパラメーターを変更せずに微調整され、トレーニング用の Projector と LoRA 部分のみが微調整されました (特に、ビジュアル テキスト デュアルモーダル微調整後の LLaVA モデルは GITA と名付けられました)研究者による)。
表 2 は、8 つのグラフ推論タスクすべてのテスト結果をまとめたものです。
画像
表 2 からわかるように、サイクルと BGM オンのタスクで、視覚的モダリティはテキスト モダリティよりも優れたパフォーマンスを示しましたが、他の 5 つのタスクではテキスト モダリティよりも劣っていました。これは、ビジョンとテキストがそれぞれ、特定のタイプのグラフ推論タスクを処理する際に利点があることを明らかにしています。ビジュアルモダリティとテキストモダリティの相互強化
クローズドソースモデルの場合、GPT-4V (V T) は、GPT-4 Turbo (T のみ) や GPT-4V (V -のみ)。
オープンソース モデル (7B、13B) についても、同様に、二峰性データを使用してトレーニングされた GITA モデルが平均して最高のパフォーマンスを示しました。これらの観察により、視覚情報とテキスト情報を同時に使用すると、モデルのグラフ推論機能が強化され、単一モーダル モデルよりも優れたパフォーマンスが達成できることが検証されます。
より具体的には、GITA-7B (V T) は、ほぼすべてのタスクにおいて LLaVA-7B (V のみ) および Vicuna-7B (T のみ) よりも優れています。クローズドソース モデルの場合、バイモダリティを使用すると、8 つのタスクのうち 5 つで最高の精度が達成されました。微調整された LLaVA モデルは GPT-4V を超える可能性があります
表 2 と図 3 に示すように、GITA-7B および GITA-13B モデル、つまりデュアルモーダル後の LLaVA-7B/13B モデル微調整、ショー GPT-4V と比較して 13% 以上の大幅なパフォーマンス向上。この大幅な改善は、微調整された GITA モデルが GITQA データセットから優れたグラフ推論機能を効果的に学習できることを示しています。
図
表 3 は、さまざまな条件におけるモデルのパフォーマンスをさらに示しています。難易度テストの精度。GNN タスクはすべてのモデルにとって難しすぎるため省略されました)。
ビジュアル モダリティのみを使用したパフォーマンスはテキスト モダリティを上回り、すべての難易度でサイクル タスクと BGM タスクで両方のモダリティを使用した場合と同等でした。
ただし、他のタスクでは、難易度が簡単から中、または難しいと増加すると、視覚モダリティのみを使用したモデルのパフォーマンスが大幅に低下します。
写真
同様に、難易度が高くなると、テキスト モダリティのみを使用するモデルとビジュアル テキスト モダリティを使用するモデルも、これらのタスクでより良いパフォーマンスを発揮します。パフォーマンスが大幅に低下します。
接続タスクの場合、GITA-7B (ビジュアル テキスト) と GITA-13B (ビジュアル テキスト) は、3 つの課題レベルすべてで同等のパフォーマンスを示します。
ただし、難易度が上がるとパフォーマンスが低下するため、この一貫したパターンは GPT-4V (ビジュアル テキスト) では観察されません。
研究チームは、特別なデータ強化の効果についても調査しました。モデルを微調整する際の戦略の説明。
研究者らは、さまざまな拡張戦略に基づいて、GITQA-Aug データ セットを 4 つの拡張サブセット (レイアウト拡張データ セット、ノード形状拡張データ セット、およびエッジ幅拡張データ セット) に分割しました。ノード スタイルの拡張データセット。
写真
研究者らは、視覚的なマップ情報のみを使用して、LLaVA-7B モデルの 4 つの強化サブセットすべてを実行しました。 -tuning の推論パフォーマンスとデータ拡張前の推論パフォーマンスの比較を表 4 に示します。
レイアウト強化されたデータセット上の困難なタスクに対するモデルの推論能力が劇的に向上していることがはっきりとわかります (SP は 64.8% 増加、HP は 69.63% 増加)。
他の 3 つのデータ拡張戦略は、実際にはパフォーマンスの低下につながります。
具体的には、このモデルはレイアウト拡張セットで優れた結果を達成しており、これは GITQA-Base セットよりも 11% 以上高いです。比較すると、他の拡張セットの 8 つのタスクの平均結果は、基本セットよりも約 5% 低くなります。
写真
これらの発見は、レイアウトベースのデータ拡張がグラフ推論により効果的な視覚的視点を提供することを示唆しています。さらに、研究者らは、各強化戦略の下で同じグループ内の各スタイルに基づくビジュアル グラフ推論のパフォーマンスもテストしました。表 5 に示すように、モデルには明らかなスタイルの優先順位がないことが示されています。
以上が7BモデルはGPT4-Vを超える!香港科技大学などが「グラフ推論質疑応答」データセットを公開GITQA:ビジュアルグラフで推論能力を向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。