ホームページ >テクノロジー周辺機器 >AI >言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現します
##図 1: (a) テキストグラフ (b) グラフ ニューラル ネットワーク (c) 言語モデル
グラフは、ノード間の構造的関係をモデル化する汎用データ構造です。実際には、多くのノードにリッチ テキスト機能が含まれており、このグラフはテキスト属性グラフと呼ばれます [2]。たとえば、論文引用ネットワークには論文のテキストと論文間の引用関係が含まれ、ソーシャル ネットワークにはユーザーのテキスト説明とユーザーの直接の対話関係が含まれます。テキストグラフ上の表現学習モデルは、ノード分類やリンク予測などのタスクに適用でき、幅広い応用価値があります。#テキスト グラフには、ノードのテキスト情報とノード間のグラフ構造情報の 2 つの情報が含まれます。従来のテキスト グラフのモデリングは、テキスト モデリングとグラフ モデリングの 2 つの観点に分けることができます。このうち、テキスト モデリング手法 (図 1.b に示す) は通常、Transformer ベースの言語モデル (LM) を使用して単一ノードのテキスト表現を取得し、ターゲット タスクを予測します。グラフ モデリングのモデリング手法 (図 1.b に示す)図 1.c) では、通常、グラフ ニューラル ネットワーク (GNN) を使用してノード機能間の相互作用をモデル化し、メッセージ伝播メカニズムを通じてターゲット タスクを予測します。
ただし、2 つのモデルは、それぞれテキスト グラフ内のテキストとグラフ構造のみをモデル化できます。従来の言語モデルは構造情報を直接考慮できず、グラフ ニューラル ネットワークは構造情報を直接考慮できません。オリジナルのテキスト情報、モデリング。テキストとグラフの構造を同時にモデル化するために、研究者は言語モデルとグラフ ニューラル ネットワークを統合し、2 つのモデルのパラメーターを同時に更新しようとしています。しかし、既存の研究 [2、3] は、同時に多数の隣接するテキストをモデル化することができず、拡張性が低く、大きなテキスト グラフには適用できません。
GLEM フレームワーク
raph と L## を提案します。 # anguage Expectation Maximization (GLEM) フレームワークによる学習。 GLEM フレームワークは、変分期待値最大化アルゴリズム (変分 EM) に基づいており、グラフ ニューラル ネットワークと言語モデルを交互に学習するため、優れたスケーラビリティを実現します。
#図 2: GLEM フレームワーク
具体的には、ノード分類タスクを例に挙げると、E ステップ で、GLEM は、グラフ ニューラル ネットワークによって予測された実際のラベルと擬似ラベル
に基づいて言語モデルをトレーニングします。 M ステップ では、GLEM は、言語モデル によって予測された実際のラベルと擬似ラベルに基づいて、グラフ ニューラル ネットワーク をトレーニングします。このようにして、GLEM フレームワークはローカルのテキスト情報とグローバルな構造的相互作用情報を効果的にマイニングします。 GLEM フレームワークを通じてトレーニングされたグラフ ニューラル ネットワーク (GLEM-GNN) と言語モデル (GLEM-LM) の両方を使用して、ノード ラベルを予測できます。 実験
この論文の実験部分では、主に次の側面から GLEM フレームワークについて説明します。
#図 3: GLEM フレームワークは、OGBN-arxiv、製品、論文100M データセットで 1 位を獲得
以上が言語モデル、グラフ ニューラル ネットワーク、テキスト グラフ トレーニング フレームワーク GLEM を効果的に統合して、新しい SOTA を実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。