ホームページ  >  記事  >  テクノロジー周辺機器  >  ナレッジ グラフ: 大規模モデルの理想的なパートナー

ナレッジ グラフ: 大規模モデルの理想的なパートナー

WBOY
WBOY転載
2024-01-29 09:21:26759ブラウズ

大規模言語モデル (LLM) は、滑らかで一貫したテキストを生成する機能を備えており、人工知能の対話や創造的な文章などの分野に新たな可能性をもたらします。ただし、LLM にはいくつかの重要な制限もあります。まず、彼らの知識はトレーニング データから認識されたパターンに限定されており、世界に対する真の理解が欠けています。第 2 に、推論スキルには限界があり、論理的な推論を行ったり、複数のデータ ソースからの事実を融合したりすることができません。より複雑で自由回答の質問に直面すると、LLM の答えは「幻想」として知られる不条理または矛盾したものになる場合があります。したがって、LLM はいくつかの面では非常に便利ですが、複雑な問題や現実世界の状況を扱う場合には、依然として一定の制限があります。

これらのギャップを埋めるために、検索拡張生成 (RAG) システムが近年登場しました。中心となるアイデアは、関連する知識を外部ソースから取得して LLM にコンテキストを提供することです。より多くの情報に基づいた意思決定を行うことができます。現在のシステムは主にベクトル埋め込みの意味的類似性を使用してパッセージを取得しますが、このアプローチには、真の相関関係の欠如、事実を集約できないこと、推論チェーンの欠如など、独自の欠点があります。ナレッジグラフの応用分野はこれらの問題を解決できます。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現したものです。文脈上の事実間の相互接続をエンコードすることにより、ナレッジ グラフは純粋なベクトル検索の欠点を克服し、グラフ検索により複数の情報ソースにわたる複雑なマルチレベル推論が可能になります。

ベクトル埋め込みとナレッジ グラフを組み合わせることで、LLM の推論能力が向上し、その精度と解釈可能性が向上します。このパートナーシップにより、表面セマンティクスと構造化された知識およびロジックが完全に融合され、LLM が統計学習と記号表現を同時に適用できるようになります。

ナレッジ グラフ: 大規模モデルの理想的なパートナー

1. ベクトル検索の制限

ほとんどの RAG システムは、ドキュメント コレクション内の段落全体を検索します。 LLM のコンテキストを見つけるためのベクトル検索。このプロセスにはいくつかの重要な手順があります。

  1. #テキスト エンコーディング: システムは BERT のような埋め込みモデルを使用して、コーパス内の段落のテキストをベクトル表現にエンコードします。各記事はセマンティクスを捕捉するために高密度ベクトルに圧縮されます。
  2. インデックス付け: これらのチャネル ベクトルは高次元ベクトル空間でインデックス付けされ、高速な最近傍検索が可能になります。一般的な方法には、ファイスや松ぼっくりなどが含まれます。
  3. クエリ エンコード: ユーザーのクエリ ステートメントも、同じ埋め込みモデルを使用してベクトル表現にエンコードされます。
  4. 類似性検索: 最近傍検索はインデックス付き段落全体で実行され、距離メトリック (コサイン距離など) に基づいてクエリ ベクトルに最も近い段落を見つけます。
  5. 段落結果を返す: 最も類似した段落ベクトルを返し、元のテキストを抽出して LLM のコンテキストを提供します。

このパイプラインにはいくつかの大きな制限があります:

  • チャネル ベクトルはクエリのセマンティクスを完全にはキャプチャしない可能性があります。埋め込みは特定の推論的な接続を表すことができず、重要なコンテキストが無視されてしまいます。
  • 段落全体を 1 つのベクトルに圧縮するとニュアンスが失われ、文に埋め込まれた重要な関連詳細がぼやけてしまいます。
  • マッチングは段落ごとに独立して行われ、異なる段落にまたがる共同分析は行われず、事実を結び付けて要約する必要のある答えに到達することができません。
  • ランク付けと照合のプロセスは不透明であり、特定の文章がより関連性が高いとみなされる理由を説明する透明性はありません。
  • 意味上の類似性のみがエンコードされ、関係、構造、ルール、およびそれらの間のその他の異なる接続を表す内容はエンコードされません。
  • 意味ベクトルの類似性だけに焦点を当てると、検索における真の理解の欠如につながります。

#クエリがより複雑になるにつれて、何が取得されるかを推論することができないという制限がますます明らかになります。

2. ナレッジ グラフの統合

ナレッジ グラフはエンティティと関係に基づいており、相互接続されたネットワークを通じて情報を送信し、パフォーマンスを向上させます。複雑な推論 検索機能。

  • 明示的なファクト。ファクトは不透明なベクトルに圧縮されるのではなく、ノードとエッジとして直接キャプチャされ、重要な詳細が保持されます。
  • コンテキストの詳細、エンティティには、主要なコンテキストを提供する説明、エイリアス、メタデータなどの豊富な属性が含まれています。
  • ネットワーク構造は、リレーションシップ モデリング エンティティ間の実際の接続、キャプチャ ルール、階層、タイムラインなどを表します。
  • マルチレベル推論は、リレーションシップのトラバースと、さまざまなソースからの事実の結合に基づいて、複数のステップにわたる推論を必要とする答えを導き出します。
  • フェデレーション推論は、エンティティ解決を通じて同じ現実世界のオブジェクトにリンクし、集合的な分析を可能にします。
  • 解釈可能な相関関係、グラフ トポロジは、特定の basedonconnected ファクトが相関している理由を説明できる透明性を提供します。
  • パーソナライゼーション、ユーザー属性、コンテキスト、および過去のインタラクションをキャプチャして結果を調整します。

#ナレッジ グラフは、単なる一致ではなく、グラフを走査してクエリに関連するコンテキスト上の事実を収集するプロセスです。解釈可能なランキング手法は、グラフのトポロジを利用して、構造化された事実、関係、コンテキストをエンコードすることで検索機能を向上させ、それによって正確な複数ステップの推論を可能にします。このアプローチは、純粋なベクトル検索と比較して、より優れた相関性と説明力を提供します。

3. 単純な制約を使用してナレッジ グラフの埋め込みを改善する

連続ベクトル空間へのナレッジ グラフの埋め込みは、現在の研究のホットスポットです。ナレッジ グラフはベクトル埋め込みを使用してエンティティと関係を表現し、数学的演算をサポートします。さらに、制約を追加すると、表現をさらに最適化できます。

  • 非負性制約、つまりエンティティの埋め込みを 0 から 1 の間の正の値に制限すると、スパース性が生じ、その正のプロパティが明示的にモデル化され、解釈可能性が向上します。
  • 含意制約は、対称性、反転、合成などの論理ルールを関係に埋め込まれた制約に直接エンコードして、これらのパターンを強制します。
  • 信頼モデリング、スラック変数を使用したソフト制約は、証拠に基づいて論理ルールの信頼をエンコードできます。
  • 有用な帰納的バイアスを課す正則化は、最適化をより複雑にすることなく、射影ステップを追加するだけです。
  • 解釈可能性、構造化制約により、モデルによって学習されたパターンが透明になり、推論プロセスが説明されます。
  • 精度と制約は、仮説空間を要件を満たす表現に縮小することで一般化を向上させます。

シンプルで普遍的な制約がナレッジ グラフの埋め込みに追加され、より最適化され、解釈が容易になり、論理的に互換性のある表現が得られます。埋め込みにより、より正確で解釈可能な推論を実現するために、さらなる複雑さを導入することなく、現実世界の構造とルールを模倣する帰納的バイアスが得られます。

4. 複数の推論フレームワークを統合する

ナレッジ グラフでは、新しい事実を導き出し、質問に答え、予測を行うための推論が必要です。さまざまなテクノロジーには、補完的な利点があります。:

論理ルールは知識を論理公理とオントロジーとして表現し、定理の証明を通じて合理的かつ完全な推論を実行し、限定的な不確実性の処理を実現します。グラフ埋め込みは、ベクトル空間演算に使用される埋め込みナレッジ グラフ構造であり、不確実性を処理できますが、表現力に欠けます。ベクトル ルックアップと組み合わせたニューラル ネットワークは適応的ですが、推論は不透明です。ルールはグラフの構造やデータを統計的に解析することで自動的に作成できますが、その品質は不確実です。ハイブリッド パイプラインは論理ルールを通じて明示的な制約をエンコードし、エンベディングはベクトル空間操作を提供し、ニューラル ネットワークは共同トレーニングを通じて融合の利点を獲得します。ケースベース、ファジー論理、または確率論的論理手法を使用して、透明性を高め、ルールの不確実性と信頼性を表現します。推論された事実と学習したルールをグラフに具体化し、フィードバック ループを提供することで知識を拡張します。

重要なのは、必要な推論のタイプを特定し、それらを適切な手法にマッピングすることです。論理形式、ベクトル表現、ニューロン コンポーネントを組み合わせた構成可能なパイプラインにより、堅牢性とスケーラビリティが提供されます。 。

4.1 LLM の情報フローの維持

LLM のナレッジ グラフでファクトを取得すると、情報のボトルネックが発生し、関連性を維持するための設計が必要になります。コンテンツを小さなチャンクに分割すると、分離性は向上しますが、周囲のコンテキストが失われるため、チャンク間の推論が妨げられます。ブロックの概要を生成すると、意味を強調するために重要な詳細が凝縮され、より簡潔なコンテキストが提供されます。概要、タイトル、タグなどをメタデータとして添付して、ソース コンテンツに関するコンテキストを維持します。元のクエリをより詳細なバージョンに書き直すと、LLM のニーズに合わせて取得をより適切に行うことができます。ナレッジ グラフのトラバーサル機能は、事実間のつながりを維持し、コンテキストを維持します。時系列または関連性によって並べ替えることで、LLM の情報構造を最適化でき、暗黙の知識を LLM について述べられた明示的な事実に変換することで、推論が容易になります。

目標は、取得した知識の関連性、コンテキスト、構造、および明示的な表現を最適化し、推論能力を最大化することです。粒度と凝集性の間でバランスを取る必要があります。ナレッジ グラフの関係は、孤立した事実のコンテキストを構築するのに役立ちます。

4.2 推論機能のロックを解除する

ナレッジ グラフと組み込みテクノロジを組み合わせると、互いの弱点を克服できるという利点があります。

ナレッジ グラフは、エンティティと関係の構造化された表現を提供します。トラバーサル関数を通じて複雑な推論機能を強化し、マルチレベルの推論を処理します。埋め込みにより、ベクトル空間での類似性に基づく操作の情報をエンコードし、特定のスケールでの効果的な近似検索をサポートし、潜在的なパターンを明らかにします。ジョイント エンコーディングは、ナレッジ グラフ内のエンティティと関係の埋め込みを生成します。グラフ ニューラル ネットワークは、微分可能なメッセージ パッシングを介してグラフ構造と埋め込み要素に対して動作します。

ナレッジ グラフは最初に構造化された知識を収集し、次に関連コンテンツに焦点を当てた検索と取得を埋め込みます。明示的なナレッジ グラフの関係により、推論プロセスに解釈可能性が提供されます。推論された知識はグラフに拡張でき、GNN は連続表現の学習を提供します。

#このパートナーシップはパターンによって認識できます。力とニューラル ネットワークの拡張性により、構造化された知識の表現が強化されます。これは、言語 AI を進歩させるための統計学習と記号ロジックの必要性の鍵となります。

4.3 協調フィルタリングを使用して検索を向上させる

協調フィルタリングでは、エンティティ間の接続を使用して検索を強化します。一般的なプロセスは次のとおりです:

  1. ノードがエンティティを表し、エッジが関係を表すナレッジ グラフを構築します。
  2. 特定の主要なノード属性 (タイトル、説明など) の埋め込みベクトルを生成します。
  3. Vector Index - ノード埋め込みのベクトル類似性インデックスを構築します。
  4. 最近傍検索 - 検索クエリの場合、最も類似した埋め込みを持つノードを検索します。
  5. 協調調整 — ノード接続に基づいて、PageRank などのアルゴリズムを使用して類似性スコアが伝播および調整されます。
  6. エッジの重み - エッジのタイプ、強度、信頼度などに応じて重みを調整します。
  7. スコアの正規化 - 相対的なランキングを維持するために、調整されたスコアを正規化します。
  8. 結果の並べ替え - 調整されたコラボレーション スコアに基づいて、最初の結果が並べ替えられました。
  9. ユーザー コンテキスト - ユーザー プロファイル、履歴、および設定に基づいてさらに調整されます。

ナレッジ グラフ: 大規模モデルの理想的なパートナー写真

5. RAG エンジンを強化する - データ フライホイール

継続的な改善を構築する高性能の検索拡張生成 (RAG) システムでは、データ フライホイールの実装が必要になる場合があります。ナレッジ グラフは、構造化された世界の知識を提供することで、言語モデルの新しい推論機能を解き放ちます。ただし、高品質のマップを構築することは依然として困難です。ここでデータ フライホイールが登場し、システムの相互作用を分析することでナレッジ グラフを継続的に改善します。

すべてのシステム クエリ、応答、スコア、ユーザー アクション、その他のデータを記録し、ナレッジ グラフの使用方法を可視化し、データ集約を使用して悪い応答を明らかにし、これらの応答をクラスター化して分析します、知識のギャップを示すパターンを特定します。問題のあるシステム応答を手動で確認し、マップ内の欠落または不正確な事実に問題を追跡します。次に、グラフを直接変更して、欠落している事実データを追加し、構造を改善し、明確さを高めます。上記のステップは連続ループで完了し、各反復でナレッジ グラフがさらに強化されます。

ニュースやソーシャル メディアなどのストリーミング リアルタイム データ ソースは、ナレッジ グラフを最新の状態に保つために新しい情報を継続的に提供します。クエリ生成を使用して重大な知識のギャップを特定し、埋めることは、ストリーミングが提供する範囲を超えています。グラフの穴を見つけて質問し、欠落している事実を検索して追加します。サイクルごとに、ナレッジ グラフは使用パターンの分析とデータの問題の修正によって徐々に強化され、改善されたグラフによってシステムのパフォーマンスが向上します。

このフライホイール プロセスにより、実際の使用からのフィードバックに基づいてナレッジ グラフと言語モデルを共進化させることができます。マップはモデルのニーズに合わせて積極的に変更されます。

つまり、データ フライホイールは、システムの相互作用を分析することにより、ナレッジ グラフを継続的かつ自動的に改善するための足場を提供します。これにより、グラフ依存言語モデルの精度、関連性、適応性が強化されます。

6. 概要

人工知能は外部の知識と推論を組み合わせる必要があり、そこでナレッジ グラフが登場します。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現し、世界とそれらの間のつながりに関する事実をコード化します。これにより、相互に関連する事実をたどることにより、複雑な論理的推論が複数のステップにまたがることが可能になります。

ただし、ナレッジ グラフには、スパース性や不確実性の欠如などの独自の制限があります。ここで、グラフの埋め込みが役立ちます。 。ナレッジ グラフ要素をベクトル空間でエンコードすることにより、埋め込みにより、大規模なコーパスから潜在パターンの表現までの統計的学習が可能になり、効率的な類似性に基づく操作も可能になります。

ナレッジ グラフもベクトル埋め込みも、それ自体では人間のような言語知能を形成するには十分ではありませんが、これらを組み合わせることで、構造化された知識表現、論理的推論、統計的学習の効果的な組み合わせが提供されます。グラフは、ニューラル ネットワークのパターン認識機能を超えた記号ロジックと関係をカバーしており、グラフ ニューラル ネットワークのようなテクノロジーは、情報転送グラフの構造と埋め込みを通じてこれらの方法をさらに統合します。この共生関係により、システムは統計学習と記号ロジックの両方を利用でき、ニューラル ネットワークと構造化された知識表現の利点を組み合わせることになります。

高品質のナレッジ グラフの構築、ベンチマーク テスト、ノイズ処理などにはまだ課題があります。ただし、シンボリック ネットワークとニューラル ネットワークにわたるハイブリッド テクノロジは依然として有望です。ナレッジ グラフと言語モデルが発展し続けるにつれて、それらの統合により説明可能な AI の新しい領域が開かれることになります。

以上がナレッジ グラフ: 大規模モデルの理想的なパートナーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。