ホームページ  >  記事  >  テクノロジー周辺機器  >  Jia Qianghuai: アリの大規模知識グラフの構築と応用

Jia Qianghuai: アリの大規模知識グラフの構築と応用

WBOY
WBOY転載
2023-09-10 15:05:081214ブラウズ

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#1. グラフの概要

最初に、ナレッジ グラフの基本概念をいくつか紹介します。

1. ナレッジ グラフとは何ですか?

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジ グラフは、グラフ構造を使用してモデル化、識別、推論することを目的としています。複雑な関係と蓄積されたドメイン知識は、認知知能を実現するための重要な基礎であり、検索エンジン、インテリジェントな質問応答、言語意味理解、ビッグデータ意思決定分析などの多くの分野で広く使用されています。

ナレッジ グラフは、データ間の意味的関係と構造的関係の両方をモデル化し、深層学習テクノロジと組み合わせることで、2 つの関係をより適切に統合して表現できます。

2. ナレッジ グラフを構築する理由

Jia Qianghuai: アリの大規模知識グラフの構築と応用

主に次の 2 つの点からナレッジ グラフを構築したいと考えています: それは一方ではアリ自身のデータソースの背景特性であり、他方ではナレッジグラフがもたらすことができる利点です。

[1] データ ソース自体は多様かつ異質であり、統一された知識理解システムが不足しています。

[2] ナレッジ グラフは次のような多くの利点をもたらします。

  • セマンティック標準化: グラフ構築の使用 テクノロジーの向上エンティティ、関係、概念などの標準化と正規化のレベル。
  • #ドメイン知識の蓄積: セマンティクスとグラフ構造に基づいた知識表現と相互接続を実現し、それによって豊富なドメイン知識を蓄積します。
  • ナレッジの再利用: 高品質の Ant ナレッジ グラフを構築し、統合、リンク、その他のサービスを通じて複数のダウンストリーム サービスを提供することで、ビジネス コストを削減し、効率を向上します。
  • #知識推論の発見: グラフ推論テクノロジーに基づいて、より多くのロングテールの知識を発見し、リスク管理、信用、請求、マーチャントの運営、マーケティングの推奨事項などのシナリオに対応します。 、など。
  • #3. ナレッジ グラフの構築方法の概要

Jia Qianghuai: アリの大規模知識グラフの構築と応用さまざまなビジネス ナレッジを構築する過程でグラフ では、アリ ナレッジ グラフの一般的な構築パラダイムのセットを作成しました。これらは主に次の 5 つの部分に分かれています:

重要な部分としてビジネス データから始まります。グラフ データ ソースのコールド スタート。
  • 他のドメインのナレッジ グラフは、エンティティ アライメント テクノロジによって既存のグラフと統合されます。
  • ビジネス ドメインの構造化ナレッジ ベースと既存のナレッジ グラフの統合も、エンティティ アライメント テクノロジによって実現されます。
  • テキストなどの非構造化データおよび半構造化データは、エンティティ リンク テクノロジを通じて情報を抽出し、既存のマップを更新するために使用されます。
  • ドメイン概念システムとエキスパート ルールの統合により、関連する概念とルールが既存のナレッジ グラフにリンクされます。

#共通の構築パラダイムを確立したら、体系的な構築を実行する必要があります。 Ant Knowledge Graph の体系的な構築を 2 つの観点から見てみましょう。まず、アルゴリズムの観点から見ると、知識推論、知識照合などのさまざまなアルゴリズム機能があります。実装の観点から見ると、下から上に、最も低い基本依存関係にはグラフ コンピューティング エンジンとコグニティブ ベース コンピューティングが含まれ、その上には NLP およびマルチモーダル プラットフォームとグラフ プラットフォームを含むグラフ ベースがあり、その上にはさまざまなグラフ構築テクノロジがあり、これに基づいて、アリのナレッジ グラフを構築できます。ナレッジ グラフに基づいて、いくつかのグラフ推論を実行できます。さらに、いくつかの一般的なアルゴリズム機能を提供し、最上位にビジネス アプリケーションがあります。 Jia Qianghuai: アリの大規模知識グラフの構築と応用

2. グラフの構築

次に、グラフの構築、グラフの融合、グラフの認識など、ナレッジ グラフの構築における Ant Group のコア機能の一部を共有します。

1. グラフの構築

Jia Qianghuai: アリの大規模知識グラフの構築と応用

グラフ構築プロセスには主に 6 つのステップが含まれます:

  • データ多変量データを取得するためのソース。
  • ナレッジ モデリングは、大量のデータを構造化データに変換し、概念、エンティティ、イベントの 3 つのドメインからモデル化します。
  • 知識の獲得と知識処理の研究開発プラットフォームの構築。
  • Ha3 ストレージやグラフ ストレージなどのナレッジ ストレージ。
  • ナレッジ編集、オンラインクエリ、抽出などを含むナレッジ操作。
  • 継続学習により、モデルは自動的かつ反復的に学習できます。
#建設プロセスにおける 3 つの経験とスキル

専門知識を統合したエンティティ分類

Jia Qianghuai: アリの大規模知識グラフの構築と応用

# #Inナレッジ グラフを構築するには、入力エンティティを分類する必要がありますが、アリのシナリオでは、これは大規模なマルチラベル分類タスクになります。エンティティ分類のための専門知識を統合するために、主に次の 3 つの最適化が行われます。

    意味情報の強化: ラベル意味グラフ表現学習の埋め込みを導入します。
  • 対照学習: 比較のための階層ラベル監視を追加します。
  • 論理ルールの制約: 専門家の事前知識を組み込みます。
  • #ドメイン語彙にエンティティ認識を挿入

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#エンティティ認識に基づいて、単語からエッジまで開始グラフ構造に基づいて、モデルは接続されたエッジの適切な重み付けを学習し、ノイズの多い単語の接続されたエッジの重みを軽減します。境界コントラスト学習とセマンティック コントラスト学習の 2 つのモジュールが提案されています。

  • 境界コントラスト学習は、境界競合問題を解決するために使用されます。語彙が注入された後、全結合グラフが構築され、GAT を使用して各トークンの表現が学習されます。境界分類の正しい部分は正の例のグラフを構築し、不正確な部分は負の例のグラフを構築します。比較を通じて、モデルは各トークンを学習します トークンの境界情報。
  • #セマンティック対照学習は、セマンティック競合の問題を解決するために使用されます。プロトタイプ学習のアイデアに基づいて、ラベルの意味表現が追加され、各トークンとラベルの意味の関連付けが強化されます。 #論理ルールに制約された小規模なサンプル関係抽出

Jia Qianghuai: アリの大規模知識グラフの構築と応用アノテーション サンプルは、ドメインの問題に関して非常に大規模ですこれより少ない場合は、数ショットまたはゼロショットのシナリオに直面します。この場合、関係抽出の中心となるアイデアは、外部ナレッジ ベースを導入することです。原因となるパフォーマンス低下の問題を解決するために、異なる意味空間により、論理規則に基づく推論モジュールを設計し、エンティティタイプのマッチングによって引き起こされる暗記学習の問題を解決するために、微妙な差異認識モジュールを設計します。

2. グラフ フュージョン

グラフ フュージョンとは、異なるビジネス分野のグラフ間の情報を融合することを指します。

グラフ フュージョンの利点: Jia Qianghuai: アリの大規模知識グラフの構築と応用

    ビジネスを超えた知識の再利用: グラフ オントロジー モデルに基づく、ビジネスを超えた知識のつながりを実現します。
  • # 無効なデータ コピーを削減: 接続直後に適用され、標準化されたナレッジ サービス リンクが適用されます。
  • ビジネス価値の迅速な実現: ビジネスのためのデータを見つけるコストを削減し、ナレッジの再利用を通じてより大きなビジネス価値をもたらし、コストを削減し、効率を向上させます。
  • グラフ フュージョンにおけるエンティティの配置

ナレッジ グラフ融合プロセスの中核となる技術ポイントはエンティティのアライメントです。ここでは SOTA アルゴリズム BERT-INT を使用します。これには主に 2 つのモジュールが含まれています。1 つはプレゼンテーション モジュール、もう 1 つはインタラクション モジュールです。

アルゴリズムの実装プロセスには主にリコールとソートが含まれます:

リコール: プレゼンテーション モジュールでは、タイトル テキストは BERT ベクトル類似性リコールを使用します。

タイトル属性の近傍に基づくモデルの並べ替え: ü 表現モジュールを使用して、タイトル、属性、および近傍のベクトル表現を完成させます:

  • タイトルの cos 類似度を計算します。
  • 2 つのエンティティの属性と近傍セット間の類似度行列をそれぞれ計算し、1 次元の類似度特徴を抽出します。
  • # 3 つの特徴を特徴ベクトルに結合して、損失を計算します。

#3. グラフ認知

Jia Qianghuai: アリの大規模知識グラフの構築と応用

このパートでは主にアリフレームの内部知識表現学習を紹介します。

Ant は、Encoder-Decoder フレームワークに基づいた知識表現学習を提案しました。このうち、Encoder はグラフ ニューラル学習手法であり、Decoder はリンク予測などの知識表現学習です。この表現学習フレームワークは、普遍的なエンティティ/関係エンベディングの生成を自己監視でき、これにはいくつかの利点があります: 1) エンベディング サイズが元の特徴空間よりもはるかに小さいため、ストレージ コストが削減されます; 2) 低次元ベクトルが高密度になり、効果的に緩和されます。データの疎性の問題; 3) 同じベクトル空間での学習により、複数のソースからの異種データの融合がより自然になります; 4) 埋め込みには一定の普遍性があり、下流のビジネス用途に便利です。

3. グラフの適用

次に、Ant Group におけるナレッジ グラフの典型的な適用事例をいくつか紹介します。

1. グラフのシナリオ適用モード

特定のケースを紹介する前に、まず、知識の獲得、ナレッジなど、Ant Knowledge Graph のシナリオ適用のいくつかのモードを紹介します。管理と推論、および知識サービス。以下に示すように。

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#2. いくつかの典型的なケース

ケース 1: ナレッジ グラフに基づいた構造化された一致再現

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ビジネス シナリオは、Alipay のメイン検索でミニ プログラムのコンテンツをダウンロードすることです。解決すべきビジネスの問題点は次のとおりです:

  • products エンティティ、および商品と製品間の関係が欠落しています。
  • #小規模プログラムに対する製品レベルの理解が不十分。

#解決策は、マーチャント ナレッジ グラフを構築することです。販売者マップの製品関係と組み合わせることで、ユーザーのクエリ製品レベルの構造化された理解が達成されます。

ケース 2: レコメンデーション システムにおけるユーザーの意図のリアルタイム予測

Jia Qianghuai: アリの大規模知識グラフの構築と応用

このケースは、ユーザーのリアルタイム予測を目的としています。ホームページの推奨を目的として、AlipayKG が構築され、そのフレームワークは上の図に示されています。関連研究は、トップカンファレンス www 2023 にも掲載されました。さらに理解するには、この論文を参照してください。

#ケース 3: 知識表現を統合したマーケティング クーポンの推奨

Jia Qianghuai: アリの大規模知識グラフの構築と応用

#このシナリオは、消費者向けクーポンの推奨とビジネスのシナリオです。問題点は次のとおりです:

  • #頭部への影響は深刻です。
  • # ユーザーの検証と収集の動作はまばらです。
  • #コールド スタート ユーザーとクーポンは多数ありますが、対応するフットプリント データが不足しています。

#上記の問題を解決するために、動的グラフ表現を統合するディープベクトルリコールアルゴリズムを設計しました。ユーザー消費クーポンの動作は周期的であることが判明したため、静的な単一エッジではこの周期的動作をモデル化できません。この目的のために、最初に動的グラフを構築し、次にチームが独自に開発した動的グラフ アルゴリズムを使用して埋め込み表現を学習し、表現を取得した後、それをベクトル再現のためにツインタワー モデルに組み込みました。

ケース 4: 診断および治療イベントに基づくインテリジェント クレーム エキスパート ルール推論

Jia Qianghuai: アリの大規模知識グラフの構築と応用

最後のケースは、グラフ ルール推論に関するものです。医療保険の健康マップを例にとると、これには医学的知識、請求ルール、および「個人」の健康情報が含まれており、これらはエンティティに関連付けられ、意思決定の基礎として論理的なルールと結合されています。マップを通じて、専門家による請求解決の効率が向上しました。

4. グラフと大規模モデル

最後に、現在急速に開発されている大規模モデルの文脈におけるナレッジ グラフの機会について簡単に説明します。

1. ナレッジ グラフと大規模モデルの関係

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジ グラフと大規模モデルには、それぞれ長所と短所があります。大規模モデルの主な利点は、一般知識のモデリングと汎用性の利点があり、大規模モデルの欠点はナレッジ グラフの利点によって補うことができます。地図の利点としては、高精度と強力な解釈可能性が挙げられます。大規模なモデルとナレッジ グラフは相互に影響を与える可能性があります。

グラフと大規模なモデルを統合するには、通常 3 つの方法があります。1 つはナレッジ グラフを使用して大規模なモデルを強化すること、2 つ目は大規模なモデルを使用してナレッジ グラフを強化することです。 3 番目は、ナレッジ グラフを使用して大規模なモデルを強化することです。大規模なモデルとナレッジ グラフは連携して相互に補完します。大規模なモデルはパラメータ化された知識ベースと考えることができ、ナレッジ グラフは表示された知識ベースと考えることができます。 #2. 大規模モデルとナレッジ グラフの適用事例

大規模モデルのナレッジ グラフ構築への適用

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジ グラフ構築のプロセスでは、大規模なモデルを情報抽出、知識モデリング、関係推論に使用できます。

大規模モデルを使用してナレッジ グラフからの情報抽出に適用する方法

Jia Qianghuai: アリの大規模知識グラフの構築と応用

DAMO アカデミーのこの取り組みは、情報抽出の問題を分解します。これは 2 つの段階になります:

  • 最初の段階では、テキスト内に存在するエンティティ、関係、またはイベント タイプを検索して、検索スペースを削減し、計算の複雑さ。
  • #第 2 段階では、以前に抽出したタイプと指定された対応するリストに基づいて、関連情報をさらに抽出します。 #ナレッジ グラフを大規模モデルに適用する

##ナレッジ グラフを大規模モデルに適用するには、主に 3 つの側面が含まれます。 : Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジ グラフを大規模モデル入力に統合します。ナレッジ グラフをデータ クリーニングに使用したり、ナレッジ グラフを使用して正式なスプライシングを直接実行したりできます。

ナレッジ グラフを大規模なモデルのトレーニングに統合します。たとえば、2 つのタスクを同時にトレーニングします。ナレッジ グラフは知識表現タスクに使用でき、大規模モデルは MLM の事前トレーニングに使用でき、この 2 つは共同でモデル化されます。

ナレッジ グラフを大規模なモデル推論に挿入します。まず、大規模モデルに関する 2 つの問題を解決できます。1 つは、大規模モデルの「無意味」を回避するためのアプリオリ制約としてナレッジ グラフを使用することです。2 つ目は、大規模モデルの適時性の問題を解決することです。一方、ナレッジ グラフに基づいて、大規模なモデル生成に対して解釈可能なソリューションを提供できます。

ナレッジ強化型質疑応答システム

Jia Qianghuai: アリの大規模知識グラフの構築と応用

主に 2 つのカテゴリがあり、1 つは大規模なモデルを使用するナレッジ グラフ強化型質疑応答システムです。 KBQA モデルを最適化すること、もう 1 つは、LangChain、GopherCite、New Bing などが大規模なモデルを使用してナレッジ ベースの質問と回答を行う方法と同様の、情報検索の強化です。

知識強化型生成検索 Q&A システムには、次の利点があります。

  • 検索システムにアクセスすると、適時性の問題を解決します。
  • # 参照リンクを提供すると、手動検証を実行して事実上の誤りを解決できます。
  • #検索結果を導入し、コンテキストを充実させ、大規模なモデル生成の効果を高めます。
3. 概要と展望

Jia Qianghuai: アリの大規模知識グラフの構築と応用

ナレッジ グラフと大規模モデルをより適切に操作および共同作業する方法進歩には次の 3 つの方向性が含まれます。

  • NLP、質問応答システム、その他の分野におけるナレッジ グラフと大規模モデルの徹底的な適用を促進します。
  • ナレッジ グラフを使用して、大規模モデルの幻覚検出と無毒化を行います。
  • ナレッジ グラフと組み合わせた大規模ドメイン モデルの研究開発。

以上がJia Qianghuai: アリの大規模知識グラフの構築と応用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。