ホームページ > 記事 > テクノロジー周辺機器 > Jia Qianghuai: アリの大規模知識グラフの構築と応用
最初に、ナレッジ グラフの基本概念をいくつか紹介します。
1. ナレッジ グラフとは何ですか?ナレッジ グラフは、グラフ構造を使用してモデル化、識別、推論することを目的としています。複雑な関係と蓄積されたドメイン知識は、認知知能を実現するための重要な基礎であり、検索エンジン、インテリジェントな質問応答、言語意味理解、ビッグデータ意思決定分析などの多くの分野で広く使用されています。
ナレッジ グラフは、データ間の意味的関係と構造的関係の両方をモデル化し、深層学習テクノロジと組み合わせることで、2 つの関係をより適切に統合して表現できます。
2. ナレッジ グラフを構築する理由主に次の 2 つの点からナレッジ グラフを構築したいと考えています: それは一方ではアリ自身のデータソースの背景特性であり、他方ではナレッジグラフがもたらすことができる利点です。
[1] データ ソース自体は多様かつ異質であり、統一された知識理解システムが不足しています。
[2] ナレッジ グラフは次のような多くの利点をもたらします。
さまざまなビジネス ナレッジを構築する過程でグラフ では、アリ ナレッジ グラフの一般的な構築パラダイムのセットを作成しました。これらは主に次の 5 つの部分に分かれています:
重要な部分としてビジネス データから始まります。グラフ データ ソースのコールド スタート。
#共通の構築パラダイムを確立したら、体系的な構築を実行する必要があります。 Ant Knowledge Graph の体系的な構築を 2 つの観点から見てみましょう。まず、アルゴリズムの観点から見ると、知識推論、知識照合などのさまざまなアルゴリズム機能があります。実装の観点から見ると、下から上に、最も低い基本依存関係にはグラフ コンピューティング エンジンとコグニティブ ベース コンピューティングが含まれ、その上には NLP およびマルチモーダル プラットフォームとグラフ プラットフォームを含むグラフ ベースがあり、その上にはさまざまなグラフ構築テクノロジがあり、これに基づいて、アリのナレッジ グラフを構築できます。ナレッジ グラフに基づいて、いくつかのグラフ推論を実行できます。さらに、いくつかの一般的なアルゴリズム機能を提供し、最上位にビジネス アプリケーションがあります。
2. グラフの構築
次に、グラフの構築、グラフの融合、グラフの認識など、ナレッジ グラフの構築における Ant Group のコア機能の一部を共有します。グラフ構築プロセスには主に 6 つのステップが含まれます:
アノテーション サンプルは、ドメインの問題に関して非常に大規模ですこれより少ない場合は、数ショットまたはゼロショットのシナリオに直面します。この場合、関係抽出の中心となるアイデアは、外部ナレッジ ベースを導入することです。原因となるパフォーマンス低下の問題を解決するために、異なる意味空間により、論理規則に基づく推論モジュールを設計し、エンティティタイプのマッチングによって引き起こされる暗記学習の問題を解決するために、微妙な差異認識モジュールを設計します。
2. グラフ フュージョン
グラフ フュージョンの利点:
ナレッジ グラフ融合プロセスの中核となる技術ポイントはエンティティのアライメントです。ここでは SOTA アルゴリズム BERT-INT を使用します。これには主に 2 つのモジュールが含まれています。1 つはプレゼンテーション モジュール、もう 1 つはインタラクション モジュールです。
アルゴリズムの実装プロセスには主にリコールとソートが含まれます:
リコール: プレゼンテーション モジュールでは、タイトル テキストは BERT ベクトル類似性リコールを使用します。
タイトル属性の近傍に基づくモデルの並べ替え: ü 表現モジュールを使用して、タイトル、属性、および近傍のベクトル表現を完成させます:
このパートでは主にアリフレームの内部知識表現学習を紹介します。
Ant は、Encoder-Decoder フレームワークに基づいた知識表現学習を提案しました。このうち、Encoder はグラフ ニューラル学習手法であり、Decoder はリンク予測などの知識表現学習です。この表現学習フレームワークは、普遍的なエンティティ/関係エンベディングの生成を自己監視でき、これにはいくつかの利点があります: 1) エンベディング サイズが元の特徴空間よりもはるかに小さいため、ストレージ コストが削減されます; 2) 低次元ベクトルが高密度になり、効果的に緩和されます。データの疎性の問題; 3) 同じベクトル空間での学習により、複数のソースからの異種データの融合がより自然になります; 4) 埋め込みには一定の普遍性があり、下流のビジネス用途に便利です。
次に、Ant Group におけるナレッジ グラフの典型的な適用事例をいくつか紹介します。
特定のケースを紹介する前に、まず、知識の獲得、ナレッジなど、Ant Knowledge Graph のシナリオ適用のいくつかのモードを紹介します。管理と推論、および知識サービス。以下に示すように。
ビジネス シナリオは、Alipay のメイン検索でミニ プログラムのコンテンツをダウンロードすることです。解決すべきビジネスの問題点は次のとおりです:
#解決策は、マーチャント ナレッジ グラフを構築することです。販売者マップの製品関係と組み合わせることで、ユーザーのクエリ製品レベルの構造化された理解が達成されます。
このケースは、ユーザーのリアルタイム予測を目的としています。ホームページの推奨を目的として、AlipayKG が構築され、そのフレームワークは上の図に示されています。関連研究は、トップカンファレンス www 2023 にも掲載されました。さらに理解するには、この論文を参照してください。
#このシナリオは、消費者向けクーポンの推奨とビジネスのシナリオです。問題点は次のとおりです:
#上記の問題を解決するために、動的グラフ表現を統合するディープベクトルリコールアルゴリズムを設計しました。ユーザー消費クーポンの動作は周期的であることが判明したため、静的な単一エッジではこの周期的動作をモデル化できません。この目的のために、最初に動的グラフを構築し、次にチームが独自に開発した動的グラフ アルゴリズムを使用して埋め込み表現を学習し、表現を取得した後、それをベクトル再現のためにツインタワー モデルに組み込みました。
ケース 4: 診断および治療イベントに基づくインテリジェント クレーム エキスパート ルール推論最後のケースは、グラフ ルール推論に関するものです。医療保険の健康マップを例にとると、これには医学的知識、請求ルール、および「個人」の健康情報が含まれており、これらはエンティティに関連付けられ、意思決定の基礎として論理的なルールと結合されています。マップを通じて、専門家による請求解決の効率が向上しました。
4. グラフと大規模モデル最後に、現在急速に開発されている大規模モデルの文脈におけるナレッジ グラフの機会について簡単に説明します。
1. ナレッジ グラフと大規模モデルの関係ナレッジ グラフと大規模モデルには、それぞれ長所と短所があります。大規模モデルの主な利点は、一般知識のモデリングと汎用性の利点があり、大規模モデルの欠点はナレッジ グラフの利点によって補うことができます。地図の利点としては、高精度と強力な解釈可能性が挙げられます。大規模なモデルとナレッジ グラフは相互に影響を与える可能性があります。
グラフと大規模なモデルを統合するには、通常 3 つの方法があります。1 つはナレッジ グラフを使用して大規模なモデルを強化すること、2 つ目は大規模なモデルを使用してナレッジ グラフを強化することです。 3 番目は、ナレッジ グラフを使用して大規模なモデルを強化することです。大規模なモデルとナレッジ グラフは連携して相互に補完します。大規模なモデルはパラメータ化された知識ベースと考えることができ、ナレッジ グラフは表示された知識ベースと考えることができます。 #2. 大規模モデルとナレッジ グラフの適用事例
大規模モデルを使用してナレッジ グラフからの情報抽出に適用する方法
DAMO アカデミーのこの取り組みは、情報抽出の問題を分解します。これは 2 つの段階になります:
##ナレッジ グラフを大規模モデルに適用するには、主に 3 つの側面が含まれます。 :
ナレッジ グラフを大規模モデル入力に統合します。ナレッジ グラフをデータ クリーニングに使用したり、ナレッジ グラフを使用して正式なスプライシングを直接実行したりできます。
ナレッジ グラフを大規模なモデルのトレーニングに統合します。たとえば、2 つのタスクを同時にトレーニングします。ナレッジ グラフは知識表現タスクに使用でき、大規模モデルは MLM の事前トレーニングに使用でき、この 2 つは共同でモデル化されます。
ナレッジ グラフを大規模なモデル推論に挿入します。まず、大規模モデルに関する 2 つの問題を解決できます。1 つは、大規模モデルの「無意味」を回避するためのアプリオリ制約としてナレッジ グラフを使用することです。2 つ目は、大規模モデルの適時性の問題を解決することです。一方、ナレッジ グラフに基づいて、大規模なモデル生成に対して解釈可能なソリューションを提供できます。
主に 2 つのカテゴリがあり、1 つは大規模なモデルを使用するナレッジ グラフ強化型質疑応答システムです。 KBQA モデルを最適化すること、もう 1 つは、LangChain、GopherCite、New Bing などが大規模なモデルを使用してナレッジ ベースの質問と回答を行う方法と同様の、情報検索の強化です。
知識強化型生成検索 Q&A システムには、次の利点があります。
ナレッジ グラフと大規模モデルをより適切に操作および共同作業する方法進歩には次の 3 つの方向性が含まれます。
以上がJia Qianghuai: アリの大規模知識グラフの構築と応用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。