ホームページ  >  記事  >  テクノロジー周辺機器  >  Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

王林
王林転載
2023-07-15 15:01:221341ブラウズ

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

1. メタ学習

##1. パーソナライズされたモデリングの問題点

##推奨シナリオでは、28-20 のデータ分散の問題が発生します。シナリオの 20% がサンプルの 80% を適用するため、問題が発生します。単一モデルの方が使いやすいということです。大規模シナリオの推定まで。さまざまなシナリオを考慮してモデルのパーソナライゼーション機能を向上させる方法は、パーソナライズされたモデリングにおける課題です。 Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

業界ソリューション:

PPNet/Poso: オフセットゲートなどによりパーソナライゼーションを実現し、性能とコストは向上しますが、複数のシナリオはモデル パラメーターのセットを共有しており、パーソナライズされた表現は制限されています。
  • エンドオンエンドのパーソナライゼーション: 各エンドにモデルをデプロイし、エンドのリアルタイム データをトレーニングに使用して、エンド エンドのパーソナライゼーションを実現します。 -end モデルパラメータですが、端末の性能に依存し、モデルを特に大きくすることはできないため、トレーニングには小さなモデルを使用する必要があります。
  • #インダストリ モデルに存在する問題を考慮して、次の解決策を提案しました。

クラウドの豊富なコンピューティング能力を利用して、シナリオごとに一連のモデルをデプロイし、モデルの究極のパーソナライゼーションを実現します。

  • モデルは次のとおりです。汎用性が高く、ユーザー/群集/アイテムなどのパーソナライズされたモデリング シナリオに適用できます。
  • #2. メタ学習はモデルのパーソナライゼーションの問題を解決します

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

要件: ユーザーおよび人々のグループごとにパーソナライズされたモデルのセットをデプロイします。このモデルでは、コストとパフォーマンスが損なわれません。
  • ソリューションの選択: 一連のモデルがユーザーごとにデプロイされている場合、モデルの構造とモデルのパラメーターが異なるため、モデルのトレーニングとサービスに問題が発生します。コストは比較的高いです。モデルのパーソナライゼーションの問題を解決するために、同じモデル構造の下で各シナリオにパーソナライズされたモデル パラメーターを提供することを検討します。
  • デプロイメント場所: モデルをクラウド上にデプロイし、クラウド上の豊富なコンピューティング能力を計算に使用すると同時に、モデルをクラウド上で柔軟に制御したい。クラウド上のモデル。
  • アルゴリズムのアイデア: 従来のメタ学習は、少数のサンプルとコールド スタートの問題を解決します。アルゴリズムを完全に理解することで、レコメンデーションの分野で、モデルの極端なパーソナライゼーションの問題を解決するためのメタ学習イノベーションの使用。
  • 全体的なアイデアは、メタ学習を使用して各ユーザーにパーソナライズされたモデル パラメーターのセットをクラウドに展開し、最終的には損失のない効果を達成することです。コストとパフォーマンス。

3. メタ学習の紹介

メタ学習とは学習を指します 一般的な知識が使用されます新しいタスクのアルゴリズムをガイドし、ネットワークに迅速な学習機能を提供します。例: 上の図の分類タスク: 猫と鳥、花と自転車。この分類タスクを K ショート N クラス分類タスクとして定義し、メタ学習を通じて分類知識を学習することを期待しています。微調整を推定するプロセスでは、犬やカワウソなどの分類タスクでは、微調整が非常に少ないサンプルで最終的な推定効果を達成できることを期待しています。また、四則混合演算を学ぶ場合、まず足し算と引き算、次に掛け算と割り算を学び、この二つの知識を習得すると、二つの知識を組み合わせて計算する方法を学ぶことができます。 、減算、乗算、除算を個別に計算するのではなく、加算、減算、乗算、除算に基づいて、最初に乗算と除算、次に加算と減算の演算ルールを学習し、次にいくつかのサンプルを使用してこれをトレーニングします。このルールをすぐに理解するために、ルールを使用します。これにより、新しい推定でデータに関してより良い結果が得られます。メタ学習の考え方もこれに似ています。 Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

従来の学習手法は、すべてのデータに対して最適な θ、つまり大域的に最適な θ を学習することを目的としています。メタ学習では、タスクをシーン内の一般的な Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践 を学習する次元として捉え、損失はすべてのシーンで最適なレベルに達することができます。従来の学習方法で学習された θ は、大きなシーンでは群衆に近く、大きなシーンではより良い予測が得られ、ロングテール予測には平均的な効果があります。メタ学習とは、各シーンで類似した点を学習し、それを使用することです。各シーン データまたは新しいシーン データは、この時点で微調整され、各シーンに最適なポイントが得られます。したがって、最終的なパーソナライゼーションの目標を達成するために、各シナリオでパーソナライズされたモデル パラメーターを構築することが可能です。上記の例では群衆をメタ学習のタスクとして使用していますが、ユーザーやアイテムをモデリングのタスクとして使用することもできます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

メタ学習には 3 つの分類があります:

  • Metric-ベースの手法 ( Metric-based): KNN や K-means などの計量学習手法を使用して、新しいシーンと既存のシーンの間の距離を学習し、それらがどのカテゴリに属する​​かを推定します。代表的なアルゴリズムには、畳み込みシャム、ニューラル ネットワーク、マッチング ネットワーク、
  • # モデルベースの手法 (Model_based): メモリや RNN などを通じてモデルのパラメータを迅速に学習します。代表的なアルゴリズムは次のとおりです。ニューラルネットワーク
  • 最適化ベース法 (Optimization-based): 近年よく使われる手法で、勾配降下法を用いて損失を計算します。最適なパラメータは、パーソナライズされたモデリングに現在使用されているアルゴリズム MAML を表します。
#4. メタ学習アルゴリズム

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

#モデルに依存しないメタ学習(MAML) は、モデルの構造とは関係がなく、一般化に適したアルゴリズムで、メタトレーニングとファインチューンの 2 つの部分に分かれています。

meta-train には初期化 θ があり、シーン サンプリングとフィールド内サンプル サンプリングの 2 つのサンプリングを実行します。最初のステップはシーン サンプリングです。サンプリング プロセスのこのラウンドでは、合計サンプルには数十万、さらには数百万のタスクが含まれており、数百万のタスクから n 個のタスクがサンプリングされます。第 2 ステップでは、各シーンでバッチサイズのサンプルをサンプリングします。このシーンでは、バッチサイズのサンプルを 2 つの部分に分割し、1 つの部分はサポート セット、もう 1 つの部分はクエリ セットです。サポート セットを使用して、確率的勾配降下法を使用して各シーンのシータを更新します。3 番目のステップでは、クエリ セットを使用します。セットは損失を計算します。シーンごとに、4 番目のステップで、すべての損失を加算し、勾配を θ に戻します。終了条件が満たされるまで、複数ラウンドの計算が全体として実行されます。

このうち、Support Set はトレーニング セット、Query Set は検証セットとして理解できます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践#Finetune プロセスはメタトレイン プロセスに非常に近く、θ を特定のシーンに配置すると、そのシーンのサポート セットが取得されます。 、勾配降下法 (SGD) が使用され、シーン

の最適なパラメーターを取得します。Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践 を使用して、サンプル (クエリ セット) の推定結果を生成します。タスクシーンで採点されます。 Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践5. メタ学習の産業化への挑戦

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践 メタ学習アルゴリズムを産業シナリオに適用すると、メタ学習アルゴリズムのメタトレイン プロセスには、シーン サンプリングとサンプル サンプリングという 2 つのサンプリングが含まれます。サンプルの場合、サンプルを整理してシーン順に保存して処理する必要があり、同時にサンプルとシーンの対応関係を記憶する辞書テーブルも必要となり、この処理に多くの時間を費やします。同時に、サンプルを従業員が消費するために使用することは、産業シナリオにとって非常に大きな課題となります。

次のソリューションがあります:

  • 解決策 1: メタトレーニング バッチ内でサンプル選択を実行します。同時に、数千万のモデル トレーニングに対して、メタ学習サンプルの編成をサポートするように無限フレームワークを変更します。数千万の大規模モデルのトレーニング。従来のモデルのデプロイ方法では、すべてのシナリオで一連のモデルをデプロイしますが、これにより、モデルのサイズが数千万個という非常に大きくなり、トレーニングとサービスのコストが増加します。調整して使用してリリースする方法を使用して、モデル パラメーターのセットを 1 つだけ保存します。これにより、モデル サイズの増加を回避できます。同時に、パフォーマンスを節約するために、コアネットワーク部分のみを調査します。
  • #解決策 2: 提供プロセス中に微調整を実行します。従来のサンプル ストレージ リンクではサンプルのメンテナンス コストが高くなります。そのため、従来の方法を放棄し、メタ学習の入力として中間層のデータのみを保存します。

6. メタ学習スキーム

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

最初のメタトレーニングバッチ内のシーンとサンプルの選択を実現するには、各バッチに複数のデータがあり、各データはタスクに属します。バッチ内では、これらのデータがタスクに従って抽出され、抽出されたサンプルがメタトレイン トレーニング プロセスに投入されるため、シーン選択とサンプル選択のための処理リンクのセットを個別に維持する必要があるという問題が解決されます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

実験研究と論文の読書を通じて、微調整とメタ学習プロセスにおいて、予測層に近づくほど、モデルが優れているほど、予測効果に大きな影響を与えますが、同時に、emb 層はモデルの予測効果に大きな影響を与え、中間層は予測効果に大きな影響を与えません。したがって、メタ学習は予測層に近いパラメータのみを選択するという考えになりますが、コストの観点から見ると、emb 層の学習コストが増加し、emb 層はメ​​タ学習用にトレーニングされなくなります。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

全体的なトレーニング プロセスは、上の図の mmoe トレーニング ネットワークに示されているように、タワー層のパラメーターとパラメーターを学習します。他のシーンはオリジナルのトレーニング方法に基づいて学習します。サンプルはユーザーをディメンションとして編成されています。各ユーザーは独自のトレーニング データを持っています。トレーニング データは 2 つの部分に分かれており、1 つの部分はサポート セットで、もう 1 つの部分はクエリ セットです。サポート セットでは、タワーの更新とパラメーターのトレーニングのためにローカル側のコンテンツのみが学習されます。その後、クエリ セット データを使用してネットワーク全体の損失が計算され、その後、勾配が返されてネットワーク全体のパラメーターが更新されます。 。

したがって、学習プロセス全体は、ネットワーク全体の元の学習方法は変更されず、メタ学習はコア ネットワークのみを学習し、コストを考慮してエンベディングはメタ学習には参加しません。 -学習; 損失 = 元の損失 元の損失; fintune の場合、emb を格納します。サービス提供プロセスでは、emb を使用してコア ネットワークを微調整し、スイッチを使用してメタ学習のオンとオフを制御できます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

#従来のサンプル保管方法の場合、提供プロセス中に微調整が直接実行される場合、問題: 1 セットのサンプル ストレージ リンクをオンラインで維持する必要があるが、複数のオンライン実験では複数のサンプル セットを維持する必要がある。同時に、微調整プロセスでは、元のサンプルが微調整に使用されます。サンプルは、emb 層、最下位層、メタ学習層を通過します。ただし、メタ学習は、サービス内のメタ学習層のみを学習する必要があります。プロセスを実行し、他の部分は気にしません。サービス提供プロセス中にモデルへのメタ学習入力のみを保存することを検討します。これにより、サンプル リンクのメンテナンスが省略され、一定の効果が得られます。emb 部分のみを保存する場合、この部分の計算コストとメンテナンス コストは、救われます。

次の方法を使用します:

モデルのルックアップ テーブルにストレージを置きます。ルックアップ テーブルは密な変数とみなされ、ps に格納されます。すべてのパラメーターがワーカーにプルされます。更新されると、すべてのパラメーターがワーカーにプッシュされます。ワーカー変数、これによりネットワークの消費時間が増加します。もう 1 つの方法は、無限の HashTable を使用することです。HashTable はキーと値の形式で保存されます。キーはシーンで、値はメタ レイヤーの入力です。この利点は、入力をインポートするだけでよいことです。 ps から必要なシーンのレイヤーを取得します。プッシュまたはプルは全体としてネットワーク時間を節約するため、このメソッドをサンプリングしてメタ レイヤーの入力を保存します。同時に、メタ学習層をモデルに格納すると、モデルが大きくなり、有効期限の問題が発生し、現在のモデルとの不一致が生じます。この問題を解決するために、時間消去を使用します。これにより、モデルが小さくなるだけでなく、リアルタイムの問題も解決されます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

このモデルは、サービス提供ステージでエンベディングを使用します。エンベディングは最下位レイヤーに入力されます。スコアリングの際、それは、元の方法ですが、メタ学習レイヤーを通じてサポート セット内のデータを取得し、このレイヤーのパラメーターを更新し、更新されたパラメーターをスコアリングに使用します。この処理はGPUでは計算できないため、CPU上で処理を実行します。同時に、Wuliang GPU 推論は自動バッチ マージを実行して複数のリクエストをマージします。マージされたリクエストは GPU 上で計算されます。このようにして、バッチが増加するにつれて勾配が変化します。この問題に対処するには、batch と grad On を使用します。を基礎として、num 次元を追加します。勾配を計算するとき、勾配を追加し、勾配の安定性を維持するために num に従って処理します。最終的には、コストとパフォーマンスを制御でき、さまざまなシナリオとモデルが実現されます。

#7. メタ学習の産業化された実践

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

##フレームワークとコンポーネントを使用してメタ学習を一般化するユーザー アクセスするときは、モデル コードを変更するだけで済みます。ユーザーはトレーニングやサービスについて気にする必要はありません。サポート セットの読み取りおよび書き込みインターフェイス、メタトレーニング、ファインチューンなど、実装されたインターフェイスを呼び出すだけで済みます。実装インターフェイス、および GPU サービス適応インターフェイス。ユーザーは、損失、タスク入力、ラベルなどのビジネス関連パラメータを渡すだけで済みます。この設計により、アルゴリズム エンジニアの研究、開発、実験、試行錯誤のコストが節約され、アルゴリズムの反復効率が向上すると同時に、一般化されたコードが複数のビジネス シナリオに対応できるため、人的資源とリソースのコストが節約されます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

2 つのタワーのリコール シナリオでのメタ学習の使用は、ユーザー タワーとアイテム タワーを含むユーザー次元のモデリングに基づいています。このモデルの利点は、プラグイン可能、サンプルやオンライン アーキテクチャを変更する必要がない、安定していてリスクがないことですが、欠点は、サポート セットが前の 1 時間のデータであるため、リアルタイムの問題があることです。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

メタ学習のもう 1 つの応用シナリオは、ユーザーをシナリオとしてモデル化し、ユーザーの行動シーケンスを次のようにモデル化したシーケンス想起シナリオです。サポート セットの場合、ユーザー動作シーケンスにはポジティブ サンプルのみが含まれます。ネガティブ サンプル キューを維持し、キュー内のサンプルをネガティブ サンプルとしてサンプリングし、ポジティブ サンプルをサポート セットとして結合します。この利点は、リアルタイム パフォーマンスの向上とコストの削減です。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

最後に、メタ学習は、上の図の mmoe ファインソート モデルなどのソート シナリオにも適用されます。実装方法は 2 つあります。 : Finetune のみを使用し、meta-train と Finetune を同時に使用します。 2 番目の実装方法の方が効果的です。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

メタ学習は、さまざまなシナリオで良好な結果を達成しています。

2. クロスドメインの推奨事項

1. クロスドメインの推奨事項の問題点

各シーンには複数の推奨入口があり、シーンごとに想起、大まかなランキングから細かいランキングまでの一連のリンクを確立する必要があり、コストがかかります。特に小規模なシーンと中規模およびロングテールのトラフィック データはまばらであり、最適化スペースは限られています。コストを節約し、結果を向上させるために、同様のレコメンデーション ポータル、オフライン トレーニング、およびオンライン サービスのサンプルを 1 つの製品に統合してセットにすることはできますか?

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

# ただし、これにはいくつかの課題があります。ブラウザで「Gu Ailing」を検索すると、関連する検索語が表示されます。特定のコンテンツをクリックして戻った後、結果をクリックした後の推奨事項が表示されます。両者のトラフィックの割合、クリックスルー率、および機能の分布は非常に優れています。同時に、推定されるターゲットにも違いがあります。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

#マルチタスク モデルをクロスドメイン モデルに使用すると、深刻な問題が発生し、改善できなくなります。利点。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

# Tencent でクロスシナリオ モデリングを実装することは大きな課題です。まず、他社では 2 つのシナリオの特徴を 1 対 1 に対応させることができますが、テンセントのクロスドメインレコメンデーション分野では 2 つのシナリオの特徴を一致させることができず、1 つのサンプルは 1 つのシナリオにのみ属することができます。分布は大きく異なり、推定されたターゲットを調整することは困難です。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

上記の方法は、Tencent のクロスドメイン レコメンデーション シナリオのパーソナライズされたニーズに対応するために使用されます。共通の特徴については、共有埋め込みが実行されます。シーンのパーソナライズされた特徴には、独自の独立した埋め込みスペースがあります。モデル部分には、共有エキスパートとパーソナライズされたエキスパートがあります。すべてのデータは共有エキスパートと各シーンのサンプルに流れ込みますエキスパートをパーソナライズし、パーソナライズされたゲートを介して共有エキスパートとパーソナライズされたエキスパートを統合し、それらをタワーに入力し、スター法を使用してさまざまなシナリオでターゲットの疎性の問題を解決します。エキスパート部分では、シェアボトム、MMoE、PLE、またはビジネスシナリオの完全なモデル構造など、任意のモデル構造を使用できます。この方法の利点は、モデルの汎用性が高く、さまざまなモデルの融合アクセスに適していること、シーンエキスパートを直接移行できるため、元のシーン効果が損なわれず、シナリオを越えた知識伝達の効果が向上することです。融合後はモデルが縮小され、トレーニング速度が向上します。コストを節約しながら改善されます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

# ユニバーサル構築を実施しました。赤い部分は、パーソナライズされた機能、パーソナライズされたモデル構造など、パーソナライズされたアクセスが必要なコンテンツです。 . 、ユーザーはパーソナライズされたコードを記述するだけで済みます。他の部分では、コードのセット全体を ModelZoo に接続し、直接継承して使用でき、機械学習プラットフォームのワークフロー コンポーネントにカプセル化して直接実行できます。この方法により、マルチシナリオ学習の研究コストが削減され、アクセス。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

この方法では、サンプル サイズが増加し、モデル構造が複雑になりますが、効率は向上します。その理由は、一部の特徴量を共有しているため、融合された特徴量の数が 2 つのシーンの特徴量の合計よりも少ないこと、共有埋め込みの機能により、バッチ内の平均キー値が2 つのシーンの合計; 減少 サーバー側からプルまたはプッシュする時間を節約し、通信時間を節約し、全体のトレーニング時間を短縮します。

複数のシナリオを融合すると、全体的なコストを削減できます。オフライン サンプル処理ではコストを 21% 削減できます。CPU を使用してデータを追跡することで、コストの 24% を節約し、反復回数を削減できます。モデルの時間も 40% 削減され、オンライン トレーニング コスト、オンライン サービス コスト、モデル サイズがすべて削減されるため、リンク全体のコストが削減されます。同時に、複数のシーンのデータを統合する方が GPU コンピューティングに適しており、2 つの単一シーンの CPU を GPU に統合すると、より高い割合で節約できます。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

クロスドメインの推奨事項は、さまざまな方法で使用できます。 1 つ目はマルチシーンの単一目的モデル構造で、マルチシーン モデリング フレームワークを直接使用できます。タワー側のスターの使用はお勧めできません。2 つ目はマルチシーンとマルチシーンの融合です。 -objective であり、マルチシーン モデリング フレームワークを直接使用できます。 ; 3 番目のタイプは、同じリファインされた製品に対する異なるターゲット モデルの融合であり、マルチシナリオ モデリング フレームワークを直接使用できます。タワー側に星印、最後のモデルは、同じ製品に対する複数のリコール モデルと大まかなランキング モデルを融合したもので、現在開発中です。

Tencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践

クロスドメイン レコメンデーションは、効果を向上させるだけでなく、コストを大幅に節約します。

以上がTencent TRS のメタ学習とクロスドメイン レコメンデーションの業界実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。