ホームページ >テクノロジー周辺機器 >AI >タオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用
この記事では、業界における継続学習のフレームワークの下でクロスドメイン推奨モデルを実装する方法を検討し、継続的事前学習の中間層表現の結果を使用して、連続転移学習の新しいクロスドメイン推奨パラダイムを提案します。トレーニングされたソース ドメイン モデルとしてターゲット ドメイン モデルの追加知識に基づいて、クロスドメインの知識の移行を実現する軽量のアダプター モジュールが設計され、推奨製品のランキングで重要なビジネス成果を達成しました。
近年、ディープモデルの適用により、業界におけるレコメンドシステムのレコメンド効果が大幅に向上しています。シナリオ内のデータに依存してモデルの構造と機能を最適化することがより困難になります。タオバオのような大規模な電子商取引プラットフォームでは、さまざまなユーザーの多様なニーズを満たすために、情報フローのレコメンデーション(ホームページで気に入るかもしれません)、優れたこれらのシナリオは淘宝網の製品システムを共有していますが、特定の製品選択プール、コア ユーザー、ビジネス目標には大きな違いがあり、シナリオによって規模も大きく異なります。今回の「良品」シナリオはタオバオの厳選商品のショッピングガイドシナリオです 情報フローレコメンデーション、メイン検索、その他のシナリオに比べて規模が比較的小さいため、転移学習、クロスドメインレコメンデーションの活用方法モデルの効果を向上させるためのその他の方法は常に存在しており、これは良品仕分けモデルを最適化する際の重要なポイントの 1 つです。 タオバオのさまざまなビジネス シナリオでは製品とユーザーが重複していますが、シナリオに大きな違いがあるため、情報フローの推奨などの大規模なシナリオのランキング モデルは、優れた製品が入手可能なシナリオに直接適用するとうまく機能しません。 。したがって、チームは、事前トレーニングや微調整、マルチシナリオの共同トレーニング、グローバル学習などの一連の既存の手法の使用を含め、クロスドメインの推奨に向けて多大な試みを行ってきました。これらの方法は、実際のオンライン アプリケーションでは十分に効果的ではないか、かなりの問題が発生します。継続的転移学習プロジェクトは、これらの手法をビジネスに適用する際の一連の問題に対して、シンプルかつ効果的な新しいクロスドメイン推奨手法を提案します。この方法
は、継続的に事前トレーニングされたソース ドメイン モデルの中間層表現の結果をターゲット ドメイン モデルの追加知識として使用し、淘宝網での優れた製品の推奨ランキングで重要なビジネス成果を達成しました。
この記事「淘宝網におけるクロスドメインのクリックスルー率予測のための継続的転移学習」の詳細版は、ArXiv https://arxiv.org/abs/2208.05728 で公開されています。方法
▐ 既存の研究とその欠点業界推奨システムの重要な特徴は、モデルのトレーニングが 継続学習 (継続学習) パラダイムに従っていることです。つまり、モデルは最新のサンプルを使用し、 を活用する必要があります。オフライン増分更新 (増分学習) または オンライン学習 および最新のデータ分布を学習するその他の方法。この記事で検討したクロスドメイン レコメンデーション タスクでは、ソース ドメインとターゲット ドメインのモデルは両方とも継続学習トレーニング手法に従います。したがって、私たちは、学術および産業用途で広く使用されるであろう新しい問題を提案します: 継続転移学習、これは、時間の経過とともに変化するあるドメインから、同様に時間の経過とともに変化する別のドメインに移動することとして定義されます。私たちは、業界推奨システム、検索エンジン、コンピュテーショナル広告などにおける既存のクロスドメイン推奨および転移学習手法の適用は、連続転移学習パラダイムに従うべき、つまり転移プロセスは連続的かつ複数回であるべきであると考えています。その理由は、データ分布は急速に変化するため、継続的な移行のみが安定した移行効果を保証できるからです。この業界推奨制度の特徴と組み合わせると、事前トレーニングや微調整の実用化には課題が見えてきます。ソース ドメインとターゲット ドメインのシーンの違いにより、ソース ドメイン モデルを微調整してより良い結果を得るには、通常、多数のサンプルを使用する必要があります。継続的な転移学習を実現するには、最新のソース ドメイン モデルを使用して時々再微調整する必要があるため、非常に膨大な学習コストがかかり、この学習方法をオンライン化することも困難です。さらに、これらの多数のサンプルを微調整に使用すると、ソース ドメイン モデルが保持されている有用な知識を忘れてしまう可能性もあり、モデル内の壊滅的な忘却問題を回避できます。ソース ドメイン モデルのパラメーターを使用して、以前に作成された元のパラメーターを置き換えます。ターゲット ドメインで学習された情報も元のモデルから歴史的に得られた有用な知識は破棄されます。したがって、業界の推奨シナリオに適した、より効率的な連続転移学習モデルを設計する必要があります。 この記事では、上記の問題を解決するためのシンプルで効果的なモデル CTNet (継続的転送ネットワーク、継続的移行ネットワーク) を提案します。従来の事前トレーニング微調整方法とは異なり、CTNet の中心的な考え方は、 が履歴内のモデルによって取得されたすべての知識を忘れたり破棄したりすることができず、元のソース ドメイン モデルとターゲットのすべてのパラメーターを保持するということです。ドメイン モデル 。これらのパラメーターには、非常に長い履歴データの学習を通じて得られた知識が保存されています (たとえば、淘宝網の詳細ランキング モデルは、2 年以上にわたって継続的に段階的にトレーニングされています)。 CTNet はシンプルなツインタワー構造を採用し、軽量のアダプター層を使用して、継続的に事前トレーニングされたソース ドメイン モデルの中間層表現の結果をターゲット ドメイン モデルの追加知識としてマッピングします。連続転移学習を実現するためにデータのバックトラッキングが必要な事前トレーニング微調整方法とは異なり、CTNet では増分データの更新のみが必要なため、効率的な連続転移学習が実現します。 ##########################################方法####### #継続的な転移学習を達成するには増分データのみが必要です ##共同トレーニング #表 1: CTNet と既存のクロスドメイン推奨モデルの比較 時間の経過とともに変化し続けるソース ドメインとターゲット ドメインを考慮すると、継続的転移学習 (継続的転移学習) では、次のことが可能になることが期待されます。過去の、または現在取得されているソース ドメインとターゲット ドメインの知識を使用して、将来のターゲット ドメインの予測精度を向上させます。 継続的転移学習の問題を、淘宝網のクロスドメイン レコメンデーション タスクに適用します。このタスクには次の特徴があります。
#図 1: モデル展開の概略図 上の図は、私たちのメソッドをオンラインで展開した様子を示しています。 瞬間の前に、ソース ドメイン モデルとターゲット ドメイン モデルは、それぞれのシーンの監視データのみを使用して、個別かつ継続的に増分的にトレーニングされました。 の瞬間から、クロスドメイン レコメンデーション モデル CTNet をターゲット ドメインにデプロイしました。このモデルは、履歴で得た知識を忘れることなくターゲット ドメイン データをインクリメントし続けます。トレーニングは継続的に行われます。最新のソース ドメイン モデルから知識を移転します。 #▐ 継続的移行ネットワーク モデル (CTNet) 図 2: 継続的移行ネットワーク CTNet 図 2 に示すように、私たちが提案した連続転送ネットワーク (CTNet) モデルは、すべてのソース ドメイン モデルをターゲット ドメインのオリジナルのファインランキング モデルに埋め込みます。それらのネットワーク パラメータは 2 つのタワー構造を形成し、CTNet の左側のタワーがソース タワー、右側のタワーがターゲット タワーです。ソース ドメイン モデルの最終スコアリングのみを使用する、または一部の浅い表現 (埋め込みなど) のみを使用する一般的な方法とは異なり、軽量のアダプター ネットワークを使用して、ソース ドメイン モデルのすべての中間隠れ層を結合します。 MLP (特に、ソース ドメイン MLP に深く含まれるユーザーとアイテムの )、表現結果 をターゲット レコメンデーション ドメインにマッピングし、その結果をターゲット タワーの対応するレイヤー # に追加します (以下の式は # の状況を表します) #######)。 CTNet の効果を向上させる鍵は、MLP での深い表現情報の移行を利用することです。ゲート線形ユニット (GLU) のアイデアに基づいて、アダプター ネットワークはゲート線形層を使用し、ソース ドメイン特徴の適応特徴選択を効果的に実装できます。モデル内の有用な知識は移行され、モデルと矛盾する情報は移行されます。シーンの特徴が転送されます。フィルターで除外できます。ソース ドメイン モデルは継続的な事前トレーニングに最新のソース ドメイン監視データを使用し続けるため、トレーニング プロセス中、Source Tower は最新の更新されたソース ドメイン モデル パラメーターの読み込みも継続し、バックプロパゲーション プロセス中も固定されたままになります。継続的な転移学習の効率的な進行。したがって、CTNet モデルは継続学習パラダイムに非常に適しており、ターゲット ドメイン モデルがソース ドメイン モデルによって提供される最新の知識を継続的に学習して、最新のデータ分布の変更に適応できます。同時に、モデルはターゲット ドメイン データでのみトレーニングされるため、モデルはソース ドメインのトレーニング目標の影響を受けず、ソース ドメイン データのトレーニングをまったく必要とせず、大量のストレージを回避できます。そして計算のオーバーヘッド。さらに、このようなネットワーク構造は加算設計手法を採用しているため、移行プロセス中に元のモデルの MLP 層のディメンションを変更する必要がなく、ターゲット タワーは元のターゲット ドメインのオンライン モデルによって完全に初期化され、 MLP 層のランダムな再初期化により、元のモデルの効果が最大限に損なわれず、良好な結果を得るために必要な増分データが少なくなり、モデルのホット スタートが実現されます。 ソース ドメイン モデルを (元の単一ドメイン推奨ターゲット ドメイン モデル) として定義します。は 、新しくデプロイされたターゲット ドメインのクロスドメイン推奨モデルは 、 はオンラインでのクロスドメイン推奨モデルのデプロイですモデルは時間 まで継続的に増分更新されます。アダプター、ソース タワー、およびターゲット タワーのパラメーターは、それぞれ 、、および です。 CTNet トレーニングのプロセスは次のとおりです。 #図 3: CTNet トレーニング #実験 表2: オフライン実験結果 上の表に示すように、2 つのサブシナリオ (表のドメイン B および C) に対応する実稼働データ セットがあります。良品ビジネス 一連のオフライン実験は、ソース ドメイン (表のドメイン A) がホームページ情報フロー推奨シナリオである Web サイト上で実行されました。情報フローのレコメンデーション (ホームページで気に入っているかもしれません) ランキング モデルのスコアリング結果 (表のソース ドメイン モデル) を直接使用することは、良い商品のビジネスには効果的ではないことがわかります。 、絶対値は GAUC-5.88.% と GAUC-9.06% であり、シナリオ間の違いが証明されています。 また、一般的な事前トレーニング微調整手法や共同トレーニング手法 (MLP、PLE、MiNet、DDTCDR、DASL など) を含む、一連の従来のクロスドメイン レコメンデーション ベースライン手法も比較しました。 、そして提案された CTNet は両方のデータセットで既存の方法を大幅に上回っています。完全オンラインのメイン モデルと比較して、CTNet は 2 つのデータ セットでそれぞれ 1.0% と 3.6% という GAUC の大幅な改善を達成しました。さらに、実験を通じて、単一転送と比較した連続転送の利点を分析しました。 CTNet のフレームワークでは、1 回の転送による効果の向上はモデルの増分更新に伴って減衰しますが、継続的な転送学習によりモデル効果の安定した向上を保証できます。 # 図 4: 単一転移と比較した連続転移学習の利点 次の表は、従来の事前トレーニング微調整の効果を示しています。完全なソース ドメイン モデルを使用して、ターゲット ドメイン データでトレーニングします。フィールド間の違いにより、モデルの効果を完全なオンライン基本モデルと同等のレベルに調整するには、非常に多くのサンプル (120 日サンプルなど) が必要になります。継続的な転移学習を実現するには、最新のソースドメインモデルを用いて定期的に再調整を行う必要があり、その都度の調整に膨大なコストがかかるため、継続的な転移学習には適していません。さらに、この方法は効果の点で移行なしのベースモデルを超えることはありませんが、その主な理由は、大規模なターゲットドメインサンプルトレーニングの使用により、モデルが元のソースドメインの知識を忘れてしまい、最終的なモデル効果が得られないためです。トレーニングは、ターゲット ドメイン データのみに対するトレーニングの効果に似ています。事前トレーニングと微調整のパラダイムでは、すべてのパラメーターを再利用するよりも、一部の埋め込みパラメーターのみをロードする方が優れています (表 2 を参照)。 #表 3: 事前トレーニングされたソース ドメイン モデルを使用したターゲット ドメインでのトレーニングの効果 CTR 2.5%、追加購入 6.7%、トランザクション数 3.4%、GMV 7.7%C シナリオ: CTR 12.3%、滞在期間 8.8%、追加購入 10.9%、トランザクション数 30.9%、GMV 31.9% 概要と展望 チーム紹介##大量のソース ドメイン サンプルを使用する必要はありません
#いいえ
#いいえ #はい
トレーニング前の微調整
はい はい いいえ
この記事で提案する CTNet
は です##### #######はい############### ▐ 問題の定義
# #この記事では、継続的転移学習の新しい問題について検討します: # さまざまな推奨シナリオの規模は大きく異なり、より大きなソース ドメインでトレーニングされたモデルの知識を使用して、推奨シナリオを改善できます。対象ドメインの推薦効果。
▐ オフライン効果
CTNetは早ければ2021年末までに完成し、2022年2月から優良商品のレコメンド事業を本格的に開始する予定です。前世代のフルモデルと比較して、2 つの推奨シナリオでビジネス指標の大幅な改善が達成されました。シナリオ B:
以上がタオバオ推奨システムにおける連続転移学習クロスドメイン推奨ランキングモデルの適用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。