ホームページ >テクノロジー周辺機器 >AI >正確なレコメンデーションの秘密: アリババの分離ドメイン適応不偏リコール モデルの詳細な説明
##最初のこの記事に関係するシナリオ、「良い商品が入手可能」のシナリオを紹介しましょう。その場所はタオバオのホームページ上の 4 つの正方形のグリッド内にあり、1 ホップの選択ページと 2 ホップの承認ページに分かれています。受付ページには主に 2 つの形式があり、1 つは画像とテキストの受付ページ、もう 1 つは短いビデオの受付ページです。このシナリオの主な目標は、ユーザーに満足のいく商品を提供し、GMV の成長を促進し、それによって専門家の供給をさらに活用することです。
次に、この記事の焦点である人気バイアスについて説明します。人気バイアスとは何ですか?人気の偏りはなぜ起こるのでしょうか?
人気バイアスには、 マシュー効果、情報コクーン ルーム、 など、さまざまな別名があり、直感的に言えば爆発性の高い製品のカーニバルであり、人気のある製品ほど露出されやすくなります。そうなると、高品質なロングテール商品や専門家が作った新商品が露出する機会がなくなってしまいます。弊害は主に2つあり、1つ目はユーザーのパーソナライゼーションの欠如、2つ目は専門家が作った新製品の露出が少なく、専門家の参加意識が低下することです。人気の偏り。
上の図の右側にある青色のヒストグラムからわかるように、露出された上位 10% の製品が、ある市場での露出の 63% を占めています。ある日のこと、これは『マシュー』では良い商品があるときの効果が非常に深刻であることを証明しています。
次に、人気バイアスがなぜ発生するのかを考えてみましょう。まず、なぜリコール切り捨てにおける人気度のバイアスを軽減する作業を行うのかを明確にする必要があります。ランキング モデルは商品の CTR に適合し、そのトレーニング サンプルにはポジティブ サンプルとネガティブ サンプルが含まれており、CTR が高い商品ほど露出が増える可能性が高くなります。しかし、リコール段階では、通常、ツインタワー モデルを使用します。そのネガティブ サンプルは、通常、2 つの方法で生成されます。1 つ目は、グローバル ランダム ネガティブ サンプリングで、2 つ目は、バッチ内ネガティブ サンプリングです。バッチ内ネガティブ サンプリングは、同じバッチでは、陽性サンプルの他の曝露ログを陰性サンプルとして取得するため、マシュー効果をある程度軽減できます。ただし、実験を通じて、グローバル ネガティブ サンプリングの実際のオンライン効率効果はより優れていることがわかりました。ただし、レコメンダー システムにおけるグローバル ランダムなネガティブ サンプリングは、モデルにポジティブなフィードバックのみを提供するため、人気のバイアスにつながる可能性があります。この偏りは、人気分布の違いと事前知識の干渉に起因する可能性があります。つまり、ユーザーはより人気のあるアイテムをクリックする傾向があります。したがって、モデルは、関連性に関係なく、人気のあるアイテムを優先的に推奨する場合があります。
また、露出頻度に応じて製品をグループ化し、上図の右側の緑色の線で示されている人気分布の違いを分析しました。各グループの陽性サンプルの平均スコアを計算すると、すべてのサンプルが陽性サンプルであっても、平均スコアは曝露頻度とともに低下することが判明しました。レコメンデーション システム モデルをトレーニングする場合、人気度の分布とロングテールの分布には違いがあります。このモデルはアイテムの ID 特徴に人気度情報を注入する傾向があり、その結果、人気度の分布に違いが生じます。爆発性の高い製品によって得られるトレーニング回数は、ロングテールの製品よりもはるかに多く、爆発性の高い製品に対してモデルが過剰適合しており、ロングテールの製品では十分なトレーニングと合理的なベクトル表現を取得することが困難です。上図の右側の TSN チャートに示されているように、青い点は高曝露製品の積ベクトルを表し、赤い点はロングテール製品の積ベクトルを表しており、分布に大きな違いがあることがわかります。また、上図右側の赤線のように、露出回数が減るとヒット率も低下します。したがって、人気の偏りは、人気の分布の違いとロングテールの分布の違いによるものであると考えられます。
現在の業界ソリューション 主に 2 つあります。タイプ、つまり逆傾向スコア (IPS) と因果推論です。
一般的に言えば、メイン製品における暴露確率の高い商品の比重を下げることです。タスク損失関数は、曝露確率の高い製品に過度の注意を払わないようにすることで、陽性サンプル分布全体により均等に注意を払うことができます。ただし、この方法では暴露確率を事前に予測する必要があるため、不安定で失敗したり、大きく変動したりする可能性があります。
i が製品特性を表し、u が表す因果図を構築する必要があります。ユーザーの特徴、c はクリック確率を表します。この図は、ユーザーの特徴と製品の特徴をモデルに入力してクリック率を予測することを示しています。 z で表される人気バイアスもこのモデルに取り入れると、クリックスルー率に影響を与えるだけでなく、製品 i の特徴表現にも影響を与えることになります。因果推論の方法は、次の影響をブロックしようとすることです。 i の z。
より簡単な方法は、製品の統計的特性を使用して別のバイアス タワーを取得することです。このとき、モデルは 2 つの点を出力します。 1 つは真のクリックスルー率、もう 1 つは製品の人気スコアです。オンライン予測を行う場合、人気の偏差を切り離すために製品の人気スコアは削除されます。
#2 番目の方法は、ユーザーのクリックを 2 つのカテゴリ (1 つは群衆の関心、もう 1 つは実際の関心) に分類し、それぞれサンプルの共同トレーニングを構築することです。これは 2 つのモデルを取得することに相当します。1 つはユーザーの集団関心スコアを取得するためのモデル、もう 1 つはユーザーの真の関心スコアを取得するためのモデルです。実は因果推論には問題があり、人気分布の違いは解決するが、ロングテール商品の学習データ不足の問題は解決できない。現在のソリューションは人気のバイアスを取り除く傾向がありますが、これは生き残るために「マシュー効果」を必要とするレコメンダー システムにとって必ずしも有益であるとは限りません。したがって、人気のあるアイテムは通常品質が高く、ユーザーには群集心理と本物の興味の両方があるため、レコメンデーション システムで人気のバイアスを完全に除去しないことをお勧めします。群れの利益。人気バイアスは合理的に利用されるべきであり、悪化させるべきではありません。
#人気バイアスを合理的に利用するには、人気分布の違いを考慮して、「偏りのない、完全に学習された商品表現をどのように抽出するか?」という課題を解決する必要があります。 、実際のコンテンツ ベクトルと人気ベクトルを製品 ID から切り離す必要があります。ロングテールの分布の違いに対処するために、ドメイン適応のパラダイムを利用して全体の分布を調整し、対照学習のパラダイムを利用してインスタンスの分布を調整します。
まずはベースモデルの基本構造をご紹介します ベースモデルは、実は古典的な2塔モデルです。次に、先ほど述べた2つの問題(人気分布の違いとロングテールの分布の違い)をどのように解決するかを詳しく紹介します。
特徴分離モジュールは、レコメンデーション システムにおける人気度の偏りの問題を解決するために、この記事で提案されるソリューションです。このモジュールは、アイテム ベクトル表現の属性情報から人気情報を分離することにより、アイテム ベクトル表現に対する人気の影響を軽減します。具体的には、このモジュールには人気度エンコーダーと属性エンコーダーが含まれており、多層パーセプトロンの組み合わせを通じて各アイテムの属性と人気度ベクトル表現を学習します。このモジュールの入力は、上のモデル構造の右側に示すように、アイテム ID、アイテム カテゴリ、ブランドなどのアイテムの属性特性です。ここでは、アイテム属性情報から人気情報を分離することを目的として、直交正則化と人気類似性正則化を含む 2 つの制約があります。その中で、人気度の類似性正則化を通じて、モジュールはアイテム属性に埋め込まれた人気度情報を実際の人気度情報と一致させることが奨励され、一方、直交正則化を通じて、モジュールはエンコード内に異なる情報を保持するよう促され、それによって分離された人気度を達成します。情報とアイテムの属性情報。
上記のモデル構造の左側に示すように、真の人気を学習するためのモジュールも必要です。その入力は主に、次に、MLP を通過して、真の人気度の表現を取得します。
##次に、ロングテール分布の差異の問題を解決したいと考えています。
私たちは転移学習のアイデアを利用して、人気製品とロングテール製品の分布の調整を実現します。元の 2 タワー モデルでは、未公開の製品を導入し、MMD 損失関数を使用しました (上図の左上に示すように)。図の右上の概略図に示すように、製品ドメインは可能な限り近くなります。この種のドメイン アライメントは監視されておらず、負の転移が生じる可能性があるため、次の最適化を行いました: ドメイン アライメント損失における露光サンプルの勾配は、タスク損失への影響を防ぐために停止されます。未露光サンプルの場合、細かいランク付けは次のとおりです。知識の蒸留。 私たちはまた、より良い製品ベクトル表現を学習するために、インスタンス アラインメントのアイデアも活用しています。主なアイデアは、製品の共起が効果的であればあるほど、ベクトル表現がより類似するということです。ここで難しいのは、ペアをどのように構築するかです。このようなペアは、ユーザーが過去の行動をとった製品シーケンスに自然に存在します。ユーザーを例にとると、サンプルにはユーザーの行動シーケンスと対象製品が含まれており、対象製品とユーザーの行動シーケンス内の各製品は共起ペアを形成できます。古典的な対比学習損失関数に基づいて、ユーザーの興味の多様性と製品の頻度も考慮します。特定の損失関数の式は、上図の左下部分に示されています。
上図の右下に示すように、灰色の点が対象製品、オレンジ色の点がユーザーの行動シーケンス、青の点が負の値を示す直感的な図を見ることができます。ランダムなネガティブサンプリングによって取得されたサンプル。私たちは、ユーザーの行動シーケンス内の各製品をターゲット製品に近づけるために、対照的な学習方法から学んでいきたいと考えています。3. 偏りのある共同トレーニングと偏りのない共同トレーニング
4、オフラインおよびオンライン実験
##上の図は、このモデルのオフラインとオンラインの効果を示しています。オフライン実験では、リコール結果の中でどれだけの項目が高曝露項目であるかを測定するために C-Ratio 指標を導入しました。オフライン実験を通じて、各モジュールがある程度貢献していることがわかります。不偏モデルではオンライン効率指標が向上せず、人気情報が有用であることが示されており、人気情報を活用するには依然として偏りモデルを使用する必要があります。
#最後に、モデルの結果を視覚的に表示しました。私たちは、新しいモデル構造が爆発性の高い製品とロングテール製品の分布を実際に調整できることを発見しました。分離された人気表現ベクトルと製品の偏りのないコンテンツ表現にはほとんど交差がなく、同じ目的の製品はより近いものになる可能性があります。 α を調整することで、モデルはユーザーの集団的関心と実際の関心に方向性を合わせて適合させることができます。
本日共有される論文のタイトルは、「レコメンダーの人気バイアスを活用するための、解き放たれたドメイン適応ネットワークの共同トレーニング」です。 #5. Q&A セッション
#Q2: 同じ種類の未露光サンプルを導入すると、学習の難易度が上がりますか?
Q3: 未露光サンプルの詳細なランキングスコアを取得するには非常に費用がかかりますか?
#Q4: 未露光サンプルはリファインされる未露光サンプルですか?
以上が正確なレコメンデーションの秘密: アリババの分離ドメイン適応不偏リコール モデルの詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。