1. 要約
ランキング モデルは、広告、推奨、検索システムにおいて重要な役割を果たします。ランキングモジュールでは、クリック率推定技術が最優先されます。現在、業界のほとんどのクリック率予測技術は、データ ドライブに基づいてディープ ニューラル ネットワークをトレーニングするディープ ラーニング アルゴリズムを使用していますが、データ ドライブによって引き起こされる問題は、レコメンデーション システムの新しいプロジェクトにコールド スタートの問題が発生することです。
Exploration-Exploitation (E&E) 手法は、大規模なオンライン レコメンデーション システムにおけるデータ サイクルの問題に対処するために通常使用されます。過去の研究では通常、モデル予測における不確実性が高いと潜在的なリターンが高いと考えられていたため、ほとんどの研究文献は不確実性の推定に焦点を当てていました。ストリーミング トレーニングを使用するオンライン レコメンデーション システムの場合、探索戦略はトレーニング サンプルの収集に大きな影響を与え、それがモデルのさらなる学習に影響します。ただし、現在の探索戦略のほとんどは、探索されたサンプルがその後のモデル学習にどのような影響を与えるかを十分にモデル化できません。したがって、正常に探索および表示されたサンプルがその後の推奨モデルの学習に及ぼす影響をシミュレートする擬似探索 (Pseudo-Exploration) モジュールを設計しました。
疑似探索プロセスは、モデル入力に敵対的摂動を追加することで実現され、このプロセスの対応する理論分析と証明も提供します。このことから、この手法を敵対的勾配に基づく探索戦略(Adversarial Gradient Driven Exploration、以下AGE)と名付けます。探索の効率を向上させるために、低価値の探索でリソースを無駄にしないように、低価値のサンプルをフィルタリングする動的ゲート ユニットも提案します。 AGE アルゴリズムの有効性を検証するために、私たちは公的学術データセットで多数の実験を実施しただけでなく、AGE モデルを Alimama ディスプレイ広告プラットフォームに展開し、オンラインで良好な収益を達成しました。この研究は、KDD 2022 Research Track のフルペーパーとして収録されています。ぜひ読んでコミュニケーションをとってください。
論文: 詳細なクリックスルー率予測のための敵対的勾配駆動探索
ダウンロード: https://arxiv.org/abs/2112.11136
2. 背景
広告システムでは、クリックスルー率 (CTR) 推定モデルは通常、ストリーミング手法を使用してトレーニングされ、ストリーミング データのソースはオンラインで展開された CTR モデルによって生成され、いわゆるデータ サイクルの問題が発生します。コールド スタート広告とロングテール広告は完全には表示されないため、CTR モデルにはこれらの広告のトレーニング データが不足しており、これがモデルによる広告のこの部分の推定にもつながります。大きな誤差が発生する可能性があり、表示がより困難になります。これらの広告により、コールド スタート ブート プロセスを完了することが困難になります。具体的には、図 1 は、広告の実際のクリックスルー率とインプレッション数の関係を示しています。私たちのシステムでは、クリックスルー率が収束するまでに、新しい広告は平均約 10,000 回表示される必要があります。州。これにより、多くのオンライン システムに共通の問題が生じます。それは、ユーザー エクスペリエンスを確保しながら、これらの広告をどのようにコールドスタートするかということです。
図 1: 広告の CTR とインプレッション数の関係
探索および活用 (E&E) アルゴリズムは、通常、上記の問題を解決するために使用されます。レコメンデーションまたは広告システムでは、一般的な方法 (コンテキスト マルチアーム バンディット、コンテキスト マルチアーム バンディットなど) は、一般にこの問題を次のようにモデル化します。各ステップで、システムはポリシー P に基づいてアクションを選択します (つまり、アイテム _ _ をユーザーに推奨します)。累積報酬 (通常は合計クリック数で測定) を最大化するために、システムは現在重点を置いているのが探索なのか活用なのかを比較検討する必要があります。従来の研究では、一般に、高い不確実性が潜在的な利益の尺度であると考えられています。一方では、戦略 P は現在の利益を最大化するために、現在の有用性がより高いプロジェクトを優先する必要がありますが、他方では、アルゴリズムは探査を達成するためにより不確実性の高い操作を選択する必要もあります。探査と活用を比較検討する戦略を表すために使用される場合、システムによるプロジェクトの最終スコアは次の式で表すことができます。
不確実性推定は、多くの E&E アルゴリズムの中核モジュールとなっています。不確実性は、データの変動性、測定ノイズ、モデルの不安定性 (パラメーターのランダム性など) に起因する可能性があります。典型的な推定方法には、モンテカルロ MC ドロップアウト、ベイジアン ニューラル ネットワーク、予測の不確実性が含まれます。ガウス プロセス、および勾配ノルムに基づく不確実性モデリング (モデルの重量)など。これに基づいて、2 つの典型的な探索戦略があります。UCB ベースの手法は通常、最終スコアとして潜在的な収益の上限を使用します [1,2]。一方、トンプソン サンプリング ベースの手法は、推定された確率分布からサンプリングすることによって完成します [3] ]。
3. 方法の紹介
上記の方法は完全な探索閉ループを考慮していないと考えられます。データ駆動型のオンライン システムの場合、探索の最終的な利点は、探索プロセスから得られるフィードバック データと、フィードバック データに基づくモデルのトレーニングと更新から得られます。モデル推定自体の不確実性は、フィードバック ループ全体を完全には反映しません。この目的を達成するために、探索アクションの完了後にモデルに対するフィードバック データの影響をシミュレートする擬似探索モジュールを導入し、これを探索の有効性の測定に使用しました。分析の結果、探査の有効性はモデルの推定不確実性だけでなく、「逆妨害」の規模にも依存することが判明した。いわゆる敵対的摂動とは、モデルの出力に最大の変化を引き起こす、モデルの入力に追加される固定モジュール長を持つ摂動ベクトルを指します。この論文では、探索されたデータを使用してモデルが一度トレーニングされた後、モデルの出力変化の期待は、不確実性のモジュール長を持つ増分ベクトルと敵対的勾配の外乱ベクトルを入力ベクトルに追加することと同等であることも証明しました。この方法でのモデリングにより、探索されたサンプルがモデルに与えるその後の影響を閉ループ方式で推定できることを検証しました。これにより、探索されたサンプルの真の値が推定されます。
私たちはこのメソッドを Adversarial Gradient Driven Exploration (略して AGE) と呼びます。 AGE モデルは擬似探索モジュールと動的ゲーティング ユニットの 2 つの部分から構成されており、その全体構造を図 2 に示します。
図 2: AGE 構造図
それらの一部の詳細な紹介についてはセクション 3.1 を参照し、詳細についてはセクション 3.3 を参照してください。
3.1 擬似探索モジュール
3.1.1 モジュールの概要
擬似探索モジュールの主な目的は、擬似探索モジュールの使用を定量的にシミュレートすることです。モデル 探索サンプルがトレーニングされた後、サンプルのスコアの変化が推定され、モデルに対する探索の閉ループの影響が推定されます。導出後、上記のプロセスは式 (2) によって完了できることがわかりました。式 (2) は、モデルによる探索後のサンプルのスコアを表し、これを最終的なランキングに使用します。
上記の式は、元のモデル パラメーターに対して操作を実行する必要がないことを意味します。敵対的勾配の積、推定された不確実性を追加し、入力表現にハイパーパラメーターを手動で設定するだけで済みます。シミュレーションを完了する探索後のモデルの推定スコア。このうち、パラメータと の計算方法については次のセクションで紹介します。このセクションの後半では、提案された探索モジュールにおける式 (2) の詳細な導出プロセスを紹介します。
3.1.2 詳細な導出
データ サンプルごとに、モデルのトレーニングはパラメーターの 2 つの部分に影響します。サンプルに対応する表現 (製品、ユーザー埋め込みなど)とモデルパラメータ。トレーニングにおけるモデル パラメーターの目標は、単一のサンプルではなくすべてのサンプルに適応することであるため、単一のサンプルのトレーニングは主にサンプルの表現に影響を与え、モデル パラメーター自体はわずかな調整だけで済むと考えることができます。したがって、その後の研究では、調整を無視し、サンプルに対応する表現の変化のみに焦点を当てます。表現を含むサンプルの真のラベルがトレーニング中にあると仮定すると、損失関数を最小限に抑えるための更新量を見つける必要があります。これに基づいて、トレーニングで使用される損失関数を表す
# を定義します。一般に、クロスエントロピー損失関数は CTR 予測タスクで使用されます。同時に、表現の最大変化を制限するために を使用します。書きやすくするために、上の式の右辺を次のように書きます。
ラグランジュの平均値定理によれば、 の第 2 ノルムが 0 に近い場合、上記の損失関数式 (3) を次のように導出できます。
上記の式では、正規化された勾配は、入力表現に対するモデル出力の導関数の方向を表します。実際のユーザー フィードバックは調査時には入手できないため、推定の不確実性を使用して、予測スコアと実際のユーザー フィードバックの差を測定します。
式(7)では、制約条件下でモデル予測出力の変化を最大化できる解析解を求めます(導出は式(3)~式(5)と同じ)。さらに、入力表現を追加する上記のプロセスが敵対的摂動と同じ形式であることもわかります (式 (9) を参照)。
したがって、式 (7) の置換に敵対的勾配を使用し、このメソッドを敵対的勾配ベースの探索アルゴリズムと名付けます。
式 (9) は、AGE を探索する最も効果的な方法は、表現入力に敵対的な摂動を追加し、摂動モデルの出力を並べ替え要素として使用することであることを示しています。つまり、次の式で表される摂動ベクトルの方向です。入力としての敵対的勾配、および予測の不確実性における摂動の程度。したがって、合計を取得した後、次の式を使用して探索後のモデル予測スコアを計算できます。これが前述の式 (2) です。
3.2 実装の詳細
AGE では、MC-Dropout 法を使用して不確実性を推定します。具体的には、MC-Dropoutはディープモデルの各ニューロンにランダムなMask重みを与えるものであり、その具体的な方法は以下の式(11)に示される。この方法の利点の 1 つは、モデルの元の構造を変更せずに不確実性を直接取得できることです。実際の運用では、不確かさは、UCB の考え方によってドロップアウトの分散を計算することによって、またはサンプリングと平均の差を計算することによってトンプソンランダムサンプリング法を参照することによって、つまり式 ( 12)および式(13))。
正規化された敵対的勾配は、式 (8) の高速勾配法 (FGM) に従って計算できます。敵対的勾配をより正確に計算するために、式 (14) に示すように、近接勾配降下法 (PGD) 法をさらに使用して、複数のステップで勾配を繰り返し更新できます。
3.3 動的ゲート ユニット
実際に、すべての広告が調査する価値があるわけではないことがわかりました。一般的な Top-K 広告システムでは、エンドユーザーに表示できる広告の数は比較的少ないです。したがって、クリックスルー率が低い広告 (たとえば、低品質の広告自体) の場合、モデルがこれらの広告の予測に高い不確実性を持っていたとしても、広告システムのビジネス特性を考慮すると、探索的価値は依然として非常に低くなります。 . .探索を通じてこれらの広告に関する大量のデータを取得できるため、これらの広告をモデルによって完全にトレーニングし、より正確に推定することができますが、これらの広告のクリックスルー率が低いため、これらの広告を取得することは不可能になります。完全な探索を行った後でも、自分自身で探索を行うことはできません。このペーパーでは、探索をより効率的にするために単純なヒューリスティックを試しました。モデルの広告の推定スコアが、すべてのグループにわたる広告の平均クリックスルー率よりも高ければ探索しますが、そうでない場合は探索は行われません。
広告の平均クリックスルー率を計算するために、Dynamic Gating Threshold Unit (DGU) モジュールを導入しました。 DGU は、広告の平均クリックスルー率を推定するために、広告側の機能のみを入力として使用します。モデルの推定クリックスルー率が DGU モジュールによって推定された平均広告クリックスルー率よりも低い場合、探索は実行されません。それ以外の場合は、通常の探索が実行されます。このプロセスは次の式で示されます。
最後に、これを式 (10) に代入して、次の AGE 探査モデルの最終的かつ完全な計算方法を取得します。 。
4. 実験評価
4.1 オフライン実験
ランダム サンプリングに基づく探索手法、ディープ モデルに基づく探索手法、および勾配ベースの探索手法を含む、ベースライン手法の 3 つの主要カテゴリを比較しました。探査方法、結果を表1に示します。トンプソン サンプリング (TS) 法に基づいて構築されたベースライン モデルが UCB に基づくモデルよりも優れていることが観察でき、TS がモデルの不確実性を測定するためのより優れたアルゴリズムであることが証明されています。さらに、AGE アルゴリズムがすべてのベースライン手法よりも優れていることが観察でき、これも AGE 手法の有効性を証明しています。具体的には、AGE-TS と AGE-UCB は両方とも、最良のベースラインである UR-gradient-TS と UR-gradient-UCB [4] を上回り、それぞれ 5.41% と 15.3% の改善値を示しています。 AGE-TS メソッドは、探索を行わないベースラインメソッドと比較して、クリック数を 28.0% 増加させます。 AGE ベースの UCB および TS アルゴリズム AGE-UCB および AGE-TS が同様の結果を達成することは注目に値しますが、これは勾配ベースの UCB および TS アルゴリズムには当てはまりません。これは、AGE が不安定性を補償できることも証明しています。 UCB方式です。
表 1: オフライン実験結果
各モジュールの有効性を証明するために、多数のアブレーション実験も実施しました。表 2 に示すように、閾値ユニット、敵対的勾配、および不確実性ユニットはすべて必須です。 DGU の効果をさらに確認するために、さまざまな固定しきい値パラメーターを試しましたが、最終的に、それらの効果は DGU の動的しきい値ほど良くないことがわかりました。
表 2: アブレーション実験の結果
4.2 オンライン実験
また、AGE モデルを Alimama ディスプレイ広告システムに導入しました。モデルの探査価値を正確に評価するために、フェアバケットに基づいた評価方法を設計しました。図 3 に示すように、まずデータ収集用にバケット C とバケット D を設定します。バケット D では AGE などの探索アルゴリズムをデプロイしますが、バケット C では探索なしで従来の CTR モデルを採用します。一定の時間が経過した後、バケット C とバケット D から取得したフィードバック データを、フェア バケット A と B にそれぞれ展開されたモデルのトレーニングに適用します。最後に、公平なバケット A と B でのモデルのパフォーマンスを比較します。オンライン実験では、クリックスルー率(CTR)、表示された広告のPV数とPCOC、予測CTRと実際のCTRの比率など、いくつかの標準的な指標を評価に使用します。さらに、広告主の満足度を測定するために運用指標 (AFR) を導入しました。
図 3: 公平なバケット実験計画
表 3 に示すように、上記の指標は効果的に改善されました。その中でも、AGE は他のすべての方法よりも大幅に優れており、CTR と PV はベースライン モデルよりそれぞれ 6.4% と 3.0% 高くなります。同時に、AGE モデルの使用によりモデルの予測精度も向上します。つまり、予測精度 PCOC が 1 に近づきます。さらに重要なことに、AFR 指標も 5.5% 増加しました。これは、当社の探索方法が広告主のエクスペリエンスを効果的に向上できることを示しています。
表 3: オンライン実験の結果
5. 概要
潜在的な収益の推定に焦点を当てたほとんどの探査および活用方法とは異なり、私たちのアプローチ AGE は、オンライン学習というデータ主導の観点からこの問題を再構成します。現在のモデル予測の不確実性を推定することに加えて、AGE アルゴリズムは準探査モジュールを使用して、モデルのトレーニングに対する探査サンプルのその後の影響をさらに考慮します。学術研究データセットと生産リンクの両方に対して A/B テスト実験を実施し、関連する結果により AGE メソッドの有効性が確認されました。将来的には、AGE をさらに多くのアプリケーション シナリオに導入する予定です。
以上が敵対的勾配に基づく探索モデルとクリック予測におけるその応用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

Dreamweaver Mac版
ビジュアル Web 開発ツール
