ホームページ > 記事 > テクノロジー周辺機器 > Kuaishou での因果推論演習ショートビデオの推奨
*データは 2023 年の第 2 四半期から取得されています
Kuaishou は、人気のショート ビデオおよびライブ ブロードキャスト コミュニティ アプリケーションです。今年の第 2 四半期には、MAU と DAU で素晴らしい新記録を達成しました。 Kuaishou の中心的なコンセプトは、一般の人々の生活を観察し共有することで、誰もがコンテンツの作成者および普及者になれるようにすることです。 Kuaishou アプリケーションでは、短いビデオ シーンは主に 1 列と 2 列の 2 つの形式に分けられます。現時点では 1 カラムのトラフィックが比較的多く、ユーザーは上下にスライドすることでビデオ コンテンツを没入的に閲覧できます。 2カラムのプレゼンテーションは情報の流れに似ており、ユーザーは画面に表示されるいくつかのコンテンツから興味のあるものを選択し、クリックして視聴する必要があります。 レコメンデーション アルゴリズムは Kuaishou のビジネス エコシステムの中核であり、トラフィックの分散とユーザー エクスペリエンスの向上において重要な役割を果たしています。 Kuaishou は、ユーザーの興味や行動データを分析することで、ユーザーの嗜好に合ったコンテンツを正確にプッシュすることができ、ユーザーの定着率と満足度を向上させることができます。 一般に、Kuaishou は国家レベルのショートビデオおよびライブブロードキャストコミュニティアプリケーションとして、一般の人々の生活を観察し共有するというユニークなコンセプトとその優れた推奨アルゴリズムにより、より多くのユーザーを引き付け続けており、ユーザー間で注目に値します。経験とトラフィック分散の点で成果が得られました。
Kuaishou の短いビデオの推奨シナリオでは、メインフォームとして単一列。ユーザーは上下にスライドする動作モードでビデオを閲覧します。ビデオがスライドすると、ユーザーが選択してクリックして再生をトリガーしなくても、自動的に再生されます。また、ユーザーからのフィードバックには、フォロー、いいね、コメント共有、プログレスバーのドラッグなど、さまざまな形式があります。ビジネスの発展に伴い、インタラクティブな形式はますます多様化しています。最適化の目標には長期目標と短期目標があり、長期目標にはユーザー エクスペリエンスの最適化と DAU の維持が含まれ、短期指標にはユーザーからのさまざまな肯定的なフィードバックが含まれます。
レコメンデーション システムは機械学習と深層学習に基づいており、ログは主にユーザーの実際の行動によって生成される特徴とフィードバックから取得されます。ただし、ログには制限があり、ユーザーの現在の興味に関する限られた情報しか反映できず、本名、身長、体重などの個人情報は取得できません。同時に、推奨アルゴリズムは過去のログの学習とトレーニングに基づいてユーザーに推奨するため、自己ループの特徴があります。さらに、幅広く多様な視聴者、多数のビデオ、頻繁な更新により、レコメンデーション システムには、人気のバイアス、長いビデオと短いビデオの露出バイアスなど、さまざまなバイアスがかかりやすくなります。短いビデオのレコメンデーションでは、因果推論テクノロジーを使用したバイアス モデリングにより、バイアスを修正し、レコメンデーション効果を向上させることができます。
次に、因果推論とモデル表現における経験を兄弟チームと共有します。モデル表現の仕事。
推奨されるシステムは通常、インタラクション ログを分析することによってモデル学習を実行します。ユーザーのフィードバックはコンテンツの好みだけでなく、集団心理の影響も受けます。映画選びを例にとると、ユーザーは作品の受賞状況や周囲の意見を考慮して決定することがあります。ユーザーによって群集心理には違いがあり、より主観的で独立心が強いユーザーもいれば、他人や人気の影響を受けやすいユーザーもいます。したがって、ユーザーのインタラクションを帰属させるときは、ユーザーの興味を考慮することに加えて、群集心理の要素も考慮する必要があります。
既存のほとんどの研究では、人気を静的な偏差として扱います。たとえば、映画の人気はアイテムにのみ関連しており、ユーザーとアイテムをモデル化するときにユーザー間の偏差は考慮されません評価。人気は通常、アイテムの露出数に関連する別のスコア項目として使用され、人気が低いアイテムほど偏りは少なくなります。このモデリング方法は静的で項目に相対的です。因果推論技術をレコメンデーションの分野に応用することで、分離表現を通じてこの問題に対処し、ユーザーがアイテムを選択するときの群集心理の違いを考慮する研究も行われています。既存の手法と比較して、私たちの手法はユーザーの群集心理の違いをより正確にモデル化することができるため、より効果的に逸脱を修正し、レコメンド効果を向上させることができます。
Webconf2021 の論文では、ユーザー インタラクションは、項目に対するユーザーの応答と、アイテムの興味に影響されますが、アイテムを選択するときのユーザーの集団心理の度合いにも影響されます。因果関係図は左のとおりで、関係は比較的単純です。特定のモデリングでは、ユーザーとアイテムの表現は、関心表現と適合表現に分割されます。興味表現の場合は興味損失が構築され、適合表現の場合は確認損失が構築され、フィードバック行動の場合はクリック損失が構築されます。表現構造の分割により、関心の損失は関心の表現を学習するための監視信号として使用され、確認の損失は集団心理の表現をモデル化するために使用されます。クリック損失は 2 つの要素に関連しているため、連結と交差によって構築されます。全体のアプローチは明確かつシンプルです。
関心損失と確認損失を構築する際、この研究では因果推論のいくつかの概念と手法も使用します。たとえば、不人気なビデオやアイテムが肯定的なインタラクションを獲得した場合、それはユーザーが実際にそれを気に入ったからである可能性があります。これは、逆検証によって確認できます。アイテムが人気がなく、ユーザーがそれに興味を持っていない場合、ポジティブなインタラクションが発生する可能性は低いです。クリックロスについてはペアワイズロスという一般的な処理方法が採用されています。衝突効果に関して、興味のある読者は、より詳細な構築方法について論文を参照してください。
レコメンデーション システムで複雑な問題を解決する場合、一部の研究は、アイテムに対するユーザーの関心と集団心理を区別することを目的として、モデル表現から始まります。しかし、実用化にはいくつかの問題があります。レコメンド システムには膨大な数の動画があり、露出は不均一に分散されています。ヘッド ビデオの露出が多く、ロングテール ビデオの露出が少ないため、データがまばらになります。スパース性は、機械学習モデルに学習の困難をもたらします。
この問題を解決するために、サンプル拡張のための対照学習を導入しました。具体的には、ユーザーとアイテム間のポジティブなインタラクションに加えて、ユーザーの行動範囲内の他の動画も拡張用のネガティブサンプルとして選択しました。同時に、因果関係図を使用してモデルを設計し、ユーザー側とアイテム側で関心と適合の表現を分割しました。このモデルと従来の DICE の主な違いは、興味の喪失と確認の喪失を学習するときに対照学習とサンプル拡張の方法を採用し、興味の喪失と確認の喪失それぞれについてアイテム人気の正規化された比率のインデックス項を構築することです。このようにして、データの希薄性の問題をより適切に処理でき、人気の異なるアイテムに対するユーザーの関心と群集心理をより正確にモデル化できます。
この作品は、簡単に言えば、興味と集団心理の重ね合わせに基づいています。ビデオインタラクション 、因果推論技術と因果埋め込み手法を使用して構造表現の分離を実現します。同時に、実際のシステムにおけるロングテールビデオサンプルのスパースの問題を考慮して、スパース性を軽減するために、対照学習およびサンプル拡張方法が使用されます。この研究では、オンライン表現モデルと因果推論を組み合わせて、特定の適合性デカップリング効果を実現します。この方法は、オフラインおよびオンライン実験で良好なパフォーマンスを示し、Kuaishou 推奨 LTR 実験でも使用され、一定の効果の向上をもたらしました。
短編ビデオのレコメンデーション ビジネスでは、視聴時間は重要な最適化目標であり、ユーザー維持率、DAU、再訪問率などの長期的な指標と密接に関連しています。ユーザーエクスペリエンスを向上させるには、ユーザーに動画を推奨する際の中間的な行動指標に焦点を当てる必要があります。経験上、ユーザーの注意力の持続時間は限られているため、総再生時間は非常に貴重な指標であることがわかっています。ユーザーの視聴時間の変化を観察することで、どのような要因がユーザーの視聴エクスペリエンスに影響を与えるかをより深く理解できるようになります。
ビデオの長さは、視聴時間に影響を与える重要な要素の 1 つです。動画の長さが長くなると、それに応じてユーザーの視聴時間も長くなりますが、動画が長すぎると限界効果が減少したり、視聴時間がわずかに減少したりする可能性があります。したがって、推奨システムは、ユーザーのニーズに合ったビデオの長さを推奨するバランス ポイントを見つける必要があります。
視聴時間を最適化するために、レコメンド システムはユーザーの視聴時間を予測する必要があります。期間は連続値であるため、これには回帰問題が伴います。ただし、レコメンドシステムの研究の歴史は長いのに対し、短編動画のレコメンドビジネスは比較的新しいためか、長さに関わる仕事は少ない。
視聴時間の推定の問題を解決する場合、ユーザーの関心、ビデオ コンテンツの品質など、ビデオの長さ以外の要素も考慮できます。これらの要素を考慮することで、予測の精度が向上し、ユーザーにより良いレコメンデーション エクスペリエンスが提供されます。同時に、市場やユーザーのニーズの変化に適応するために、推奨アルゴリズムを継続的に反復して最適化する必要もあります。
KDD212 カンファレンスで、短いビデオの推奨事項 A に対するソリューションを提案しました。中期予測問題への新しいアプローチ。この問題は主に、因果推論における期間バイアスという自己強化現象に起因します。この問題に対処するために、ユーザー、ビデオ、視聴時間の関係を説明する因果関係図を導入しました。
因果関係図では、U と V はそれぞれユーザーとビデオの特徴表現を表し、W はユーザーがビデオを視聴する時間の長さを表し、D はユーザーがビデオを視聴する時間の長さを表します。ビデオ。推奨システムの自己循環生成プロセスにより、継続時間は視聴時間に直接関係するだけでなく、ビデオ表現の学習にも影響を与えることがわかりました。
ビデオ表現に対する長さの影響を排除するために、導出には do calculus を使用しました。最終的な結論は、バックドア調整を通じてこの問題を解決するための最も単純かつ直接的な方法は、各再生時間ビデオに対応するサンプルの視聴時間を個別に推定することであることを示しています。これにより、視聴時間に対する継続時間の増幅効果を排除でき、因果推論における継続時間の偏りの問題を効果的に解決できます。この方法の中心的な考え方は、d から v までの誤差を排除し、それによってバイアス増幅を軽減することです。
短いビデオのレコメンデーションにおける再生時間の推定の問題を解決する場合、因果推論に基づく方法を採用して、d から v までの誤差を排除します。バイアス増幅からの解放を実現します。連続変数としての継続時間とビデオ数の分布の問題に対処するために、推奨プール内のビデオを継続時間に従ってグループ化し、計算に分位数を使用します。各グループ内のデータは分割され、グループ内のモデルのトレーニングに使用されます。トレーニング プロセス中に、継続時間を直接回帰するのではなく、各継続時間グループのビデオ継続時間に対応する分位数が回帰されます。これにより、データの疎性が軽減され、モデルの過剰適合が回避されます。オンライン推論中、各ビデオについて、まず対応するグループを見つけてから、対応する継続時間の分位数を計算します。表を参照すると、分位数に基づいて実際の視聴時間を見つけることができます。この方法により、オンライン推論プロセスが簡素化され、期間推定の精度が向上します。要約すると、私たちの方法は、d から v までの誤差を排除することで短いビデオの推奨における継続時間推定の問題を効果的に解決し、ユーザー エクスペリエンスを最適化するための強力なサポートを提供します。
短いビデオのレコメンデーションにおける再生時間の推定の問題を解決する際、技術的な困難を軽減するためにパラメーター共有方法も導入しました。分割トレーニング プロセスでは、データ、機能、モデルを完全に分離することが理想的なアプローチですが、これにより導入コストが増加します。したがって、基になる特徴の埋め込みと中間層のモデル パラメーターを共有し、それを出力層でのみ分割するという、より単純な方法を選択しました。実際の視聴時間に対する継続時間の影響をさらに拡大するために、推定継続時間の分位数を出力する部分に継続時間を直接接続する残差接続を導入し、それによって継続時間の影響を強化します。この方法は技術的な困難を軽減し、短いビデオの推奨における継続時間の推定の問題を効果的に解決します。
実験では主にKuaishouが公開した公開データセットを使用しました。いくつかの方法を比較すると、直接回帰モデルと期間加重モデルのパフォーマンスにはそれぞれ独自の利点があることがわかります。継続時間加重モデルはレコメンデーション システムにとって馴染みのあるもので、その中心となるアイデアは、視聴時間を肯定的なサンプルの重みとしてモデルに組み込むことです。 D2Q と Res-D2Q は因果推論に基づく 2 つのモデル構造であり、そのうち Res-D2Q は残差接続を導入します。実験を通じて、ビデオを長さに応じて 30 のグループにグループ化すると最良の結果が得られることがわかりました。単純回帰モデルと比較して、D2Q 方法には大幅な改善があり、持続時間の偏りによる自己ループ増幅の問題をある程度軽減できます。しかし、継続時間の推定問題という観点から見ると、この課題はまだ完全には解決されていません。
レコメンデーション システムの中核となる問題として、期間推定問題が挙げられます。独自のユニークな機能と課題。まず、回帰モデルは推奨結果の順序関係を反映できないため、回帰誤差が同じであっても、実際の推奨結果は大きく異なる可能性があります。さらに、予測モデルは、推定の精度を保証することに加えて、モデルによって与えられる推定の信頼性も考慮する必要があります。信頼できるモデルは、正確な推定値を与えるだけでなく、その推定値を高い確率で与える必要があります。したがって、継続時間の推定の問題を解くときは、回帰の精度に注意を払うだけでなく、モデルの信頼性と推定値の順序関係も考慮する必要があります。
視聴行動において、ユーザーのビデオの継続的な視聴の間には条件付きの依存関係があります。具体的には、ビデオ全体の視聴がランダム イベントである場合、最初にビデオの 50% を視聴することもランダム イベントであり、それらの間には厳密な条件依存関係があります。バイアス増幅の問題を解決することは、視聴時間の推定において非常に重要であり、D2Q 法はこの問題をうまく解決します。対照的に、私たちが提案する TPM アプローチは、すべての期間推定問題を包括的にカバーすることを目的としています。
TPM 法の主なアイデアは、期間推定問題を離散探索問題に変換することです。完全な二分木を構築することにより、期間推定問題は、条件付きで相互に依存するいくつかの分類問題に変換され、二分分類器を使用してこれらの分類問題が解決されます。下方への二分探索を継続的に実行することにより、各順序付けされた間隔における視聴時間の確率が決定され、最終的に視聴時間の多項分布が形成されます。この方法は、不確実性モデリング問題を効果的に解決し、推定持続時間の分散を低減しながら、推定持続時間の平均を可能な限り真の値に近づけることができます。視聴時間の問題または推定プロセス全体は、相互依存する二項分類問題を継続的に解決することで徐々に解決できます。この方法は、継続時間推定問題を解決するための新しいアイデアとフレームワークを提供し、推定の精度と信頼性を向上させることができます。
TPM をモデル化するための重要な期間のアイデアを紹介する際、TPM と D2Q のバックドア調整の間のシームレスな接続が実証されました。ここでは、単純な因果関係図を使用して、ユーザー側とアイテム側の機能を交絡因子と関連付けます。 TPM でバックドア調整を実装するには、交絡因子値を含む各サンプルに対応するモデルを構築し、交絡因子ごとに対応する TPM ツリーを構築する必要があります。これら 2 つの手順が完了すると、TPM をリア ドアの調整にシームレスに接続できます。このタイプの接続により、モデルが交絡因子をより適切に処理できるようになり、予測の精度と信頼性が向上します。
具体的な解決策は、深いレベルの交絡因子ごとに対応するモデルを構築することです。D2Q と同様に、これもデータの希薄性とモデル パラメーターが多すぎるという問題を引き起こし、シェアボトムが必要になります。処理、各交絡因子のサンプルを同じモデルに統合しますが、モデルの基礎となる埋め込み表現、中間パラメーターなどはすべて共有され、出力層部分のみが実際のノードおよび干渉因子の値に関連します。トレーニング中は、トレーニング用の各トレーニング サンプルに対応する実際のリーフ ノードを見つけるだけで済みます。推定する場合、視聴時間がどのリーフ ノードに属するかわからないため、上から下にたどって、視聴時間が位置する各リーフ ノードの確率の合計と、予想される視聴時間の合計に重みを付ける必要があります。対応するリーフ ノードを取得して実際の視聴時間を取得します。この処理方法により、モデルが交絡因子をより適切に処理できるようになり、予測の精度と信頼性が向上します。
Kuaishou の公開データセットと CIKM16 データセットを使用して、滞在期間に関する実験を実施しました。 WLR、D2Q、OR などを比較した結果、TPM に大きな利点があることがわかりました。各モジュールには役割があり、デフォルト実験も行いましたが、実験結果から各モジュールが役割を果たしていることが分かりました。また、オンラインでの TPM の実験も行いましたが、実験条件は、Kuaishou が選択したトラフィックを 10 個のグループに均等に分割し、トラフィックの 20% をオンライン実験グループとの比較のベースラインとして使用しました。実験結果は、TPM が他の指標は基本的に同じままであるにもかかわらず、並べ替え段階でのユーザーの閲覧時間を大幅に増やすことができることを示しています。ユーザーの短波の数などのマイナスの指標も減少していることは注目に値します。これは継続時間推定の精度と推定の不確実性の減少と一定の関係があると考えられます。視聴時間は短編動画レコメンデーションプラットフォームの中核指標であり、TPMの導入はユーザーエクスペリエンスとプラットフォーム指標の向上に大きな意味を持ちます。
はじめにのこの部分を要約します。短いビデオのレコメンデーション プラットフォームでは、視聴時間が中心的な指標となります。この問題を解決するには 2 つのレベルを考慮する必要があります: 1 つは期間バイアスと人気度バイアスを含むバイアス問題で、トレーニングへのシステム リンク ログ全体の自己ループで解決する必要があります。もう 1 つは期間推定問題です。 、それ自体は連続値です。通常、値の予測問題は回帰問題に対応します。ただし、特殊な期間推定回帰問題の場合は、特定の方法を使用する必要があります。まず、バイアスの問題はバックドア調整によって軽減できますが、具体的な方法としては、期間をグループ化し、各グループに対応する回帰モデルを設計することです。第二に、継続時間推定の回帰問題に対処するために、ツリー構造を使用して継続時間推定をいくつかの階層的に順序付けられた間隔に分解することができます。ツリー走査プロセスを通じて、問題を最上位から葉ノードまでのパスに沿って分解できます。 . そして決意します。推定する場合、期間はツリー走査を通じて推定されます。この処理方法は、継続時間推定の回帰問題をより効果的に解決し、予測の精度と信頼性を向上させることができます。
技術開発の加速により、私たちが住む世界は、ますます複雑になってきています。 Kuaishou の短編ビデオの推奨シナリオでは、推奨システムの複雑さがますます顕著になっています。より良い推奨を行うためには、推奨システムにおける因果推論の適用について深く研究する必要があります。まず、総再生時間の推定など、ビジネス価値に関する問題を定義する必要があります。その後、因果推論の観点からこの問題を理解し、モデル化することができます。因果調整または因果推論の方法を通じて、期間バイアスや人気バイアスなどのバイアス問題をより適切に分析し、解決することができます。さらに、機械学習や運用の最適化などの技術的手段を使用して、システムの複雑さやシーンの分散などの問題を解決することもできます。効率的な解決策を達成するには、問題を解決する体系的かつ自動化された方法を見つける必要があります。これにより、作業効率が向上するだけでなく、ビジネスに継続的な価値がもたらされます。最後に、ソリューションの実現可能性と持続可能性を確保するために、テクノロジーの拡張性と費用対効果に焦点を当てる必要があります。
要約すると、推奨システムにおける因果推論の応用は、挑戦的であり、可能性のある研究の方向性です。継続的な探索と実践を通じて、レコメンデーション システムの有効性を継続的に向上させ、ユーザーにより良いエクスペリエンスを提供し、ビジネスにより大きな価値を生み出すことができます。
以上が今回のシェア内容となります、よろしくお願いいたします。
A1: ヘッド ノードからリーフ ノードへの移行は、MDP と同様の継続的な意思決定プロセスとみなすことができます。条件依存とは、次の層の決定が前の層の結果に基づいて行われることを意味します。たとえば、区間 [0,1] であるリーフ ノードに到達するには、まず区間 [0,2] である中間ノードを通過する必要があります。この依存関係は、特定のノードが次のリーフ ノードに進むべきかどうかのみを解決する各分類器による実際のオンライン推定で実現されます。年齢を推測する例のようなもので、最初に年齢が 50 歳以上かどうかを尋ね、次に答えに応じて 25 歳以上かどうかを尋ねます。ここには条件付きの依存関係が暗黙的に存在します。つまり、50 歳未満であることが 2 番目の質問に答えるための前提条件です。
A2: TPM と D2Q の利点を比較すると、主な利点は問題の分割にあります。 TPM は時間情報をより有効に活用し、比較的バランスの取れたサンプルを使用して問題を複数のバイナリ分類問題に分割します。これは、モデルのトレーニングと学習の学習可能性に貢献します。対照的に、回帰問題は外れ値やその他の外れ値の影響を受ける可能性があり、学習の不安定性が大きくなります。実際のアプリケーションでは、サンプルの構築や TF グラフのノード ラベルの計算など、多くの実践的な作業を実行しました。オンラインで展開する場合はモデルを使用しますが、その出力次元は中間ノード分類子の数になります。各ビデオについて、継続時間グループを 1 つだけ選択し、対応する分類器の出力を計算します。次に、リーフ ノード上の分布がループを通じて計算され、最後に加重和が実行されます。モデル構造は比較的単純ですが、各期間グループと各非リーフノードの分類器は基礎となる埋め込み層と中間層を共有できるため、前方推論中は出力層を除いて通常のモデルと大きな違いはありません。
以上がKuaishou での因果推論演習ショートビデオの推奨の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。