ホームページ > 記事 > テクノロジー周辺機器 > Baidu 動画レコメンデーションのクロスドメイン多目的推定と融合の実践と思考
## 一方では、Baidu APP のすべてのビデオ シーンが統合された没入型 (上下) インタラクティブ形式にアップグレードされ、他方では、Baidu の統合された大規模モデルに基づいて、全シーンのデータとおすすめ体験。インタラクションとデータを統合することで、生態学的双方に有利な関係をより良く実現し、Baidu Video の長期的な発展を促進できます。
#ユーザーのビデオ消費習慣をより促進するために、ビデオ消費のための第 1 レベルの入り口 (下部ナビゲーション バーの入り口) も作成しました。ご興味がございましたら、Baidu APP をダウンロードしてください。良い提案や悪い事例がありましたら、いつでもフィードバックをお待ちしております。
2. ユーザーのニーズを満たすデュアル検索エンジンとプッシュ エンジン
2. レコメンドシステムの概要
1. レコメンド システムによって解決される問題聴衆のかなりの数がレコメンド テクノロジーについて理解していないため、簡単に説明する必要があります。課題を解決するレコメンド技術を導入します。推奨プラットフォームには 3 つのプレーヤーがあります:
ユーザー: ここで世界を探索し、新しい認識を発見してください。
適者生存のコンテンツ選択メカニズム (B サイド): 高品質のコンテンツをより多く配布し、高品質のクリエイターを維持する方法。
2. 概要レコメンデーション システム
次のコンテンツは主に、正確に調整されたターゲット設計とモデルの融合に焦点を当てます
##3. 多目的設計とモデリングまず最初に、ビデオ レコメンデーションにおける多目的設計の応用について紹介したいと思います
まず、ビデオイマーシブにおけるレコメンドシステムをどのように設計するかを考えてください。シナリオですが、目標はどうですか?
従来のレコメンデーション システムでは、ユーザーはコンテンツまたはビデオをクリックしてリソースを消費するため、リソースに対する好みを明確に表現できます。したがって、従来のレコメンデーション シナリオでは、クリック動作は非常に重要なシグナルであり、明確でシンプルなフィードバック方法です。ただし、没入型シナリオでは、明確なフィードバックがないため、ユーザーの好みは「隠れた」動作によって表現されることがよくあります。現時点では、視聴時間は没入型レコメンデーション シナリオにおいて非常に重要なシグナルになります。
# 上記の消費時間に加えて、フォロー、コメント、共有、いいねなど、ユーザーがシステムから積極的に離脱する行動も考慮する必要があります。ただし、再生データと比較すると、これらの行動データは非常に希薄で、おそらく 1,000 分の 1 程度です。
これらのインタラクティブなシグナルに加えて、Baidu APP A にはいくつかの推奨事項もあります。非常に重要なデータは検索シグナルです。Baidu のユーザーの 70% は、推奨情報ストリームと検索の両方を利用しています。したがって、推奨システムは、ユーザーの検索ドメインの満足度シグナルも表現する必要があります。
B サイドのクリエイターには、C サイドのユーザーが満足する消費者シグナルに加えて、劣悪なクリエイターを排除し、高品質のクリエイターの創造的可能性を刺激するための競争メカニズムが必要です。生産と消費の好循環を実現するため
##レコメンデーション システムの観点から見ると、ユーザーはサンプル アノテーターです。ユーザーには、プレイする、いいねする、収集する、コメントするなどの明確な肯定的な表現がいくつかありますが、明確な否定的な表現もいくつかあります。 、嫌い、否定的なコメント、報告など。明示的な表現に加えて、ユーザーは、ブロードキャストの完了、再生時間、著者ページの消費、関連する推奨事項の閲覧などを通じて表現される好意、または短いブロードキャスト、クイックポップアップ、等したがって、目標を設計するときは、あらゆる側面を考慮し、明示的なシグナルと暗黙的なシグナルのバランスをとり、「部分的な」推奨システムの設計を避ける必要があります。
上記の基本的な目標に加えて、次のような設計も行います。大まかな目標は、単にユーザーのフィードバックを活用することではなくなりました。例えば、上図の右側にあるように、ユーザー満足度のフィードバックをもとにしたモデルを立ち上げました。第 1 段階では、ブロードキャストの完了や継続時間などの高密度の信号を通じて、単純なルールまたはモデルを使用してユーザー満足度フィードバックを適合させ、比較的密度の高いユーザー満足度ラベルを取得します。第 2 段階では、大規模プッシュ検索モデルによって生成されたエンベディング、Wenxin の基礎となるエンベディング、ユーザー ポートレートと行動シーケンスの特徴モデリングを使用して、このラベルに基づいて満足度モデルが構築され、推奨ドメインの満足度の向上を相対的に評価します。検索ドメインに。ユーザーが検索で特定の興味のあるポイントを消費した場合、レコメンデーション システムは満足度モデルに基づいて高品質のコンテンツを推奨できます。これにより、検索とプッシュの統合がよりスムーズになり、検索の興味をフィードに適切に移行できます。
前回の記事でその方法を紹介しました。現在のコンテンツの再生時間とインタラクションを見積もります。ユーザーの過去の消費行動をサンプルまたは特徴として使用して、今後のコンテンツに肯定的なフィードバックがあるか否定的なフィードバックがあるか、満足のいくインタラクションと消費があるかどうかを予測できます
ユーザーの将来の消費コンテンツと現在の消費コンテンツの間に関連性があるかどうかをさらに考えることができますか?たとえば、ユーザーが今 Guo Degang のビデオを視聴し、次の N 日目にも Yu Qian のビデオを消費し続けた場合、これらの Yu Qian のビデオは Guo Degang のビデオから「インスピレーションを得た」のでしょうか?将来の関心のあるポイントを消費することは、現在の関心のあるポイントの「継続」と見なすことができますか?答えは「はい」です。そこで、将来の長期価値のあるコンテンツを現在の動画のレコメンデーションに帰属させるため、LTV システムをシステムに導入しました。
仮定 V0 は現在のビデオの値、V1、V2、... Vn はユーザーが消費するビデオです。将来的には、V 2 と Vn が満足のいく消費であり、V0 の継続であると仮定すると、それらは V0 に帰属することができます。 。
アトリビューション手法は数多くありますが、Baidu Feed のビジネス シナリオによれば、アトリビューションには次の 3 つの部分が含まれます。 ## 関数の属性: 関連する推奨事項を通じてマウントされたリソースを表示する場合、リソース消費シグナルのこの部分は V
ビジネス現状の抽象化と精査に基づいて、推奨事項を設計する際に次の 3 つの方向から開始して簡単な要約を作成します。システム目標
複数の目標。最初に基本的な物理ターゲットのモデリングを実行し、次にいくつかの高レベルのターゲットのモデリングを実行して、シーン全体の満足度を説明します。そして同時に、エコロジーは規制される必要があります。#未来の価値を特徴づけます。
Baidu のレコメンデーション シナリオの開発は、3 つの主要なシナリオに分かれています:
「没入型」シーン: 純粋なビデオの形での消費フロー。
Baidu 製品の開発と進化により、ランキングの目標は段階的に変更されました。当初は単一分野のみを主目的としていたが、その後複数分野・複数目標に発展し、現在では全分野の包括的なモデリングを実現し、複数分野のサンプルを統合して情報の完全な共有を実現している。以下では、あらゆる分野の包括的モデリングの具体的な内容を紹介します
まず最初に、業界の取り組みを見てみましょう。 MMoE、PLE、あるいはアリババが取り組むSTARネットワークやPEPNetなどの仕組み、そしてGoogleやTencentなどの企業は、自社のビジネスに基づいたさまざまなネットワーク構造の設計に努力を惜しまず、異種混合のシナリオでそれらを共有すると、さらに役立つ情報が得られます。これらの取り組みは主に 2 つの問題を解決します。
同じ Baidu の推奨システムでも、これら 2 つの問題に直面しています。
Baidu のシナリオにはさまざまなサブドメイン ターゲットがあり、これらのターゲット間の相関関係は低いです。複数のターゲット間でのネガティブな移行につながります。この問題を解決するには、異なるターゲット間の PNR を分析し、それらの間の相関の違いを見つける必要があります。つまり、異種シナリオでユーザー情報をどのように記述するか、異種情報の移行をどのように実装するかは、モデル構造によって解決する必要がある問題です。
Baidu のビジネス ニーズによれば、ゲート構造を使用して、クロスドメイン階層型多目的ネットワーク構造を設計します。この構造は主に 3 つの層に分かれており、第 1 層は最下層の個別共有ネットワーク、第 2 層はクロスドメイン情報抽出のための GCG ネットワーク、最後の層はサブドメインの多目的ネットワークです。この設計により、情報を共有しながら各ドメインの多目的推定を実行できます。
このソリューションは、単一ドメインの多目的と比較して大幅に改善されており、オンラインで利用できます。初回の AUC は約 3 ~ 9,000 ポイント増加します。上の図の右下隅に示されているように、複数のドメインでユーザー特性の埋め込みを取得し、TSNE 次元削減を実行した後でも、検索 C と 2 番目のホップが比較的近いことを除けば、他の 2 つのシナリオ間の区別はまだ比較的明確です。これは、モデルがシーン間の違いを学習できることを示しています。検索 C と 2 番目のホップのシナリオに大きな違いがないのは当然であり、どちらもビデオ シナリオであり、ユーザーのインタラクションや関心に大きな違いはありません。
Baidu のビジネス シナリオには、40 を超える物理的ターゲット、4 つの大きなサブドメイン、6 つのフォームが含まれます。ダイナミクス、ミニプログラムなど。このモデルが多くの複雑なビジネスでうまく機能することを期待しています。モデルの構造を簡単に紹介します。第 1 層は共通ネットワークであり、ドメイン分割の基盤となり、各シーンで複数のターゲットの満足のいくサンプルをスクリーニングし、ゲート ネットワークを通じてパーソナライズされたエンベディング マッピングを実現します。 2 番目の層はドメイン間情報の抽出で、CGC ネットワークを介してドメイン内で独自の機能とパーソナライズされた共有機能を実装します。両者は共同してクロスドメイン情報抽出を構築し、その利点は、ドメイン内の情報の豊富さを保持するだけでなく、異種シーンの共有情報も抽出できることです。 3 番目の層は、サブドメインの多目的モデリングです。このトピックに関する対応する論文も出版されていますので、詳細に興味のある友人は論文を読むことができます。
Baidu の多目的統合の進化プロセスは、業界のプロセスと似ています。 1 つ目は、事前知識の融合です。これは単純で簡単ではありますが、多くのマンパワーを必要とします。その後LTRにバージョンアップし、その効果は顕著でしたが、事業の変化に応じて頻繁に調整が必要になるというデメリットがあり、同時に事業やユーザー層の変化に伴い半発注関係も変化してしまいました。その後、逐次最適アプローチを使用した多目的融合価値モデルを採用しました。短期間使用した後、現在使用している ES (Evolution Strategy) 進化学習
手法にアップグレードしました。 ES を使用するには、まず報酬 (北極星インジケーター) を定義する必要があります。 Baidu の報酬はセッションの深さ (継続時間 + ステップ) とインタラクションであり、継続時間とステップに対応するビジネス指標は継続時間と動画再生量であり、この 2 つの指標はユーザー維持率、つまり LT を反映します。さらに、作成者の行動に注意を払うなど、ユーザーがアプリ内に資産を蓄積していることを表すインタラクティブな情報があり、実際に更新後に作成者を見つけられるようにしたいと考えています。消費量やインタラクションの増加にかかわらず、ユーザーがこのアプリをより長く使用できることを願っています
当社の初期バージョンは単純なヒューリスティック モデルですが、現在のオンライン ES は、さまざまなシナリオや人々のグループに関する情報の導入など、より高度な計算を実行します。
以上がBaidu 動画レコメンデーションのクロスドメイン多目的推定と融合の実践と思考の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。