ホームページ >テクノロジー周辺機器 >AI >58 ポートレート プラットフォームの構築におけるアルゴリズムの適用

58 ポートレート プラットフォームの構築におけるアルゴリズムの適用

WBOY
WBOY転載
2024-05-09 09:01:10600ブラウズ

算法在 58 画像平台建设中的应用

1. 58ポートレートプラットフォーム建設の背景

まず、58ポートレートプラットフォーム建設の背景を共有させていただきます。

1. 従来のプロファイリング プラットフォーム

算法在 58 画像平台建设中的应用

ユーザー プロファイリング プラットフォームを構築するには、データ ウェアハウスのモデリング機能に依存し、複数行のデータを統合し、正確なデータ マイニングを構築する必要があります。また、ユーザーの行動、興味、ニーズを理解し、アルゴリズム側の機能を提供することも必要です。最後に、ユーザーのポートレート データを効率的に保存、クエリ、共有し、ポートレート サービスを提供するデータ プラットフォーム機能も必要です。自社構築のビジネス プロファイリング プラットフォームとミドルオフィス プロファイリング プラットフォームの主な違いは、自社構築のプロファイリング プラットフォームは単一のビジネス ラインにサービスを提供し、オンデマンドでカスタマイズできることです。ミッドオフィス プラットフォームは複数のビジネス ラインにサービスを提供し、複雑な機能を備えていることです。モデリングを提供し、より一般的な機能を提供します。

2. 58 ミドルプラットフォームのポートレート構築の背景

算法在 58 画像平台建设中的应用

58 ユーザーのポートレートプラットフォームの構築は主に次のビジネスニーズによるものです:

  • パーソナライズされた推奨事項: ビジネス側が作成する必要があります。ユーザーのポートレートに基づく数千人の人々 コンテンツ配信の何千もの側面。
  • 洗練された操作:製品の操作には、さまざまな人々のグループに対してより洗練された操作活動を実行するために、群衆の洞察や群衆の選択などの機能を提供するポートレートプラットフォームが必要です。
  • ユーザー価値の増加: トラフィックの大幅な増加は過ぎ去り、ポートレート プラットフォームを使用して既存のユーザーの価値を高めることが急務となっています。

3. ビエンチャン

算法在 58 画像平台建设中的应用

現在のビジネスニーズと外部環境の課題を解決するために、私たちは一連のユーザーポートレートプラットフォームソリューションであるUA+CDP+MAを提案しました。 OneID サービスを使用して、基本的なユーザー ポートレート データを構築し、トラフィックと群衆の洞察を組み合わせ、アルゴリズムを使用して群衆をインテリジェントに生成し、マテリアルを照合して正確なマーケティングを実現します。同時に、効果を監視し、データをリサイクルして戦略を最適化し、群衆を反復します。ビジネス関係者が正確な運営とビジネスの成長を達成できるように、インテリジェントな成長ソリューションを提供します。

2. 58ユーザーポートレートプラットフォームの構築におけるアルゴリズムの役割

算法在 58 画像平台建设中的应用

58ユーザーポートレートプラットフォームのアルゴリズム側の構築には主に2つの側面が含まれます。ラベル システム、もう 1 つはプラットフォーム機能の構築です。

1. タグシステムの構築

Wanxiang タグシステムには、社会的属性、地理的位置、行動習慣、嗜好属性、ユーザー層別などの複数のカテゴリが含まれており、合計 1,500 を超えるタグが含まれています。生産方法に応じて 2 つのタイプに分けられます:

  • 事実タグ: Shucang の学生は統計やルールを使用して、SQL などを通じて開発および生産します。
  • アルゴリズムタグ: アルゴリズムチームは、データマイニングなどの手段を通じて処理および生成します。

2. アルゴリズムタグの例

算法在 58 画像平台建设中的应用

アルゴリズムタグは、データソースと粒度に従って分類できます。たとえば、性別、年齢、ビジネス傾向などのラベルの場合、データ ソースは通常、分類タスクとして処理される構造化データであり、モデルには XGBoost、DeepFM などが使用されます。ユーザーが閲覧する投稿のテキストからユーザーの目的を特定する必要があるレンタル目的タグもあります。このタイプのタグのデータ ソースは非構造化データであり、テキスト分類やその他の方法を使用して処理できます。コンテンツ設定タグで、ユーザーがさまざまなビジネスの上位 N 件の投稿を好む場合、そのようなタグを作成するためのオフライン推奨プロセスを構築する必要があります。

3. コンテンツ設定タグを例としてラベル付けプロセスを説明します

算法在 58 画像平台建设中的应用

コンテンツ設定タグを例に挙げて、このタグを作成するには、オフラインの推奨プロセスを確立する必要があります。数百万件以上の投稿に直面して、私たちはまず、ポピュラー、ルール、協調フィルタリング、および図の畳み込みニューラル ネットワーク (LightGCN) やツイン タワー (DSSM) モデルなどのその他の手法を使用して、リコール段階までの予備スクリーニングを実施します。次に、リコールされた投稿に基づいて、Pointwise アプローチを使用して CTR モデルを分類します。最終的な出力は、ユーザーが最も関心のある上位 N 件の投稿です。実際のアプリケーションでは、プッシュ シナリオを例として、トップ 1 の投稿から主要な属性を抽出してパーソナライズされたコピーを生成できます。同時に、ランディング ページは、上位 1 件の投稿の詳細ページまたは上位 N 件の投稿のリスト ページにすることができます。

算法在 58 画像平台建设中的应用

58 のローカル ビジネスの地理的およびカテゴリの特性を考慮してコンテンツ設定タグを作成する場合、ユーザーは通常、レコメンデーション内の特定の地域またはカテゴリからの投稿にのみ興味を持ちます。したがって、(EGES モデルを使用するなど) 再現率をベクトル化する場合、サイト外またはカテゴリ以外の投稿が多数存在する可能性があります。この問題を解決するには、都市情報を 16 進数で表し、0 を -1 に置き換えて、このエンコーディングを以前に生成されたベクトルに直接接続します。これにより、同じ都市内の投稿または同じ目的の投稿が確実に類似性に含まれるようになります。計算はそれらの間で最も類似性が高いため、想起と推奨の精度が向上します。

並べ替え段階では、テキストコンテンツを含むマルチモーダル情報を使用して、レコメンデーションの精度が向上します。たとえば、テキスト特徴としての投稿タイトルは、BERT や M3E などの事前トレーニング済みモデルを使用して埋め込むことで表現できます。ただし、投稿数が多いため、コンピューティング リソースに問題が生じます。この問題を解決するために、Apache Spark Machine Learning に基づく自然言語処理ライブラリである Spark NLP を使用します。ネイティブ ライブラリには中国語の BERT モデルはありませんが、いくつかの変換を通じて、大規模なオフライン推論に適用することに成功しました。

算法在 58 画像平台建设中的应用

アルゴリズムは、58 都市のユーザー ポートレート プラットフォームの機能構築においても中心的な役割を果たします。インテリジェントな運用機能を例に挙げると、トラフィック マップを使用してさまざまなビジネス間の相関関係を特定し、ビジネス パーティに運用に関する提案や結論を提供します。これらの提案に基づいて、ビジネス側はインテリジェントサークル機能を通じてオペレータークラウドパッケージを直接生成し、それを対応するチャネルに接続して配信できます。配信効果はプラットフォームを通じて監視でき、効果データに基づいて繰り返し最適化することで、運用効果を継続的に向上させることができます。

算法在 58 画像平台建设中的应用

アルゴリズムはどのように機能しますか?次回から数回に分けてご紹介していきます。まずは交通地図です。当社は、OLAP データ マイニングとデータ視覚化テクノロジーを使用して、異なるビジネス間での 58APP ユーザーのブラウジング行動を詳細に分析します。このデータを分析および処理することにより、さまざまなビジネス間のユーザーのフロー パスが表示され、運用チームにユーザーの行動を直感的に把握できるようになります。このプロセスでは、アルゴリズムはユーザーの行動パターンを特定するのに役立つだけでなく、相関分析やその他のテクノロジーを通じてさまざまなビジネス間の相関関係を調べることもできます。これらの相関関係は、貴重な運用上の提案を提供し、複数の運用において運用チームをサポートします。

算法在 58 画像平台建设中的应用

運用提案を取得した後、運用チームはインテリジェントサークル機能を使用して対象グループを選択できます。この目標を達成するために、運用チームはまずパーソナライズされた運用目標を設定し、その目標が新規顧客の獲得なのか、アクティベーションの促進なのか、コンバージョンの促進なのかなどを明確にする必要があります。次に、クラウド パッケージのサイズや期待される配信効果など、望ましい効果を設定する必要があります。さらに、運用チームは、対象グループが関連する運用活動情報を確実に受信できるように、適切な配信チャネルを選択する必要もあります。

算法在 58 画像平台建设中的应用

クラウド パッケージを生成するプロセスは、運用チームにとってブラック ボックスです。この問題に対処するために、運用チームがテクノロジをよりよく理解して適用できるように、アルゴリズムの原理と手順についてさらに多くの説明と説明を提供します。同時に、運用チームがクラウド パケットの特性と影響を直感的に表示および分析できるよう、より多くの視覚的なツールとインターフェイスを提供します。

群衆パケットを生成するプロセスでは、主に類似技術を使用します。このテクノロジーの進化において、私たちはいくつかの段階を経ました。初期段階では Yahoo のソリューションから学び、クラウド パッケージの出力をリコール モジュールとソート モジュールに分割しました。リコールモジュールは、最初にすべてのユーザーの特徴ベクトルを構築し、次にminHashとローカルセンシティブハッシュ技術を使用して特徴ベクトルを圧縮し、クラスタリングとバケット化に似た方法を通じてk-NNと同様の検索を実現し、シード間の関係を迅速に計算します。候補グループ間のペアごとの類似性に基づいて、topN が各シード ユーザーのリコール グループとして選択されます。並べ替えの段階では、最初に情報値を使用して特徴をフィルター処理し、次にフィルターされた特徴に基づいてスコアが計算され、最後にスコアが並べ替えられて最終的に群集パッケージが生成されます。プロセス全体を通じて、アルゴリズムはクラウド パッケージの精度と有効性を確保する上で重要な役割を果たしました。

算法在 58 画像平台建设中的应用

類似性に基づくソリューションに加えて、機械学習ベースの方法でも良い結果が得られます。実際のアプリケーションでは、ユーザーはシーン サークルの人々やシード クラウドのアップロードを通じてリクエストを開始できます。違いは、シードクラウドがユーザーによってアップロードされるか、または当社によって自動的にマイニングされるかどうかです。シード母集団、つまり陽性サンプルを取得した後、陰性サンプルを選択する必要があります。暴力的なグローバルランダム陰性サンプリングを使用することも、PU 学習や TSA などのアルゴリズムを使用して陰性サンプルの選択を完了することもできます。次は特徴選択段階で、これは 2 つのオプションに分かれています。1 つは、固定特徴量エンジニアリングの後、DeepFM などのモデルを使用してトレーニングと CTR 推定を完了するもので、TopN が選択されます。 CTR に基づくクラウド パッケージ。もう 1 つのオプションは、すべてのタグを特徴として使用し、IV 値と相関によって特徴を自動的に選択および削除し、AutoML フレームワークを使用して特徴エンジニアリングとモデルのトレーニングを完了し、最後に 58App で推論を実行することです。 TopN Crowd パッケージに基づいてクラウド プールと出力を実行し、チャネルに接続してリーチし、最後に配信効果データを収集してサンプル選択の反復を完了します。

上記のスキームには注意すべき点がいくつかあります。1 つ目は、エフェクト データを復元するときに、露出データだけでなく、露出されていないデータ、つまり露出バイアスもスクリーニングする必要があることです。偏見をなくすこと。同時に、反復後の効果をオフラインで評価および検証して、反復の効果を確認する必要があります。さらに、トラバーサル問題は、特に新しいシーンでは、フィーチャの観点から考慮する必要があり、フィーチャ選択の時間要素を考慮する必要があります。

算法在 58 画像平台建设中的应用

運用シナリオで蓄積されるデータが増えるにつれ、私たちはこのデータを使用してオフライン実験を実施し、反復計画を最適化しようと試み始めます。そのうちの 1 つは、メタ学習手法を採用した Tencent WeChat をベースにした Look-alike 手法です。具体的には、この手法では一般化されたモデルを構築し、オフライン段階でモデル構築を完了し、オンライン段階で少量のデータセットを使用してカスタマイズされたモデルをトレーニングし、推論作業を実行します。この方法は、サンプル サイズが比較的小さい場合のモデルの過学習の問題を解決できます。マルチシナリオとマルチターゲットの群集拡散も、次の反復の方向性の 1 つです。

3. 58のポートレートプラットフォームアプリケーションケース

1. パーソナライズされたリソースの配置

58Appのパーソナライズされたリソースの配置には、開始画面、バナーの位置、フローティングウィンドウ、料金フローカードなどが含まれます。たとえば、価格操作では、ポートレート プラットフォームのラベル選択機能を使用して群集パッケージを生成し、それらに特定のコンテンツをプッシュし、数千人の操作を完了します。

2. パーソナライズされたプッシュ

私たちのポートレートプラットフォームは、58 のプッシュプラットフォームとも完全に接続されており、運営の学生はビエンチャンのサークル選択または Look-alike を通じてグループを作成し、パーソナライズされたコピーライティングを設定し、運営上の目的を達成するためにプッシュユーザーを通じてグループに到達することができます。 。

3. 検索の推奨事項

検索の推奨事項は、ユーザーのポートレートに基づいた最も一般的なアプリケーションです。 58 新車と中古車の 2 つのビジネス パーティにはアルゴリズム担当者がいませんが、パーソナライズされたアプリケーションも作成したいと考えており、上記のコンテンツ設定タグにアクセスしています。コンテンツ設定の TopN タグは、ホームページ上の新車の推奨事項や関連する推奨事項などのリソース領域で使用されます。中古車の検索位置において、このラベルは検索ディスカバリーページの検索ボックスおよび関連する車シリーズのプロンプトにも使用されます。ルールを使用する以前の方法と比較して、プロジェクトの初期段階でソリューションとしてコンテンツ設定タグにアクセスすることでも、良い結果が得られました。

4. 展望と概要

58の現在のポートレートプラットフォームはすでに業界で共通のポートレートプラットフォーム機能を備えており、アルゴリズムの祝福を通じてインテリジェントな操作とその他の機能を実現しています。ビジネス側の運用効果を向上させるだけでなく、ユーザーにパーソナライズされたサービスを提供しながら、より良いユーザーエクスペリエンスをもたらします。次に、ビジネス関係者と緊密に協力して、より多くのアプリケーションシナリオを検討し、協力プロセス中に要約と改良、最適化と革新を行い、さまざまなニーズや課題に対応するテクノロジーをアップグレードしていきます。ユーザーと企業にとってより良いソリューションを作成できることを楽しみにしています。すごい価値。

以上が58 ポートレート プラットフォームの構築におけるアルゴリズムの適用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。