ホームページ >テクノロジー周辺機器 >AI >KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

王林
王林オリジナル
2024-09-02 15:07:09670ブラウズ
KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


この研究は、National Key Laboratory の IEEE Fellow によって後援されました。認知知能の研究は、Chen Enhong のチームと Huawei 社のノアの方舟研究所によって完成されました。 Chen Enhong 教授のチームはデータ マイニングと機械学習の分野に深く携わっており、トップ ジャーナルに多くの論文を発表しており、Google Scholar の論文は 20,000 回以上引用されています。ノアの方舟研究所は、人工知能の基礎研究に従事するファーウェイの研究所であり、理論研究と応用イノベーションを同等に重視するという概念を堅持し、人工知能分野における技術革新と開発の促進に取り組んでいます。

8月25日から29日までスペインのバルセロナで開催された第30回ACM Conference on Knowledge Discovery and Data Mining (KDD2024)に、大学認知知能国家重点研究所のChen Enhong教授が登壇しました。中国科学技術博士、IEEEフェロー、ファーウェイ・ノアと共同発表した論文「逐次推奨のためのデータセット再生成」が、2024年カンファレンスのリサーチトラックで唯一の最優秀学生論文賞を受賞した。論文の筆頭著者は、中国科学技術大学認知知能国家重点研究室のChen Enhong教授とLian Defu教授、そして准研究員としてWang Haote氏の共同指導を受けている博士課程学生のying Mingjia氏である。ファーウェイ・ノア・リウ・ヨン氏と研究者の郭偉氏もこの論文の関連研究に参加した。 KDDが2004年にこの賞を創設して以来、陳恩宏教授のチームの学生がこの賞を受賞するのは2回目となる。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

  • ペーパーリンク: https://arxiv.org/abs/2405.17795
  • コードリンク: https://github.com/USTC -StarTeam/DR4SR

研究動機

シーケンス推奨システム (Sequential Recommender、SR) は、ユーザーの変化する好みを捕捉することを目的としているため、最新のレコメンデーション システムの重要な部分です。近年、研究者は配列推奨システムの機能を強化するために多大な努力を払ってきました。これらの手法は通常、固定データセットに基づいて効果的なモデルを開発するというモデル中心のパラダイムに従います。ただし、このアプローチでは、潜在的な品質問題やデータの欠陥が見落とされることがよくあります。これらの問題を解決するために、学界は、固定モデルを使用して高品質のデータセットを生成することに焦点を当てたデータ中心のパラダイムを提案しました。私たちはこれを「データセット再構成」問題として枠組み付けします。

最良のトレーニング データを取得するために、研究チームの重要なアイデアは、アイテム転送パターンを明示的に含む新しいデータセットを学習することです。具体的には、レコメンダシステムのモデリングプロセスを、元のデータセットから転送パターンKDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈を抽出する段階と、KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈に基づいてユーザーの好みKDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈を学習する段階の2段階に分けました。 KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 からのマッピングの学習には 2 つの暗黙的なマッピング KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 が含まれるため、このプロセスは困難です。この目的を達成するために、研究チームは、KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 のアイテム転送パターンを明示的に表すデータセットを開発する可能性を検討しました。これにより、学習プロセスを明示的に 2 つの段階に分けることができ、KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 の学習が比較的容易になります。したがって、彼らの主な焦点は、1 対多のマッピングである KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 の効率的なマッピング関数を学習することです。研究チームは、図 1 に示すように、この学習プロセスをデータセット再生成パラダイムと定義しています。「再生成」とは、追加情報を導入せず、元のデータセットのみに依存することを意味します。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

図 1パラダイム、シーケンス推奨のためのデータセット再生成 (DR4SR) は、元のデータセットを有益で一般化可能なデータセットに再構築することを目的としています。具体的には、研究チームはまず、データセットを再生成できるようにするための事前トレーニング タスクを構築しました。次に、彼らは、再生成プロセス中のシーケンスとパターンの間の 1 対多の関係をモデル化する、ダイバーシティを強化した再生成器を提案しました。最後に、彼らは、新しいデータセットを生成するための探索と活用のバランスをとるハイブリッド推論戦略を提案しています。

データセットの再構築プロセスは一般的ですが、特定のターゲット モデルには完全には適していない可能性があります。この問題を解決するために、研究チームは、ターゲット モデルの特性に応じてデータセットを調整するモデル認識型再生成プロセスである DR4SR+ を提案しました。 DR4SR+ はスコアリングをパーソナライズし、2 層の最適化問題と暗黙的な微分手法を通じて再構成されたデータセット内のパターンを最適化し、データセットの効果を高めます。

研究方法

この研究では、研究チームは A データを提案しました。 「シーケンス推奨のためのデータ再生成」(DR4SR) と呼ばれる中心的なフレームワークは、図 2 に示すように、元のデータセットを有益で一般化可能なデータセットに再構築することを目的としています。データ再生成プロセスはターゲット モデルから独立しているため、再生成されたデータ セットがターゲット モデルの要件を必ずしも満たさない場合があります。したがって、研究チームは DR4SR をモデル認識バージョン、つまり DR4SR+ に拡張し、再生成されたデータセットを特定のターゲット モデルに合わせて調整しました。

モデルに依存しないデータセット再構築

図 2 rator を使用して、データセットの自動再生成を容易にします。ただし、元のデータセットには、データセット再生成器を学習するための監視情報が不足しています。したがって、自己教師あり学習の方法でこれを達成する必要があります。この目的を達成するために、彼らは、多様性を強化した再生器の学習をガイドする事前トレーニング タスクを導入しました。事前トレーニングを完了した後、研究チームはさらにハイブリッド推論戦略を使用して新しいデータセットを再生成しました。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

データ再構成事前トレーニング タスクの構築:‍
図3次に、再生成器 は、 を対応するパターン
に再生成できる必要があります。研究チームは、事前トレーニング データセット全体を

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 として示し、多様性を促進する再生器: KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

事前トレーニング タスクにより、研究チームはデータセット再生成器を事前トレーニングできるようになりました。この論文では、再生器の主なアーキテクチャとして Transformer モデルを採用しており、その発電能力は広く検証されています。データセット再生成器は、元のデータセット内のシーケンス表現を取得するエンコーダー、パターンを再生成するデコーダー、および 1 対多のマッピング関係をキャプチャするダイバーシティ強化モジュールの 3 つのモジュールで構成されます。次に、研究チームはこれらのモジュールを個別に紹介します。

エンコーダーは、複数のスタックされたマルチヘッド セルフ アテンション (MHSA) レイヤーとフィードフォワード ネットワーク (FFN) レイヤーで構成されます。デコーダに関しては、入力としてデータセット X' 内のパターンを再現します。デコーダの目的は、エンコーダによって生成されたシーケンス表現を考慮してパターン

を再構築することです。ただし、シーケンスから複数のパターンを抽出することもできます。 . モード。トレーニング中に課題が発生する可能性があります。この1対多マッピングの問題を解決するために、研究チームはさらにダイバーシティ強化モジュールを提案しました。

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

具体的には、研究チームは、ターゲットパターンからの情報をデコード段階に統合することで、元のシーケンスの影響を適応的に調整します。まず、エンコーダによって生成されたメモリ
K
個の異なるベクトル空間、つまり
に投影します。理想的には、異なるターゲット パターンが異なる記憶と一致する必要があります。この目的のために、ターゲット パターンをエンコードして
を取得するための Transformer エンコーダも導入しました。
を確率ベクトルに圧縮しました:
KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 ここで、
は k 番目のメモリを選択する確率です。各メモリ空間が完全にトレーニングされていることを確認するために、ハード選択は実行せず、代わりに重み付き合計を通じて最終メモリを取得します:

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

最終的には、取得したメモリを利用してデコード プロセスを容易にし、シーケンスとパターン間の複雑な 1 対多の関係を効果的にキャプチャできます。

モデル認識データセット再生成

前の再生成プロセスとターゲット モデルによる不可知論的なため、再構成されたデータセットは特定のターゲット モデルにとって最適ではない可能性があります。したがって、モデルに依存しないデータセット再構成プロセスをモデル認識型再構成プロセスに拡張します。この目的を達成するために、データセット再生成器に基づいて、再生成されたデータセット内の各データ サンプルのスコアを評価するデータセット パーソナライザーを導入しました。研究チームはその後、暗黙的な微分を通じてデータセット パーソナライザーをさらに効率的に最適化しました。

Dataset Personalizer:

研究チームの目標は、実装された Dataset Personalizer KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈 に基づいてパラメータをトレーニングすることですMLP によって、ターゲット モデルの各データ サンプル KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈W のスコアを評価します。フレームワークの汎用性を確保するために、研究チームは計算されたスコアを使用してトレーニング損失の重みを調整しました。これにより、ターゲット モデルに追加の変更を加える必要がなくなりました。元の次のアイテムの予測損失を定義することから始めます:

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

その後、パーソナライズされたデータセットのトレーニング損失関数は次のように定義できます:

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

実験の結論

主な実験

研究チームは、提案されたフレームワークの有効性を検証するために、各ターゲットモデルのパフォーマンスを「DR4SR」および「DR4SR+」バリアントと比較しました。図 4

KDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈

図 4 の全体像のパフォーマンスから、次の結論が得られます。

DR4SR は有益で一般的に適用可能なデータセットを再構築できます

異なるターゲット モデルは異なるデータ セットを優先します
  • ノイズ除去はデータ再構築問題の一部にすぎません

以上がKDD2024 最優秀学生論文、中国科学技術大学、Huawei Noah: シーケンス推奨の新しいパラダイム DR4SR の解釈の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。