Home >Technology peripherals >AI >Kuaishou reinforcement learning and multi-task recommendation
第一篇工作是快手自研的,主要針對的是帶約束的多任務場景。
#這篇工作主要針對的是短影片的一個比較專業化的場景,多任務的使用者回饋分為觀看時間長度和互動,比較常見的互動包括按讚、收藏、追蹤還有評論,這些回饋各有特色。我們透過線上系統觀察發現,時長訊號其實非常稀疏,而且因為它是連續值,難以精確度量使用者的興趣程度。相較之下,互動訊號更加豐富,包括讚、藏、關注以及評論,這些回饋可以分為觀眾的喜好和行為回饋兩類。我們在優化過程中,把這個訊號當作主要目標,互動作為輔助優化,盡量確保互動的訊號不會損失,作為優化的整體目標。相較之下,互動號碼更加稀疏,同時因為沒有統一的標準,難以精確度量使用者的興趣程度。為了提高效果,我們需要進行一定的最佳化,使得在我們的系統中將其作為主要目標來進行最佳化,同時確保互動資料的完整性,作為整體目標的輔助。
這樣就可以非常直觀地將問題描述成一個帶有約束的最佳化問題,有一個主目標標utility的最佳化,輔助目標是滿足一個下界即可。有別於常見的Pareto優化問題,這裡是需要分主次的。
解決這個問題的一個常用手段,就是把它轉換成拉格朗日對偶問題,這樣就可以直接合到一個最佳化的目標函數裡面,無論是整體最佳化或交替最佳化,可以成一個整體目標來進行最佳化。當然,需要控制不同目標的相關性以及影響因子。
這種觀察的發展仍存在一些問題,因為使用者狀態動態變化,使得它在短影片場景下,變化速度非常快。另外因為訊號不統一,尤其是主要目標最佳化和紺疏的輔助目標最佳化有非常不一致的分佈問題,現有的解決方案很難處理。如果把它統一到一個目標function,其中一個訊號就可能dominate另外一個訊號。
基於第一點,考慮使用者的動態變化問題常被描述成MDP,也就是使用者與系統的交替互動的sequence,而這個sequence 描述成Markov Decision Process 之後就可以使用強化學習的手段來求解。具體地,在描述成 Markov Decision Process 之後,因為同時還需要區分主要目標和輔助目標,所以需要額外聲明一下,在用戶反饋時,要區分兩種不同目標,此外輔助目標也可能有多個。強化學習在定義長期最佳化目標時,會將要最佳化的主目標定義成長期價值函數,稱為 value function。同樣對於輔助目標,也會有對應的 value function。相當於每個使用者的回饋,都會有長期價值評估,比起之前做 utility function,現在變成了一個長期價值的 value function。
同樣地,結合強化學習時會產生一些新的問題,例如強化學習如何區分不同的折扣係數。另外,因為引入了更多的 constraints,參數的搜尋空間也變得更大,強化學習將變得更困難。
The solution to this work is to divide the entire optimization into two stages. The first stage optimizes the auxiliary objectives, and the second stage optimizes the main objectives.
In the first stage of auxiliary target optimization, the typical actor critic optimization method was adopted. For the optimization of auxiliary targets such as likes and attention, one critic was optimized respectively. Estimate the pros and cons of the current state. After the long-term value estimation is accurate, you can use the value function to guide its learning when optimizing the actor. Formula (2) is the optimization of the critic, and formula (3) is the optimization of the actor. For the optimization of the critic, the current state, the next state, and the sampling of the current action will be used during training. According to the Bellman equation, the action can be obtained, and coupled with the value estimate of the future state, it should be close to the estimate of the current state. In this way, optimization can gradually approach the accurate long-term value estimate. When guiding actor learning, that is, recommending policy learning, an advantage function is used. Advantage function refers to whether the effect of a certain action is stronger than the average estimate. This average estimate is called baseline. The larger the Advantage, the better the action, and the greater the probability of adopting this recommended strategy. This is the first stage, the optimization of auxiliary goals.
The second stage is to optimize the main goal, we use duration. The auxiliary target uses an approximate strategy when constraining the main target. We hope that the action distribution output by the main target is as close as possible to different auxiliary targets. As long as we continue to approach the auxiliary target, the results of the auxiliary target should not be too bad. After obtaining the approximate formulation, a closed-form solution can be obtained through completion of square, that is, in a weighted manner. There is actually not much difference between the optimization method of the actor critic of the entire main goal at the critic level and the value function estimation level. But in the case of actors, we introduce weights obtained from the closed-form solution. The meaning of this weight is that the greater the impact factor corresponding to a certain auxiliary strategy I, the greater its impact on the overall weight. We hope that the distribution of the policy output is as close as possible to the average of all auxiliary target policies. This phenomenon occurs when the behavior of the closed-form solution is obtained.
We tested the effect of multi-objective optimization on the offline data set , the main goal here is watch time, that is, the viewing time, and the auxiliary goals are interaction indicators such as click, like, comment, and hate. It can be seen that the two-stage actor-critic we proposed can achieve optimal results.
Similarly, we have also conducted corresponding comparative experiments in the online system. The setting of the online system adopts the recommendation mode of actor plus ranking, here The action is the weight, and the final ranking is the result of the inner product of each item and the weight. It can also be seen from online experiments that watch time can constrain other interactions while improving. Compared with the previous optimization strategy, it can better constrain interaction indicators.
The above is an introduction to the first work.
The second work is also the application of reinforcement learning in multi-task optimization, but this is a more traditional optimization . This work is a joint project between Kuaishou and City University of Hong Kong. The first author is Liu Ziru.
The main issues discussed in this work are typical multitasking The challenge of joint training is to balance the coefficients between different tasks. Traditional MTL solutions generally consider linear combinations and ignore the session dimension, that is, long-term dynamic changes. The RMTL proposed in this work changes the weighting method through long-term forecasts.
問題設定是定義 CTR 和 CVR 的預估的聯合最佳化。同樣我們也有一個 MDP(Markov Decision Process)的定義,但這裡 action 不再是推薦列表,而是對應的 CTR 和 CVR 預估。如果要預估準確,reward 就應該定義為 BCE 或對應的任何一個合理的 loss。在整體的目標定義上,一般情況下會定義成不同的任務加權之後再對整個 session 以及所有的 data sample 進行求和。
可以看到,它的權重係數除了 Gamma 的 discount 之外,還會受到一個需要調整的係數的影響。
#我們的解決方案是讓這個係數的調整和 session 維度的預估相關。這裡給了一個 ESMM 的 backbone,當然其它 baseline 的使用也是通用的,都可以用我們的方法來改進。
下面詳細介紹ESMM,首先有一個task specific 的actor,對每個任務都會有一個target 和current actor 的優化,優化時用到了類似之前提到的actor critic 的framework。在優化過程中,BCE loss 在引導 actor 學習時,需要對 task specific 的權重進行調整。在我們的解決方案裡,這個權重需要根據未來的價值評估進行相應的更改。該設定的意思是,如果未來的評估價值較高,說明當前 state 和當前 action 是比較準確的,對它的學習就可以放慢。相反,如果對未來的預估較差,說明該模型對 state 和 action 的未來並不看好,就應該增加它的學習,weight 採用這種方式進行了調整。這裡的未來評估同樣採用前文提到的 critic network 進行學習。
critic 的學習也同樣採用未來state 和目前state 的差異,但區別於value function,這裡差值的學習採用的是Q function,需要用到state 和action 的聯合評估。在做 actor 更新時,也要同時使用不同 task 對應的 actor 的學習。這裡 soft update 是一個通用的 trick,在增加 RL 學習穩定性的時候比較有用,一般會同時優化 target 和目前的 critic。
#透過兩個公開資料集的比較實驗,可以看出,我們的方法可以結合現有的最佳化方式包括ESMM、MMoE 以及PLE,得到的效果都能夠對先前的baseline 有所提升。
PLE 在我們的觀測中是最好的baseline,我們根據觀測現象的歸因是在學習不同task 時,PLE 能夠更好地學習到shared embedding。
相比之下,ESMM 在 Kuairand task 上面可以達到更好的 CVR 的評估。我們推測這與 click 和 conversion 在這個 dataset 裡更強的相關性有關。
#除此之外我們也做了transferability 的test,因為我們的critic 是可以直接嫁接到其他模型上的。例如可以透過最基本的 RMTL 學習 actor critic,然後用 critic 直接去提升其他模型的效果。我們發現,嫁接時都能夠穩定提升效果。
最後に、さまざまな加重方法を比較するためにアブレーション研究を実施しました。現在、RMTL によって最良の結果が得られています。
最後に、RL と MTL の経験をいくつかまとめてみましょう。
推奨システムは、長期的な最適化、特に最適化に関しては、強化学習とマルチタスクの最適化に非常に典型的なものであることがわかりました。長期にわたる複雑な指標。主目標と副目標の共同最適化の場合、ソフト正則化を使用して主目標の学習を制限できます。複数の目的の共同最適化中に、異なる目的の動的変化を考慮すると、最適化効果も向上します。
さらに、いくつかの課題もあります。たとえば、強化学習の異なるモジュールを組み合わせる場合、システムの安定性に多くの課題が生じます。私たちの経験では、データ品質の制御、ラベルの精度の制御、モデルの予測精度の監視が非常に重要な方法であると考えています。さらに、レコメンデーション システムとユーザーは直接対話するため、さまざまな目標はユーザー エクスペリエンスを部分的にしか反映できず、結果として得られるレコメンデーション戦略も大きく異なります。刻々と変化するユーザーの状況下で、どのようにユーザーエクスペリエンスを共同最適化し、総合的に向上させていくかは、今後非常に重要なテーマとなるでしょう。
A1: 期間インジケーターは典型的な回帰タスクです。ただし、継続時間の推定はビデオ自体の長さに強く関連していることにも気付きました。たとえば、短いビデオと長いビデオの分布は大きく異なるため、推定する際には、最初に分類され、次に回帰が行われます。終わり。 。最近では、ツリー法を用いた持続時間信号の分割推定法についての記事が KDD にも掲載されていますので、興味のある方はぜひ注目してみてください。一般的な意味は、たとえば、再生時間が長いビデオと短いビデオに分割されている場合、長いビデオには推定範囲があり、短いビデオには短いビデオの推定範囲があるということです。さらにツリー方式で分類することもでき、長い動画は中動画と長い動画、短い動画は超短い動画と短い動画に分けることができます。もちろん、純粋に分類法を使用して継続時間推定を解く方法もあり、テストも行っています。全体的な効果としてはまだ分類の範囲内ですが、再度回帰分析を行うと効果は若干良くなるでしょう。他の対話型指標の推定は、通常、既存の推定方法と同様です。オフライン評価中、AUC と GAUC は一般に比較的強い信号であり、現在、これら 2 つの信号は比較的正確です。
A2: 私たちのシステムは主にオンライン指標を調べ、オフラインでは通常 MAE と RMSE を使用します。ただし、オフラインとオンラインの評価には差があることもわかります。オフラインの評価で明らかな改善が見られない場合、それに対応する改善効果がオンラインでも見られない可能性があります。実際の対応関係は一定の重要度に達していない場合があります。違いはあまりないでしょう。
A3: ユーザーが再投稿する理由を分析し、いくつかの観察を行うと、より良い結果が得られる可能性があります。現時点では、フォワーディング推定を行っている場合、リンク下の推定方法と他のインタラクティブなターゲットとの違いはそれほど大きくありません。ラベルの定義、特に負のフィードバック信号の定義がモデルのトレーニングの精度に大きく影響するというより一般的な考え方があります。さらに、データソースの最適化もあり、データやオンライン配信に偏りがあるかどうかも予測の精度に影響するため、偏りを解消することにも多くの取り組みが行われています。推奨シナリオでは、推定される指標の多くは実際には間接的なシグナルであり、次のステップでの推奨効果に影響を与えるためです。したがって、推奨効果に基づいて指標を最適化することが私たちの適用シナリオです。
A4: 多目的融合では、最初にいくつかのヒューリスティックな方法といくつかの手動パラメータ調整方法があります。その後、徐々にパラメータ調整法を使うようになり、強化学習のパラメータ調整にも挑戦してみました。現在の経験では、自動基準調整は手動調整よりも優れており、その上限はわずかに高くなります。
A5: 最近、仕事上の議論が非常にまばらで、フィードバックが数日しかかからないという兆候がいくつかありました。最も一般的なシグナルの 1 つはユーザーの維持です。ユーザーは数日間離れてから戻ってくる可能性があるため、シグナルを受け取るまでにモデルは数日間更新されています。これらの問題を解決するにはいくつかの妥協点がありますが、解決策の 1 つは、どのリアルタイム フィードバック信号がこの非常にまばらな信号と特定の相関関係を持っているかを分析することです。これらのリアルタイム信号を最適化することにより、複数の方法を組み合わせて間接的に長期信号を最適化します。先ほどのリテンションを例に挙げると、私たちのシステムでは、ユーザーのリテンションとユーザーのリアルタイム視聴時間の間に非常に強い正の相関関係があることがわかりました。ユーザーの視聴時間はシステムに対するユーザーの粘度を表しており、基本的にはユーザー維持の下限を保証します。リテンションを最適化するときは、通常、最適化期間を他の関連指標と組み合わせて使用し、リテンションを最適化します。分析の結果、定着率と一定の相関関係があることが判明する限り、それを導入できます。
A6: Actor Critic は、数回繰り返した後の結果です。DQN や Reinforce などのもう少し直感的な方法も以前に試しましたが、それらのいくつかは実際にいくつかのシナリオで効果的です。ただし、現時点では、アクター クリティカルは比較的安定しており、デバッグが簡単な方法です。たとえば、Reinforce を使用するには長期的な信号を使用する必要があり、長期的な軌跡信号は比較的不安定であるため、その安定性を向上させるのはより困難になります。ただし、Actor Critic の利点の 1 つは、シングルステップのシグナルに基づいて最適化できることです。これは、レコメンデーション システムと非常に一貫した機能です。各ユーザーのフィードバックが学習用のトレーニング サンプルとして使用され、対応するアクター批評家および DDPG メソッドがシステムの設定と非常に一致することを願っています。
A7: ユーザー側の機能は依然としてさまざまな機能を使用しているため、ユーザー ID は実際には悪くありません。 ID の特性に加えて、ユーザーにはいくつかの統計的特性もあります。さらに、レコメンデーションリンクでは、RL は細かいランキングや並べ替えなど、適用するモジュールの比較的最後の段階にあるため、推定値やモデルのランキングシグナルも前の段階で与えられます。実際、ユーザーシグナルもあります。初期化。したがって、強化学習は推奨シナリオにおいても多くのユーザー側信号を取得しており、基本的にユーザー ID が 1 つだけ使用される状況は発生しません。
A8: はい。ユーザー ID を使用しない場合、パーソナライゼーションへの影響が非常に大きいことがわかりました。ユーザーの一部の統計的特徴だけを利用した場合、ユーザー ID ほどの改善効果が得られない場合があります。確かにユーザー ID の影響は比較的大きいですが、影響が大きすぎるとボラティリティの問題が発生します。
A9: この質問はユーザーのコールド スタートに偏っています。コールド スタートのシナリオでは、通常、推奨されるリンクには補完機能または自動化された機能が含まれています。まず、これがデフォルトのユーザーであると仮定します。コールド スタート シナリオ: この問題はある程度解決されます。その後、ユーザーがシステムと対話し続けてセッションが充実し続けると、実際に一定量のユーザー フィードバックを得ることができ、トレーニングは徐々に正確になっていきます。安定性を確保するという点では、基本的に、適切に制御し、1 つのユーザー ID がトレーニングを支配するのを防ぐ限り、システムの効果を大幅に向上させることができます。
A10: その作業は、バケット化後に回帰を行うのではなく、バケット化を直接実行し、各バケットの到着確率を使用して期間を共同評価することです。全体的な確率評価を行うために、バケット化の確率とバケット化の値のみが使用されます。バケット化後の回帰は確かに不偏ではなくなりますが、結局のところ、各バケットには依然として独自の分布パターンが存在します。
A11: これは実際には多目的最適化ではありません。CTR はもはや最適化目標ではないため、CTR 指標は CPR を最適化するための入力として直接使用することもできます。しかし、ユーザーの CTR はシステムの好みや粘り強さをかなりの程度表しているため、これはユーザーにとっては好ましくない可能性があります。ただし、レコメンデーション システムが製品の販売に重点を置いているか、トラフィックの販売に重点を置いているかに応じて、異なるシステムが異なる場合があります。 Kuaishou のショートビデオはトラフィックベースであるため、ユーザーの CTR はより直感的で重要な指標であり、CVR はトラフィックを迂回した後の効果にすぎません。
The above is the detailed content of Kuaishou reinforcement learning and multi-task recommendation. For more information, please follow other related articles on the PHP Chinese website!