첫 번째 작품은 주로 제한된 멀티 태스킹 시나리오를 대상으로 하는 Kuaishou가 자체 개발했습니다.
이 작업은 주로 짧은 영상의 보다 전문적인 시나리오를 목표로 합니다. 멀티 태스킹 사용자 피드백은 보다 일반적인 상호 작용인 시청 시간과 상호 작용으로 나뉩니다. 좋아요, 컬렉션, 팔로우, 댓글 등 각 피드백에는 고유한 특징이 있습니다. 온라인 시스템 관찰을 통해 지속시간 신호가 실제로 매우 희박하고 연속적인 값이기 때문에 사용자의 관심도를 정확하게 측정하기 어렵다는 사실을 발견했습니다. 대조적으로, 좋아요, 즐겨찾기, 팔로우, 댓글 등 대화형 신호는 더 풍부합니다. 이러한 피드백은 청중 선호도와 행동 피드백이라는 두 가지 범주로 나눌 수 있습니다. 최적화 과정에서 우리는 이 신호를 주요 목표로 간주하고 상호 작용을 보조 최적화로 간주하여 최적화의 전체 목표로 상호 작용 신호가 손실되지 않도록 노력합니다. 이에 비해 상호작용 횟수는 희박하고, 통일된 기준이 없기 때문에 사용자 관심도를 정확하게 측정하기가 어렵습니다. 효과를 향상시키기 위해서는 시스템의 주요 목표로 최적화될 수 있도록 특정 최적화를 수행하는 동시에 전체 목표의 보조 수단으로 대화형 데이터의 무결성을 보장해야 합니다.
이런 식으로 문제는 매우 직관적으로 제한된 최적화 문제로 설명될 수 있습니다. 주요 목표는 효용 최적화이고 보조 목표는 하한을 만족시키는 것입니다. 일반적인 파레토 최적화 문제와 달리 여기서는 우선순위를 정해야 합니다.
이 문제를 해결하는 일반적인 방법은 라그랑지안 쌍대 문제로 변환하여 최적화된 목적 함수로 직접 통합할 수 있도록 하는 것입니다. 전체 최적화이든 교대 최적화이든 최적화할 수 있습니다. 전반적인 목표. 물론 다양한 목표의 상관관계와 영향요인을 통제하는 것도 필요하다.
이 관찰의 공식화에는 여전히 몇 가지 문제가 있습니다. 사용자 상태가 동적으로 변경되어 짧은 비디오 시나리오에서 매우 빠르게 변경되기 때문입니다. 또한, 신호가 균일하지 않기 때문에, 특히 청색증의 주표적 최적화와 보조표적 최적화는 매우 불일치한 분포 문제를 갖고 있어 기존 솔루션을 다루기가 어렵다. 이를 대상 기능으로 통합하면 신호 중 하나가 다른 신호를 지배할 수 있습니다.
첫 번째 점을 기준으로 사용자의 동적 변화를 고려하면 문제는 종종 사용자와 사용자 간의 교대 상호 작용의 순서인 MDP로 설명됩니다. system, 그리고 이 순서를 Markov Decision Process로 기술한 후 강화학습 방법을 이용하여 풀 수 있다. 구체적으로 Markov Decision Process를 설명한 후, 주 목표와 보조 목표를 구분하는 것도 필요하므로, 사용자 피드백을 제공할 때 두 가지 다른 목표를 구분해야 한다는 추가 설명이 필요합니다. 여러 보조 목표가 될 수 있습니다. 강화 학습은 장기 최적화 목표를 정의할 때 최적화할 주요 목표를 가치 함수라고 하는 장기 가치 함수로 정의합니다. 마찬가지로 보조 대상의 경우 해당 가치 기능도 있습니다. 모든 사용자의 피드백과 동일하게 장기적인 가치 평가가 있을 것입니다. 이전 유틸리티 기능과 비교하여 이제는 장기적인 가치 기능이 되었습니다.
마찬가지로 강화 학습이 다양한 할인 계수를 구별하는 방법과 같이 강화 학습과 결합하면 몇 가지 새로운 문제가 발생합니다. 또한, 더 많은 제약조건이 도입될수록 매개변수에 대한 검색 공간이 커지므로 강화학습이 더 어려워집니다.
이 작업의 솔루션은 전체 최적화를 두 단계로 나누는 것입니다. 첫 번째 단계는 보조 목표를 최적화하고 두 번째 단계는 주요 목표를 최적화합니다.
보조 대상 최적화의 첫 번째 단계에서는 일반적인 배우 평론가 최적화 방법을 채택합니다. 좋아요 및 팔로우와 같은 보조 대상의 최적화를 위해 각각 한 명의 평론가가 최적화되어 현재 상태의 품질을 추정합니다. 장기적인 가치 추정이 정확해진 후에는 액터를 최적화할 때 가치 함수를 사용하여 학습을 안내할 수 있습니다. 공식 (2)는 비평가의 최적화이고, 공식 (3)은 행위자의 최적화를 위해 현재 상태, 다음 상태 및 현재 행동의 샘플링이 훈련 중에 사용됩니다. . Bellman 방정식에 따르면 조치를 얻을 수 있으며 미래 상태의 가치 추정과 결합하여 현재 상태의 추정에 가까워야 합니다. 이렇게 하면 최적화가 점진적으로 정확한 장기 가치 추정에 접근할 수 있습니다. . 행위자 학습을 지도할 때, 즉 정책 학습을 추천할 때 어드밴티지 함수를 사용한다. 장점 함수는 특정 행동의 효과가 평균 추정치보다 강한지 여부를 나타냅니다. 이 평균 추정치를 기준선이라고 합니다. 이점이 클수록 행동이 더 좋아지고 이 권장 전략을 채택할 확률이 높아집니다. 이것이 보조 목표의 최적화인 첫 번째 단계입니다.
두 번째 단계는 주요 목표를 최적화하는 것이며 기간을 사용합니다. 보조 표적은 주 표적을 구속할 때 대략적인 전략을 사용합니다. 우리는 보조 표적에 계속 접근하는 한 주 표적에 의한 행동 분포 출력이 가능한 한 유사하기를 바랍니다. 목표는 너무 나쁘지 않아야합니다. 근사공식을 얻은 후 제곱완성, 즉 가중치 방식을 통해 닫힌 형태의 해를 얻을 수 있다. 실제로 비평가 수준과 가치함수 추정 수준에서 전체 주요 목표에 대한 배우 평론가의 최적화 방식에는 큰 차이가 없다. 하지만 액터의 경우 폐쇄형 솔루션에서 얻은 가중치를 도입합니다. 이 가중치의 의미는 특정 보조 전략 I에 해당하는 Impact Factor가 클수록 전체 가중치에 미치는 영향이 커진다는 것입니다. 우리는 정책 출력의 분포가 모든 보조 대상 정책의 평균에 최대한 가깝기를 바랍니다. 이러한 현상은 획득된 폐쇄형 솔루션의 동작을 얻을 때 발생합니다.
여기서 주요 목표는 시청 시간, 보조 목표는 클릭수입니다. 좋아요, 댓글, 증오 등의 대화형 지표. 우리가 제안한 2단계 배우 평론가가 최적의 결과를 얻을 수 있음을 알 수 있습니다.
마찬가지로 온라인 시스템에서도 해당 비교 실험을 수행했습니다. 온라인 시스템의 설정은 배우 플러스 순위의 추천 모델을 채택하고 있으며 최종 순위는 다음과 같습니다. 각 항목과 가중치의 내적 결과입니다. 또한 시청 시간이 다른 상호작용을 제한하는 동시에 이전 최적화 전략과 비교하여 상호작용 지표를 더 효과적으로 제한할 수 있다는 것을 온라인 실험에서도 확인할 수 있습니다.
위는 첫 번째 작품에 대한 소개입니다.
두 번째 작업도 다중 작업 최적화에 강화 학습을 적용하는 것이지만 이는 보다 전통적인 최적화입니다. 이 작품은 Kuaishou와 홍콩 시립대학교의 공동 프로젝트입니다. 첫 번째 저자는 Liu Ziru입니다.
이 작업에서 논의된 주요 문제는 다양한 작업 간의 계수 균형을 맞추는 것입니다. 일반적으로 선형 조합입니다. 방법이 고려되며 세션 차원, 즉 장기적인 동적 변경 사항은 무시됩니다. 본 연구에서 제안하는 RMTL은 장기 예측을 통해 가중치 부여 방식을 변경한다.
문제 설정은 CTR과 CVR 추정치의 공동 최적화를 정의하는 것입니다. MDP(Markov Decision Process)의 정의도 있지만 여기서 작업은 더 이상 권장 사항 목록이 아니라 해당 CTR 및 CVR 추정치입니다. 추정이 정확하려면 보상은 BCE 또는 이에 상응하는 합리적인 손실로 정의되어야 합니다. 전반적인 목표 정의 측면에서는 일반적으로 서로 다른 작업 가중치로 정의한 다음 전체 세션과 모든 데이터 샘플을 합산합니다.
감마 할인 외에도 무게 계수도 조정해야 하는 계수의 영향을 받는다는 것을 알 수 있습니다.
저희 솔루션은 세션 차원의 추정과 관련된 이 계수를 조정하는 것입니다. 여기에는 ESMM 백본이 제공됩니다. 물론 다른 기준선을 사용하는 것도 일반적이며 우리의 방법을 사용하여 개선할 수 있습니다.
먼저 ESMM을 자세히 소개하겠습니다. 각 작업에는 대상과 현재 행위자 최적화가 있으며 앞서 언급한 행위자 평론가와 유사한 프레임워크가 사용됩니다. 최적화 과정에서 BCE 손실은 행위자 학습을 안내할 때 작업별 가중치를 조정해야 합니다. 우리 솔루션에서는 미래 가치 평가에 따라 이 가중치를 적절히 변경해야 합니다. 이 설정의 의미는 미래 평가 값이 높을수록 현재 상태와 현재 동작이 더 정확해지고 학습이 느려질 수 있다는 의미입니다. 반대로 미래에 대한 예측이 좋지 않다는 것은 모델이 상태와 행동의 미래에 대해 낙관적이지 않다는 것을 의미하므로 가중치를 이렇게 조정해야 합니다. 여기에서의 향후 평가도 학습을 위해 위에서 언급한 비평 네트워크를 사용합니다.
critic도 미래 상태와 현재 상태의 차이를 사용하지만, 여기서의 차이 학습은 상태와 행동의 공동 평가가 필요한 Q 함수를 사용합니다. . 액터를 업데이트할 때, 서로 다른 작업에 해당하는 액터의 학습을 동시에 활용하는 것도 필요합니다. 여기서 소프트 업데이트는 RL 학습의 안정성을 높일 때 더 유용한 일반적인 트릭입니다. 일반적으로 대상과 현재 비평가를 동시에 최적화합니다.
두 개의 공개 데이터 세트에 대한 비교 실험을 통해 우리의 방법이 ESMM, MMoE 및 PLE를 포함한 기존 최적화 방법과 결합될 수 있으며 얻은 결과는 이전 기준선 개선되었습니다.
PLE은 관찰된 현상에 대한 최고의 기준입니다. PLE는 다양한 작업을 학습할 때 공유 임베딩을 더 잘 배울 수 있다는 것입니다.
반대로 ESMM은 Kuairand 작업에서 더 나은 CVR 평가를 달성할 수 있습니다. 우리는 이것이 이 데이터세트에서 클릭과 전환 사이의 더 강한 상관관계와 관련이 있다고 추측합니다.
또한 우리의 평론가가 다른 모델에 직접 접목될 수 있기 때문에 전이성 테스트도 수행했습니다. 예를 들어, 가장 기본적인 RMTL을 통해 Actor Critic을 학습한 다음, Critic을 사용하여 다른 모델의 성능을 직접적으로 향상시킬 수 있습니다. 접목 시 효과가 안정적으로 향상될 수 있음을 발견했습니다.
마지막으로 다양한 가중치 방법을 비교하기 위해 절제 연구를 수행했습니다. 현재 RMTL을 통해 최상의 결과를 얻었습니다.
마지막으로 RL과 MTL의 경험을 정리해보겠습니다.
우리는 추천 시스템의 장기 최적화, 특히 복잡한 지표의 장기 최적화가 강화 학습 및 다중 작업 최적화의 매우 일반적인 시나리오라는 것을 발견했습니다. 주 목표와 보조 목표의 공동 최적화인 경우 소프트 정규화를 사용하여 주 목표 학습을 제한할 수 있습니다. 다중 목표 공동 최적화 중에 다양한 목표의 동적 변화를 고려하면 최적화 효과도 향상될 수 있습니다.
또한 몇 가지 과제도 있습니다. 예를 들어 다양한 강화 학습 모듈을 결합하면 시스템 안정성에 많은 문제가 발생합니다. 우리의 경험에 따르면 데이터 품질 제어, 라벨 정확도 제어, 모델 예측 정확도 감독은 매우 중요한 방법입니다. 또한, 추천 시스템과 사용자가 직접 상호 작용하기 때문에 서로 다른 목표는 사용자 경험을 부분적으로만 반영할 수 있으므로 결과적인 추천 전략도 매우 달라질 것입니다. 끊임없이 변화하는 사용자 상태에서 사용자 경험을 공동으로 최적화하고 종합적으로 개선하는 방법은 앞으로 매우 중요한 주제가 될 것입니다.
A1: 기간 표시기는 일반적인 회귀 작업입니다. 하지만 지속 시간 추정은 동영상 자체의 길이와 밀접한 관련이 있다는 점도 알아냈습니다. 예를 들어 짧은 동영상과 긴 동영상의 분포는 매우 다르기 때문에 추정할 때 먼저 분류한 다음 회귀 분석을 수행합니다. 완료. . 최근 KDD에는 트리 방법을 사용하여 기간 신호 추정을 분할하는 방법에 대한 기사가 있습니다. 관심이 있으시면 주목해 보세요. 일반적인 의미는, 예를 들어 지속 시간을 긴 동영상과 짧은 동영상으로 구분하면 긴 동영상은 추정 범위를 갖고, 짧은 동영상은 짧은 동영상에 대한 추정 범위를 갖게 된다는 것입니다. 또한, 트리 방식을 이용하면 보다 세부적인 분류가 가능합니다. 긴 동영상은 중간 동영상과 긴 동영상으로 나눌 수 있고, 짧은 동영상은 초단편 동영상과 짧은 동영상으로 나눌 수도 있습니다. 물론 기간 추정을 해결하기 위해 순수하게 분류 방법을 사용하는 방법도 있으며 테스트도 수행했습니다. 전반적인 효과 측면에서는 여전히 분류 체계 내에 있습니다. 다시 회귀를 수행하면 효과가 약간 더 좋아질 것입니다. 기타 상호작용지표의 추정은 일반적으로 기존 추정방법과 유사합니다. 오프라인 평가 중에 AUC와 GAUC는 일반적으로 상대적으로 강한 신호이며 현재 이 두 신호는 상대적으로 정확합니다.
A2: 우리 시스템은 주로 온라인 지표를 보고, 오프라인은 일반적으로 MAE와 RMSE를 사용합니다. 그러나 오프라인 평가와 온라인 평가 간에는 차이가 있음을 알 수 있습니다. 오프라인 평가에서 뚜렷한 개선이 없으면 온라인에서 해당 개선 효과가 나타나지 않을 수도 있습니다. , 차이는 별로 없을 겁니다.
A3: 사용자가 다시 게시하는 이유를 분석하고 관찰을 수행하면 더 나은 결과를 얻을 수 있습니다. 현재 우리가 전달 추정을 수행할 때 우리 링크에 있는 다른 대화형 대상에 대한 추정 방법의 차이는 그리 크지 않습니다. 라벨의 정의, 특히 부정적인 피드백 신호의 정의가 모델 훈련의 정확성에 큰 영향을 미칠 것이라는 보다 일반적인 생각이 있습니다. 또한 데이터 소스의 최적화도 데이터와 온라인 배포의 편향 여부에 따라 예측 정확도에 영향을 미치므로 편향성 제거에도 많은 노력을 기울이고 있습니다. 추천 시나리오에서 많은 추정 지표는 실제로 간접적인 신호이므로 다음 단계의 추천 효과에 영향을 미칩니다. 따라서 추천 효과를 기반으로 지표를 최적화하는 것이 우리의 적용 시나리오입니다.
A4: 다중 목표 융합에는 처음에 몇 가지 경험적 방법과 몇 가지 수동 매개변수 균형 조정 방법이 있습니다. 이후 점차적으로 매개변수 조정 방법을 사용하기 시작했고, 강화학습을 위한 매개변수 조정도 시도했습니다. 현재 경험으로는 자동 기준 조정이 수동 조정보다 낫고 상한이 약간 더 높습니다.
A5: 최근 업무 논의가 극도로 드물고 피드백이 며칠 밖에 걸리지 않는다는 신호를 받았습니다. 가장 일반적인 신호 중 하나는 사용자 유지입니다. 사용자가 돌아오기 전에 며칠 동안 떠날 수 있기 때문에 신호를 받을 때쯤에는 모델이 며칠 동안 업데이트된 상태입니다. 이러한 문제를 해결하기 위해서는 몇 가지 절충안이 있습니다. 한 가지 해결책은 어떤 실시간 피드백 신호가 이렇게 극도로 희박한 신호와 일정한 상관 관계를 가지고 있는지 분석하는 것입니다. 이러한 실시간 신호를 최적화함으로써 장기 신호를 간접적으로 최적화하는 데 여러 가지 방법을 조합하여 사용합니다. 지금 리텐션을 예로 들면, 우리 시스템에서는 사용자 리텐션과 사용자의 실시간 시청 시간 사이에 매우 강한 양의 상관관계가 있음을 발견했습니다. 사용자의 시청 시간은 시스템에 대한 사용자의 점도를 나타냅니다. 사용자 유지의 하한을 보장합니다. 유지율을 최적화할 때 일반적으로 유지율을 최적화하기 위해 다른 관련 지표와 함께 최적화 기간을 사용합니다. 분석을 통해 리텐션과 일정한 상관관계가 있다는 사실이 밝혀지면 이를 도입할 수 있습니다.
A6: 배우 평론가는 여러 번 반복한 결과입니다. 이전에는 DQN 및 Reinforce와 같은 약간 더 직관적인 방법을 시도했지만 일부 시나리오에서는 실제로 효과적이지만 현재 배우 평론가는 비교적 안정적입니다. 하나. 그리고 디버깅하는 좋은 방법입니다. 예를 들어 Reinforce를 사용하려면 장기 신호를 사용해야 하며, 장기 궤적 신호는 상대적으로 변동성이 크기 때문에 안정성을 향상시키기가 더 어렵습니다. 하지만 배우 평론가의 장점 중 하나는 단일 단계 신호를 기반으로 최적화할 수 있다는 것인데, 이는 추천 시스템과 매우 일치하는 기능입니다. 우리는 각 사용자의 피드백이 학습을 위한 훈련 샘플로 사용될 수 있기를 바라며, 해당 배우 평론가와 DDPG 방법이 우리 시스템 설정과 매우 일치하기를 바랍니다.
A7: 사용자 측 기능은 여전히 다양한 기능을 사용하기 때문에 사용자 ID는 실제로 나쁘지 않습니다. ID 특성 외에도 사용자에게는 몇 가지 통계적 특성도 있습니다. 또한 추천 링크에서는 RL이 우리가 적용하는 모듈에서 상대적으로 늦은 단계에 있기 때문에(예: 미세 순위 지정 및 재배열) 추정 및 모델 순위 신호도 이전 단계에서 제공됩니다. 실제로 사용자 신호가 있습니다. 그 안에. 따라서 강화 학습은 권장 시나리오에서 여전히 많은 사용자 측 신호를 획득하며 기본적으로 하나의 사용자 ID만 사용되는 상황은 없습니다.
A8: 네, 그리고 사용자 ID를 사용하지 않으면 개인화에 미치는 영향이 상당히 크다는 것을 발견했습니다. 사용자의 일부 통계적 특성만을 활용한다면, 사용자 ID만큼 개선 효과가 크지 않을 때도 있습니다. 사용자 ID의 영향력이 상대적으로 큰 것은 사실이지만, 영향력이 너무 크면 변동성 문제가 발생하게 됩니다.
A9: 이 문제는 사용자 콜드 스타트에 편향되어 있습니다. 콜드 스타트 시나리오에서는 일반적으로 권장 링크가 기본 사용자라고 가정하면 어느 정도 해결될 수 있습니다. 나중에 사용자가 시스템과 계속 상호 작용하고 세션이 계속 풍부해짐에 따라 실제로 어느 정도의 사용자 피드백을 얻을 수 있으며 훈련은 점차 더 정확해집니다. 안정성 보장 측면에서 기본적으로 잘 제어하고 하나의 사용자 ID가 훈련을 지배하는 것을 방지하는 한 시스템 효과를 매우 잘 향상시킬 수 있습니다.
A10: 그 작업은 버킷팅 후 회귀를 수행하는 대신 버킷팅을 직접 수행한 다음 각 버킷의 도착 확률을 사용하여 기간을 공동으로 평가하는 것입니다. 버킷팅 확률과 버킷팅 값만 사용하여 전체 확률 평가를 수행합니다. 버킷팅 후 회귀는 실제로 더 이상 편향되지 않아야 합니다. 결국 각 버킷에는 여전히 고유한 분포 패턴이 있습니다.
A11: CTR은 더 이상 최적화 목표가 아니기 때문에 CTR 지표는 CPR을 최적화하기 위한 입력으로 직접 사용될 수도 있습니다. 그러나 이는 사용자의 CTR이 시스템의 선호도와 지속성을 더 많이 나타내기 때문에 사용자에게는 좋지 않을 수 있습니다. 그러나 추천 시스템이 제품 판매에 중점을 두는지 아니면 트래픽에 중점을 두는지에 따라 시스템이 다를 수 있습니다. Kuaishou 짧은 동영상은 주로 트래픽을 기반으로 하기 때문에 사용자 CTR은 더 직관적이고 중요한 지표이며 CVR은 트래픽 전환 이후의 효과일 뿐입니다.
위 내용은 Kuaishou 강화 학습 및 다중 작업 추천의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!