>  기사  >  기술 주변기기  >  강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

WBOY
WBOY앞으로
2023-05-07 18:31:082086검색

짧은 동영상 추천 시스템의 핵심 목표는 사용자 유지율을 높여 DAU 성장을 촉진하는 것입니다. 따라서 리텐션은 각 APP의 핵심 비즈니스 최적화 지표 중 하나입니다. 그러나 리텐션은 사용자와 시스템 간의 여러 상호 작용 이후의 장기적인 피드백이므로 단일 항목이나 단일 목록으로 분해하기 어렵기 때문에 기존 포인트 방식 및 목록 방식 모델에서는 직접적으로 수행하기가 어렵습니다. 보존을 최적화합니다.

강화 학습(RL) 방법은 환경과 상호 작용하여 장기적인 보상을 최적화하며 사용자 유지를 직접적으로 최적화하는 데 적합합니다. 이 작업은 사용자가 추천 시스템에 조치를 결정하도록 요청할 때마다 다양한 단기 피드백 추정치를 집계하는 데 사용됩니다. 좋아요, 팔로우, 댓글, 리트윗 등) 순위 모델 점수를 매깁니다. 이 작업의 목표는 정책을 학습하고, 여러 사용자 세션 간의 누적 시간 간격을 최소화하고, 앱 실행 빈도를 높여 사용자 유지율을 높이는 것입니다.

그러나 보유 신호의 특성으로 인해 기존 RL 알고리즘을 직접 적용하는 데에는 다음과 같은 문제가 있습니다. 1) 불확실성: 보유 신호는 추천 알고리즘에 의해 결정될 뿐만 아니라 많은 외부 요인의 간섭을 받습니다. 2) 편향: 보유 신호는 다양합니다. 기간과 활동 수준이 다른 사용자 그룹에 차이가 있습니다. 3) 불안정성: 즉시 보상을 반환하는 게임 환경과 달리 보유 신호는 일반적으로 몇 시간에서 며칠 내에 반환됩니다. RL 알고리즘의 온라인 교육이 불안정합니다.

본 연구에서는 위의 과제를 해결하고 리텐션을 직접적으로 최적화하기 위해 RLUR(Reinforcement Learning for User Retention) 알고리즘을 제안합니다. 오프라인 및 온라인 검증을 통해 RLUR 알고리즘은 State of Art 기준에 비해 2차 보존 지수를 크게 향상시킬 수 있습니다. RLUR 알고리즘은 Kuaishou 앱에서 완벽하게 구현되었으며 지속적으로 상당한 2차 리텐션과 DAU 수익을 달성할 수 있습니다. 실제 제작 환경에서 사용자 리텐션을 향상시키기 위해 RL 기술이 사용된 것은 업계 최초입니다. 이 작업은 WWW 2023 산업 트랙에 승인되었습니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

저자: Cai Qingpeng, Liu Shuchang, Wang Xueliang, Zuo Tianyou, Xie Wentao, Yang Bin, Zheng Dong, Jiang Peng

논문 주소: https://arxiv.org/ pdf/2302.01724 .pdf

Problem Modeling

그림 1(a)에서 볼 수 있듯이 이 작업은 보존 최적화 문제를 추천 시스템이 에이전트인 무한 지평선 요청 기반 Markov 결정 프로세스로 모델링합니다. 사용자는 환경입니다. 사용자가 앱을 열 때마다 새 세션 i가 열립니다. 그림 1(b)에서 볼 수 있듯이 사용자가 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까? 요청할 때마다 추천 시스템은 사용자 상태 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?에 따라 매개변수 벡터 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?를 결정하고 동시에 n개의 서로 다른 단기 항목의 순서를 추정합니다. 지표(시청 시간, 좋아요, 관심도 등) 모델은 각 후보 동영상 j 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?에 점수를 매깁니다. 그런 다음 정렬 기능은 각 동영상의 동작과 채점 벡터를 입력하여 각 동영상의 최종 점수를 얻고 가장 높은 점수를 받은 6개의 동영상을 선택하여 사용자에게 표시하면 사용자는 즉시 피드백강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?을 반환합니다. 사용자가 앱을 떠나면 이 세션이 종료됩니다. 사용자가 다음에 앱을 열 때 세션 i+1이 열립니다. 이전 세션이 끝나고 다음 세션이 시작될 때까지의 시간 간격을 반환 시간( 복귀시간), 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?. 본 연구의 목표는 여러 세션에 대한 콜백 시간의 합을 최소화하는 전략을 훈련하는 것입니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

RLUR 알고리즘

이 연구에서는 먼저 누적 재방문 시간을 추정하는 방법을 논의한 다음 유지된 신호의 몇 가지 주요 과제를 해결하는 방법을 제안합니다. 이러한 방법은 RLUR로 약칭되는 사용자 유지 알고리즘을 위한 강화 학습으로 요약됩니다.

재방문 시간 추정

그림 1(d)와 같이 행위가 연속적이므로 본 연구에서는 DDPG 알고리즘의 시간차(TD) 학습 방법을 사용하여 재방문 시간을 추정한다. .

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

각 세션의 마지막 요청에만 재방문 시간 보상이 있으므로 중간 보상은 0이므로 작성자가 할인 요소를 설정합니다. 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?각 세션의 마지막 요청 값은 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까? , 기타 요청은 1입니다. 이 설정을 사용하면 재방문 시간이 기하급수적으로 감소하는 것을 방지할 수 있습니다. 그리고 손실(1)이 0일 때 Q는 실제로 여러 세션의 누적 반환 시간 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?을 추정한다는 것이 이론적으로 입증될 수 있습니다.

보상 지연 문제 해결

재방문 시간은 각 세션이 끝날 때만 발생하므로 학습 효율성이 떨어지는 문제가 발생합니다. 따라서 저자는 정책 학습을 강화하기 위해 경험적 보상을 사용합니다. 단기 피드백은 유지와 긍정적인 관련이 있기 때문에 저자는 단기 피드백을 첫 번째 경험적 보상으로 사용합니다. 그리고 저자는 두 번째 휴리스틱 보상으로 각 샘플의 내재적 보상을 계산하기 위해 RND(Random Network Distillation) 네트워크를 채택했습니다. 구체적으로 RND 네트워크는 두 개의 동일한 네트워크 구조를 사용합니다. 하나의 네트워크는 고정으로 무작위로 초기화되고 다른 네트워크는 고정 네트워크에 적합하며 피팅 손실이 내재적 보상으로 사용됩니다. 그림 1(e)에서 볼 수 있듯이, 유지 보상에 대한 경험적 보상의 간섭을 줄이기 위해 이 작업에서는 별도의 비판 네트워크를 학습하여 단기 피드백과 내재적 보상의 합을 추정합니다. 바로 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?입니다.

불확실성 문제 해결

재방문 시간은 추천 이외에도 여러 요소에 영향을 받기 때문에 불확실성이 높아 학습 효과에 영향을 미치게 됩니다. 이 작업은 분산을 줄이기 위한 정규화 방법을 제안합니다. 먼저 재방문 시간 확률을 추정하기 위해 분류 모델 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?을 추정합니다. 즉, 재방문 시간이 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?보다 짧은지 추정한 다음 Markov 불평등을 사용하여 더 낮은 값을 얻습니다. 재방문 시간의 경계, 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?; 마지막으로 실제 재방문 시간/예상 재방문 시간 하한이 정규화된 재방문 보상으로 사용됩니다.

편향 문제 해결

다양한 활성 그룹의 행동 습관의 큰 차이로 인해 고활성 사용자의 유지율이 높고 훈련 샘플의 수가 기존보다 훨씬 많습니다. 활성이 낮은 사용자로 인해 실시간 사용자 주도의 모델 학습이 과대평가됩니다. 이 문제를 해결하기 위해 이 작업은 다양한 고활동 그룹과 저활동 그룹에 대한 2가지 독립적인 전략을 학습하고 학습을 위해 서로 다른 데이터 스트림을 사용합니다. 배우는 보조 보상을 최대화하면서 재방문 시간을 최소화합니다. 그림 1(c)에서 볼 수 있듯이 활동량이 많은 그룹을 예로 들면 배우 손실은 다음과 같습니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

불안정한 문제 해결

재방문 시간의 신호 지연으로 인해 일반적으로 몇 시간에서 며칠 내에 돌아오므로 RL 온라인 교육이 불안정해질 수 있습니다. 그러나 기존의 행동 복제 방법을 직접적으로 사용하는 것은 학습 속도를 크게 제한하거나 안정적인 학습을 보장하지 못합니다. 따라서 이 연구에서는 액터 손실에 소프트 정규화 계수를 곱하는 새로운 소프트 정규화 방법을 제안합니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

이 정규화 방법은 본질적으로 제동 효과입니다. 현재 학습이 편차인 경우 전략과 샘플 전략 사이의 크기가 크면 손실이 작아지고 학습이 안정됩니다. 학습 속도가 안정되면 손실이 다시 커지고 학습 속도가 빨라집니다. 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?이면 학습 과정에 제한이 없음을 의미합니다.

오프라인 실험

이 작업은 RLUR을 State of the Art의 강화 학습 알고리즘 TD3 및 공개 데이터 세트 KuaiRand의 블랙박스 최적화 방법인 Cross Entropy Method(CEM)와 비교합니다. 이 작업은 먼저 KuaiRand 데이터 세트를 기반으로 유지 시뮬레이터를 구축합니다. 세 가지 모듈(사용자 즉각적인 피드백, 사용자 세션 종료, 사용자 재방문)을 포함하고 이 유지 시뮬레이터 평가 방법을 사용합니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

표 1은 재방문 시간 및 2차 유지 지표 측면에서 RLUR이 CEM 및 TD3보다 훨씬 우수하다는 것을 보여줍니다. 이 연구는 RLUR을 유지 학습 부분(RLUR(순진))과 비교하기 위해 절제 실험을 수행합니다. 이는 유지 문제를 해결하기 위한 이 연구 접근 방식의 효율성을 설명할 수 있습니다. 그리고 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?의 비교를 통해 단일 세션의 재방문 시간을 최소화하는 것보다 여러 세션의 재방문 시간을 최소화하는 알고리즘이 더 나은 것으로 나타났습니다.

온라인 실험

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

이 작업은 Kuaishou 짧은 동영상 추천 시스템에서 A/B 테스트를 수행하여 RLUR과 CEM 방법을 비교합니다. 그림 2는 각각 RLUR 및 CEM과 비교하여 앱 개봉 빈도, DAU, 첫 번째 유지율, 7번째 유지율의 개선 비율을 보여줍니다. 앱을 여는 빈도가 점차 증가하고 심지어 0일부터 100일까지 수렴되는 것을 확인할 수 있습니다. 또한 2차 유지, 7차 유지 및 DAU 지표의 개선을 주도합니다(0.1% DAU 및 0.01% 2차 유지 개선은 통계적으로 유의미한 것으로 간주됩니다).

요약 및 향후 작업

이 논문은 RL 기술을 통해 추천 시스템의 사용자 유지를 개선하는 방법을 연구합니다. 이 작업은 무한한 범위 요청 세분성을 갖춘 Markov 의사 결정 프로세스로 유지 최적화를 모델화합니다. 보존을 직접 최적화하고 신호 보존과 관련된 몇 가지 주요 문제를 효과적으로 해결합니다. RLUR 알고리즘은 Kuaishou 앱에서 완전히 구현되었으며 상당한 2차 유지 및 DAU 수익을 달성할 수 있습니다. 향후 작업과 관련하여 오프라인 강화 학습, Decision Transformer 및 기타 방법을 사용하여 사용자 유지율을 보다 효과적으로 향상시키는 방법은 유망한 방향입니다.

위 내용은 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제