찾다
기술 주변기기일체 포함강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

짧은 동영상 추천 시스템의 핵심 목표는 사용자 유지율을 높여 DAU 성장을 촉진하는 것입니다. 따라서 리텐션은 각 APP의 핵심 비즈니스 최적화 지표 중 하나입니다. 그러나 리텐션은 사용자와 시스템 간의 여러 상호 작용 이후의 장기적인 피드백이므로 단일 항목이나 단일 목록으로 분해하기 어렵기 때문에 기존 포인트 방식 및 목록 방식 모델에서는 직접적으로 수행하기가 어렵습니다. 보존을 최적화합니다.

강화 학습(RL) 방법은 환경과 상호 작용하여 장기적인 보상을 최적화하며 사용자 유지를 직접적으로 최적화하는 데 적합합니다. 이 작업은 사용자가 추천 시스템에 조치를 결정하도록 요청할 때마다 다양한 단기 피드백 추정치를 집계하는 데 사용됩니다. 좋아요, 팔로우, 댓글, 리트윗 등) 순위 모델 점수를 매깁니다. 이 작업의 목표는 정책을 학습하고, 여러 사용자 세션 간의 누적 시간 간격을 최소화하고, 앱 실행 빈도를 높여 사용자 유지율을 높이는 것입니다.

그러나 보유 신호의 특성으로 인해 기존 RL 알고리즘을 직접 적용하는 데에는 다음과 같은 문제가 있습니다. 1) 불확실성: 보유 신호는 추천 알고리즘에 의해 결정될 뿐만 아니라 많은 외부 요인의 간섭을 받습니다. 2) 편향: 보유 신호는 다양합니다. 기간과 활동 수준이 다른 사용자 그룹에 차이가 있습니다. 3) 불안정성: 즉시 보상을 반환하는 게임 환경과 달리 보유 신호는 일반적으로 몇 시간에서 며칠 내에 반환됩니다. RL 알고리즘의 온라인 교육이 불안정합니다.

본 연구에서는 위의 과제를 해결하고 리텐션을 직접적으로 최적화하기 위해 RLUR(Reinforcement Learning for User Retention) 알고리즘을 제안합니다. 오프라인 및 온라인 검증을 통해 RLUR 알고리즘은 State of Art 기준에 비해 2차 보존 지수를 크게 향상시킬 수 있습니다. RLUR 알고리즘은 Kuaishou 앱에서 완벽하게 구현되었으며 지속적으로 상당한 2차 리텐션과 DAU 수익을 달성할 수 있습니다. 실제 제작 환경에서 사용자 리텐션을 향상시키기 위해 RL 기술이 사용된 것은 업계 최초입니다. 이 작업은 WWW 2023 산업 트랙에 승인되었습니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

저자: Cai Qingpeng, Liu Shuchang, Wang Xueliang, Zuo Tianyou, Xie Wentao, Yang Bin, Zheng Dong, Jiang Peng

논문 주소: https://arxiv.org/ pdf/2302.01724 .pdf

Problem Modeling

그림 1(a)에서 볼 수 있듯이 이 작업은 보존 최적화 문제를 추천 시스템이 에이전트인 무한 지평선 요청 기반 Markov 결정 프로세스로 모델링합니다. 사용자는 환경입니다. 사용자가 앱을 열 때마다 새 세션 i가 열립니다. 그림 1(b)에서 볼 수 있듯이 사용자가 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까? 요청할 때마다 추천 시스템은 사용자 상태 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?에 따라 매개변수 벡터 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?를 결정하고 동시에 n개의 서로 다른 단기 항목의 순서를 추정합니다. 지표(시청 시간, 좋아요, 관심도 등) 모델은 각 후보 동영상 j 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?에 점수를 매깁니다. 그런 다음 정렬 기능은 각 동영상의 동작과 채점 벡터를 입력하여 각 동영상의 최종 점수를 얻고 가장 높은 점수를 받은 6개의 동영상을 선택하여 사용자에게 표시하면 사용자는 즉시 피드백강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?을 반환합니다. 사용자가 앱을 떠나면 이 세션이 종료됩니다. 사용자가 다음에 앱을 열 때 세션 i+1이 열립니다. 이전 세션이 끝나고 다음 세션이 시작될 때까지의 시간 간격을 반환 시간( 복귀시간), 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?. 본 연구의 목표는 여러 세션에 대한 콜백 시간의 합을 최소화하는 전략을 훈련하는 것입니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

RLUR 알고리즘

이 연구에서는 먼저 누적 재방문 시간을 추정하는 방법을 논의한 다음 유지된 신호의 몇 가지 주요 과제를 해결하는 방법을 제안합니다. 이러한 방법은 RLUR로 약칭되는 사용자 유지 알고리즘을 위한 강화 학습으로 요약됩니다.

재방문 시간 추정

그림 1(d)와 같이 행위가 연속적이므로 본 연구에서는 DDPG 알고리즘의 시간차(TD) 학습 방법을 사용하여 재방문 시간을 추정한다. .

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

각 세션의 마지막 요청에만 재방문 시간 보상이 있으므로 중간 보상은 0이므로 작성자가 할인 요소를 설정합니다. 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?각 세션의 마지막 요청 값은 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까? , 기타 요청은 1입니다. 이 설정을 사용하면 재방문 시간이 기하급수적으로 감소하는 것을 방지할 수 있습니다. 그리고 손실(1)이 0일 때 Q는 실제로 여러 세션의 누적 반환 시간 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?을 추정한다는 것이 이론적으로 입증될 수 있습니다.

보상 지연 문제 해결

재방문 시간은 각 세션이 끝날 때만 발생하므로 학습 효율성이 떨어지는 문제가 발생합니다. 따라서 저자는 정책 학습을 강화하기 위해 경험적 보상을 사용합니다. 단기 피드백은 유지와 긍정적인 관련이 있기 때문에 저자는 단기 피드백을 첫 번째 경험적 보상으로 사용합니다. 그리고 저자는 두 번째 휴리스틱 보상으로 각 샘플의 내재적 보상을 계산하기 위해 RND(Random Network Distillation) 네트워크를 채택했습니다. 구체적으로 RND 네트워크는 두 개의 동일한 네트워크 구조를 사용합니다. 하나의 네트워크는 고정으로 무작위로 초기화되고 다른 네트워크는 고정 네트워크에 적합하며 피팅 손실이 내재적 보상으로 사용됩니다. 그림 1(e)에서 볼 수 있듯이, 유지 보상에 대한 경험적 보상의 간섭을 줄이기 위해 이 작업에서는 별도의 비판 네트워크를 학습하여 단기 피드백과 내재적 보상의 합을 추정합니다. 바로 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?입니다.

불확실성 문제 해결

재방문 시간은 추천 이외에도 여러 요소에 영향을 받기 때문에 불확실성이 높아 학습 효과에 영향을 미치게 됩니다. 이 작업은 분산을 줄이기 위한 정규화 방법을 제안합니다. 먼저 재방문 시간 확률을 추정하기 위해 분류 모델 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?을 추정합니다. 즉, 재방문 시간이 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?보다 짧은지 추정한 다음 Markov 불평등을 사용하여 더 낮은 값을 얻습니다. 재방문 시간의 경계, 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?; 마지막으로 실제 재방문 시간/예상 재방문 시간 하한이 정규화된 재방문 보상으로 사용됩니다.

편향 문제 해결

다양한 활성 그룹의 행동 습관의 큰 차이로 인해 고활성 사용자의 유지율이 높고 훈련 샘플의 수가 기존보다 훨씬 많습니다. 활성이 낮은 사용자로 인해 실시간 사용자 주도의 모델 학습이 과대평가됩니다. 이 문제를 해결하기 위해 이 작업은 다양한 고활동 그룹과 저활동 그룹에 대한 2가지 독립적인 전략을 학습하고 학습을 위해 서로 다른 데이터 스트림을 사용합니다. 배우는 보조 보상을 최대화하면서 재방문 시간을 최소화합니다. 그림 1(c)에서 볼 수 있듯이 활동량이 많은 그룹을 예로 들면 배우 손실은 다음과 같습니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

불안정한 문제 해결

재방문 시간의 신호 지연으로 인해 일반적으로 몇 시간에서 며칠 내에 돌아오므로 RL 온라인 교육이 불안정해질 수 있습니다. 그러나 기존의 행동 복제 방법을 직접적으로 사용하는 것은 학습 속도를 크게 제한하거나 안정적인 학습을 보장하지 못합니다. 따라서 이 연구에서는 액터 손실에 소프트 정규화 계수를 곱하는 새로운 소프트 정규화 방법을 제안합니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

이 정규화 방법은 본질적으로 제동 효과입니다. 현재 학습이 편차인 경우 전략과 샘플 전략 사이의 크기가 크면 손실이 작아지고 학습이 안정됩니다. 학습 속도가 안정되면 손실이 다시 커지고 학습 속도가 빨라집니다. 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?이면 학습 과정에 제한이 없음을 의미합니다.

오프라인 실험

이 작업은 RLUR을 State of the Art의 강화 학습 알고리즘 TD3 및 공개 데이터 세트 KuaiRand의 블랙박스 최적화 방법인 Cross Entropy Method(CEM)와 비교합니다. 이 작업은 먼저 KuaiRand 데이터 세트를 기반으로 유지 시뮬레이터를 구축합니다. 세 가지 모듈(사용자 즉각적인 피드백, 사용자 세션 종료, 사용자 재방문)을 포함하고 이 유지 시뮬레이터 평가 방법을 사용합니다.

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

표 1은 재방문 시간 및 2차 유지 지표 측면에서 RLUR이 CEM 및 TD3보다 훨씬 우수하다는 것을 보여줍니다. 이 연구는 RLUR을 유지 학습 부분(RLUR(순진))과 비교하기 위해 절제 실험을 수행합니다. 이는 유지 문제를 해결하기 위한 이 연구 접근 방식의 효율성을 설명할 수 있습니다. 그리고 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?의 비교를 통해 단일 세션의 재방문 시간을 최소화하는 것보다 여러 세션의 재방문 시간을 최소화하는 알고리즘이 더 나은 것으로 나타났습니다.

온라인 실험

강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?

이 작업은 Kuaishou 짧은 동영상 추천 시스템에서 A/B 테스트를 수행하여 RLUR과 CEM 방법을 비교합니다. 그림 2는 각각 RLUR 및 CEM과 비교하여 앱 개봉 빈도, DAU, 첫 번째 유지율, 7번째 유지율의 개선 비율을 보여줍니다. 앱을 여는 빈도가 점차 증가하고 심지어 0일부터 100일까지 수렴되는 것을 확인할 수 있습니다. 또한 2차 유지, 7차 유지 및 DAU 지표의 개선을 주도합니다(0.1% DAU 및 0.01% 2차 유지 개선은 통계적으로 유의미한 것으로 간주됩니다).

요약 및 향후 작업

이 논문은 RL 기술을 통해 추천 시스템의 사용자 유지를 개선하는 방법을 연구합니다. 이 작업은 무한한 범위 요청 세분성을 갖춘 Markov 의사 결정 프로세스로 유지 최적화를 모델화합니다. 보존을 직접 최적화하고 신호 보존과 관련된 몇 가지 주요 문제를 효과적으로 해결합니다. RLUR 알고리즘은 Kuaishou 앱에서 완전히 구현되었으며 상당한 2차 유지 및 DAU 수익을 달성할 수 있습니다. 향후 작업과 관련하여 오프라인 강화 학습, Decision Transformer 및 기타 방법을 사용하여 사용자 유지율을 보다 효과적으로 향상시키는 방법은 유망한 방향입니다.

위 내용은 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 ​​할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유Apr 12, 2025 am 11:41 AM

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.