짧은 동영상 추천 시스템의 핵심 목표는 사용자 유지율을 높여 DAU 성장을 촉진하는 것입니다. 따라서 리텐션은 각 APP의 핵심 비즈니스 최적화 지표 중 하나입니다. 그러나 리텐션은 사용자와 시스템 간의 여러 상호 작용 이후의 장기적인 피드백이므로 단일 항목이나 단일 목록으로 분해하기 어렵기 때문에 기존 포인트 방식 및 목록 방식 모델에서는 직접적으로 수행하기가 어렵습니다. 보존을 최적화합니다.
강화 학습(RL) 방법은 환경과 상호 작용하여 장기적인 보상을 최적화하며 사용자 유지를 직접적으로 최적화하는 데 적합합니다. 이 작업은 사용자가 추천 시스템에 조치를 결정하도록 요청할 때마다 다양한 단기 피드백 추정치를 집계하는 데 사용됩니다. 좋아요, 팔로우, 댓글, 리트윗 등) 순위 모델 점수를 매깁니다. 이 작업의 목표는 정책을 학습하고, 여러 사용자 세션 간의 누적 시간 간격을 최소화하고, 앱 실행 빈도를 높여 사용자 유지율을 높이는 것입니다.
그러나 보유 신호의 특성으로 인해 기존 RL 알고리즘을 직접 적용하는 데에는 다음과 같은 문제가 있습니다. 1) 불확실성: 보유 신호는 추천 알고리즘에 의해 결정될 뿐만 아니라 많은 외부 요인의 간섭을 받습니다. 2) 편향: 보유 신호는 다양합니다. 기간과 활동 수준이 다른 사용자 그룹에 차이가 있습니다. 3) 불안정성: 즉시 보상을 반환하는 게임 환경과 달리 보유 신호는 일반적으로 몇 시간에서 며칠 내에 반환됩니다. RL 알고리즘의 온라인 교육이 불안정합니다.
본 연구에서는 위의 과제를 해결하고 리텐션을 직접적으로 최적화하기 위해 RLUR(Reinforcement Learning for User Retention) 알고리즘을 제안합니다. 오프라인 및 온라인 검증을 통해 RLUR 알고리즘은 State of Art 기준에 비해 2차 보존 지수를 크게 향상시킬 수 있습니다. RLUR 알고리즘은 Kuaishou 앱에서 완벽하게 구현되었으며 지속적으로 상당한 2차 리텐션과 DAU 수익을 달성할 수 있습니다. 실제 제작 환경에서 사용자 리텐션을 향상시키기 위해 RL 기술이 사용된 것은 업계 최초입니다. 이 작업은 WWW 2023 산업 트랙에 승인되었습니다.
저자: Cai Qingpeng, Liu Shuchang, Wang Xueliang, Zuo Tianyou, Xie Wentao, Yang Bin, Zheng Dong, Jiang Peng
논문 주소: https://arxiv.org/ pdf/2302.01724 .pdf
Problem Modeling
그림 1(a)에서 볼 수 있듯이 이 작업은 보존 최적화 문제를 추천 시스템이 에이전트인 무한 지평선 요청 기반 Markov 결정 프로세스로 모델링합니다. 사용자는 환경입니다. 사용자가 앱을 열 때마다 새 세션 i가 열립니다. 그림 1(b)에서 볼 수 있듯이 사용자가 요청할 때마다 추천 시스템은 사용자 상태
에 따라 매개변수 벡터
를 결정하고 동시에 n개의 서로 다른 단기 항목의 순서를 추정합니다. 지표(시청 시간, 좋아요, 관심도 등) 모델은 각 후보 동영상 j
에 점수를 매깁니다. 그런 다음 정렬 기능은 각 동영상의 동작과 채점 벡터를 입력하여 각 동영상의 최종 점수를 얻고 가장 높은 점수를 받은 6개의 동영상을 선택하여 사용자에게 표시하면 사용자는 즉시 피드백
을 반환합니다. 사용자가 앱을 떠나면 이 세션이 종료됩니다. 사용자가 다음에 앱을 열 때 세션 i+1이 열립니다. 이전 세션이 끝나고 다음 세션이 시작될 때까지의 시간 간격을 반환 시간( 복귀시간),
. 본 연구의 목표는 여러 세션에 대한 콜백 시간의 합을 최소화하는 전략을 훈련하는 것입니다.
RLUR 알고리즘
이 연구에서는 먼저 누적 재방문 시간을 추정하는 방법을 논의한 다음 유지된 신호의 몇 가지 주요 과제를 해결하는 방법을 제안합니다. 이러한 방법은 RLUR로 약칭되는 사용자 유지 알고리즘을 위한 강화 학습으로 요약됩니다.
재방문 시간 추정
그림 1(d)와 같이 행위가 연속적이므로 본 연구에서는 DDPG 알고리즘의 시간차(TD) 학습 방법을 사용하여 재방문 시간을 추정한다. .
각 세션의 마지막 요청에만 재방문 시간 보상이 있으므로 중간 보상은 0이므로 작성자가 할인 요소를 설정합니다. 각 세션의 마지막 요청 값은
, 기타 요청은 1입니다. 이 설정을 사용하면 재방문 시간이 기하급수적으로 감소하는 것을 방지할 수 있습니다. 그리고 손실(1)이 0일 때 Q는 실제로 여러 세션의 누적 반환 시간
을 추정한다는 것이 이론적으로 입증될 수 있습니다.
보상 지연 문제 해결
재방문 시간은 각 세션이 끝날 때만 발생하므로 학습 효율성이 떨어지는 문제가 발생합니다. 따라서 저자는 정책 학습을 강화하기 위해 경험적 보상을 사용합니다. 단기 피드백은 유지와 긍정적인 관련이 있기 때문에 저자는 단기 피드백을 첫 번째 경험적 보상으로 사용합니다. 그리고 저자는 두 번째 휴리스틱 보상으로 각 샘플의 내재적 보상을 계산하기 위해 RND(Random Network Distillation) 네트워크를 채택했습니다. 구체적으로 RND 네트워크는 두 개의 동일한 네트워크 구조를 사용합니다. 하나의 네트워크는 고정으로 무작위로 초기화되고 다른 네트워크는 고정 네트워크에 적합하며 피팅 손실이 내재적 보상으로 사용됩니다. 그림 1(e)에서 볼 수 있듯이, 유지 보상에 대한 경험적 보상의 간섭을 줄이기 위해 이 작업에서는 별도의 비판 네트워크를 학습하여 단기 피드백과 내재적 보상의 합을 추정합니다. 바로 입니다.
불확실성 문제 해결
재방문 시간은 추천 이외에도 여러 요소에 영향을 받기 때문에 불확실성이 높아 학습 효과에 영향을 미치게 됩니다. 이 작업은 분산을 줄이기 위한 정규화 방법을 제안합니다. 먼저 재방문 시간 확률을 추정하기 위해 분류 모델 을 추정합니다. 즉, 재방문 시간이
보다 짧은지 추정한 다음 Markov 불평등을 사용하여 더 낮은 값을 얻습니다. 재방문 시간의 경계,
; 마지막으로 실제 재방문 시간/예상 재방문 시간 하한이 정규화된 재방문 보상으로 사용됩니다.
편향 문제 해결
다양한 활성 그룹의 행동 습관의 큰 차이로 인해 고활성 사용자의 유지율이 높고 훈련 샘플의 수가 기존보다 훨씬 많습니다. 활성이 낮은 사용자로 인해 실시간 사용자 주도의 모델 학습이 과대평가됩니다. 이 문제를 해결하기 위해 이 작업은 다양한 고활동 그룹과 저활동 그룹에 대한 2가지 독립적인 전략을 학습하고 학습을 위해 서로 다른 데이터 스트림을 사용합니다. 배우는 보조 보상을 최대화하면서 재방문 시간을 최소화합니다. 그림 1(c)에서 볼 수 있듯이 활동량이 많은 그룹을 예로 들면 배우 손실은 다음과 같습니다.
불안정한 문제 해결
재방문 시간의 신호 지연으로 인해 일반적으로 몇 시간에서 며칠 내에 돌아오므로 RL 온라인 교육이 불안정해질 수 있습니다. 그러나 기존의 행동 복제 방법을 직접적으로 사용하는 것은 학습 속도를 크게 제한하거나 안정적인 학습을 보장하지 못합니다. 따라서 이 연구에서는 액터 손실에 소프트 정규화 계수를 곱하는 새로운 소프트 정규화 방법을 제안합니다.
이 정규화 방법은 본질적으로 제동 효과입니다. 현재 학습이 편차인 경우 전략과 샘플 전략 사이의 크기가 크면 손실이 작아지고 학습이 안정됩니다. 학습 속도가 안정되면 손실이 다시 커지고 학습 속도가 빨라집니다. 이면 학습 과정에 제한이 없음을 의미합니다.
오프라인 실험
이 작업은 RLUR을 State of the Art의 강화 학습 알고리즘 TD3 및 공개 데이터 세트 KuaiRand의 블랙박스 최적화 방법인 Cross Entropy Method(CEM)와 비교합니다. 이 작업은 먼저 KuaiRand 데이터 세트를 기반으로 유지 시뮬레이터를 구축합니다. 세 가지 모듈(사용자 즉각적인 피드백, 사용자 세션 종료, 사용자 재방문)을 포함하고 이 유지 시뮬레이터 평가 방법을 사용합니다.
표 1은 재방문 시간 및 2차 유지 지표 측면에서 RLUR이 CEM 및 TD3보다 훨씬 우수하다는 것을 보여줍니다. 이 연구는 RLUR을 유지 학습 부분(RLUR(순진))과 비교하기 위해 절제 실험을 수행합니다. 이는 유지 문제를 해결하기 위한 이 연구 접근 방식의 효율성을 설명할 수 있습니다. 그리고 과
의 비교를 통해 단일 세션의 재방문 시간을 최소화하는 것보다 여러 세션의 재방문 시간을 최소화하는 알고리즘이 더 나은 것으로 나타났습니다.
온라인 실험
이 작업은 Kuaishou 짧은 동영상 추천 시스템에서 A/B 테스트를 수행하여 RLUR과 CEM 방법을 비교합니다. 그림 2는 각각 RLUR 및 CEM과 비교하여 앱 개봉 빈도, DAU, 첫 번째 유지율, 7번째 유지율의 개선 비율을 보여줍니다. 앱을 여는 빈도가 점차 증가하고 심지어 0일부터 100일까지 수렴되는 것을 확인할 수 있습니다. 또한 2차 유지, 7차 유지 및 DAU 지표의 개선을 주도합니다(0.1% DAU 및 0.01% 2차 유지 개선은 통계적으로 유의미한 것으로 간주됩니다).
요약 및 향후 작업
이 논문은 RL 기술을 통해 추천 시스템의 사용자 유지를 개선하는 방법을 연구합니다. 이 작업은 무한한 범위 요청 세분성을 갖춘 Markov 의사 결정 프로세스로 유지 최적화를 모델화합니다. 보존을 직접 최적화하고 신호 보존과 관련된 몇 가지 주요 문제를 효과적으로 해결합니다. RLUR 알고리즘은 Kuaishou 앱에서 완전히 구현되었으며 상당한 2차 유지 및 DAU 수익을 달성할 수 있습니다. 향후 작업과 관련하여 오프라인 강화 학습, Decision Transformer 및 기타 방법을 사용하여 사용자 유지율을 보다 효과적으로 향상시키는 방법은 유망한 방향입니다.
위 내용은 강화 학습을 사용하여 Kuaishou 사용자 유지율을 향상시키는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Apollo Research의 새로운 보고서에 따르면 고급 AI 시스템의 점검되지 않은 내부 배치는 상당한 위험을 초래합니다. 주요 AI 기업들 사이에서 널리 퍼져있는 이러한 감독 부족은 uncont에서 범위에 이르는 잠재적 인 치명적인 결과를 허용합니다.

전통적인 거짓말 탐지기는 구식입니다. 손목 대역으로 연결된 포인터에 의존하는 것은 대상의 활력 징후와 물리적 반응을 인쇄하는 거짓말 탐지기가 거짓말을 식별하는 데 정확하지 않습니다. 그렇기 때문에 거짓말 탐지 결과는 일반적으로 법원에서 채택되지는 않지만 많은 무고한 사람들이 감옥에 갇히게되었습니다. 대조적으로, 인공 지능은 강력한 데이터 엔진이며, 작동 원리는 모든 측면을 관찰하는 것입니다. 이것은 과학자들이 다양한 방식으로 진실을 찾는 응용 분야에 인공 지능을 적용 할 수 있음을 의미합니다. 한 가지 방법은 거짓말 탐지기처럼 심문을받는 사람의 중요한 부호 반응을 분석하지만보다 상세하고 정확한 비교 분석을 분석하는 것입니다. 또 다른 방법은 언어 마크 업을 사용하여 사람들이 실제로 말하는 것을 분석하고 논리와 추론을 사용하는 것입니다. 말이 갈 때, 한 거짓말은 또 다른 거짓말을 번식시키고 결국

혁신의 선구자 인 항공 우주 산업은 AI를 활용하여 가장 복잡한 도전을 해결하고 있습니다. Modern Aviation의 복잡성 증가는 AI의 자동화 및 실시간 인텔리전스 기능이 필요합니다.

로봇 공학의 빠른 발전은 우리에게 매혹적인 사례 연구를 가져 왔습니다. Noetix의 N2 로봇의 무게는 40 파운드가 넘고 키가 3 피트이며 백 플립을 할 수 있다고합니다. Unitree의 G1 로봇의 무게는 N2 크기의 약 2 배이며 키는 약 4 피트입니다. 경쟁에 참여하는 작은 휴머노이드 로봇도 많으며 팬이 앞으로 나아가는 로봇도 있습니다. 데이터 해석 하프 마라톤은 12,000 명 이상의 관중을 끌어 들였지만 21 명의 휴머노이드 로봇 만 참여했습니다. 정부는 참여 로봇이 경쟁 전에 "집중 훈련"을 수행했다고 지적했지만 모든 로봇이 전체 경쟁을 완료 한 것은 아닙니다. 챔피언 -Tiangong Ult Beijing Humanoid Robot Innovation Center가 개발했습니다.

인공 지능은 현재 형태로 진정으로 지능적이지 않습니다. 기존 데이터를 모방하고 정제하는 데 능숙합니다. 우리는 인공 지능을 만들지 않고 오히려 인공적인 추론을 만들고 있습니다.

보고서에 따르면 Google Photos Android 버전 7.26 코드에 업데이트 된 인터페이스가 숨겨져 있으며 사진을 볼 때마다 새로 감지 된 얼굴 썸네일 행이 화면 하단에 표시됩니다. 새로운 얼굴 썸네일에는 이름 태그가 없으므로 탐지 된 각 사람에 대한 자세한 정보를 보려면 개별적으로 클릭해야한다고 생각합니다. 현재이 기능은 Google 사진이 이미지에서 찾은 사람들 외에는 정보를 제공하지 않습니다. 이 기능은 아직 사용할 수 없으므로 Google이 어떻게 정확하게 사용할 것인지 모릅니다. Google은 썸네일을 사용하여 선택된 사람들의 더 많은 사진을 찾는 속도를 높이거나 편집 할 개인을 선택하는 것과 같은 다른 목적으로 사용될 수 있습니다. 기다렸다가 보자. 지금은

강화 결합은 인간의 피드백을 기반으로 조정하도록 모델을 가르치면서 AI 개발을 흔들었다. 감독 학습 기초가 보상 기반 업데이트와 혼합되어 더 안전하고 정확하며 진정으로 도움을줍니다.

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.
