>기술 주변기기 >일체 포함 >포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

WBOY
WBOY앞으로
2023-04-14 10:31:02923검색

저자 | Wang Hao

리뷰어 | Sun Shujuan

추천 시스템은 인터넷 업계에서 가장 널리 사용되는 기술 중 하나입니다. 지난 10년 동안 인터넷 업계에서는 추천 시스템 모델의 반복 버전이 수백만 개나 생산되었습니다. 다양한 시나리오에 최적화된 추천 시스템 모델은 많지만 클래식 모델은 거의 없습니다. 매트릭스 분해는 추천 시스템 분야 초기에 등장해 넷플릭스 경쟁에서 두각을 나타낸 추천 시스템 알고리즘으로, 지난 10년간 가장 성공적인 추천 시스템 알고리즘이다. 2023년 현재 추천 시스템 분야는 오랫동안 딥러닝이 지배하고 있지만, 행렬 분해는 여전히 주요 기업의 연구 개발 프로세스에서 널리 사용되고 있으며 관련 알고리즘을 연구하는 과학 연구자도 여전히 많습니다.

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

행렬 분해 알고리즘에 관한 가장 고전적인 논문은 2007 Probabilistic Matrix Factorization입니다. 이를 바탕으로 후세대에서는 2021년 RankMat(논문 다운로드 주소: https://arxiv.org/abs/2204.13016), ZeroMat(논문 다운로드 주소: https://arxiv. org /abs/2112.03084) 및 2022년 DotMat(논문 다운로드 주소: https://arxiv.org/abs/2206.00151), KL-Mat(논문 다운로드 주소: https://arxiv.org/abs/2204.13583/코드 다운로드) 주소: https://github.com/haow85/KL-Mat) 등 추천 시스템은 단순성, 사용 용이성 및 빠른 속도로 인해 인터넷 업계 엔지니어들에게 깊은 사랑을 받고 있습니다.

추천 시스템의 콜드 스타트 ​​문제는 올해 많은 주목을 받은 또 다른 연구 핫스팟입니다. 추천 시스템을 해결하기 위한 많은 실무자들의 아이디어는 전이 학습과 메타 학습입니다. 그러나 이 아이디어에는 다른 지식 분야의 데이터가 필요하다는 치명적인 결함이 있다. 많은 회사가 이 조건을 충족하지 못합니다. 실제로 데이터가 전혀 필요하지 않은 콜드 스타트 ​​알고리즘은 2021년 ZeroMat이 제안된 이후 등장했습니다. 대표적인 알고리즘으로는 앞 절에서 언급한 ZeroMat과 DotMat이 있다. 본 글에서 소개할 푸아송 행렬 분해 알고리즘(PoissonMat)은 2022년 국제학술대회 MLISE 2022에 게재된 논문이다. 논문 이름은 PoissonMat: Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem Without Input Data(논문 다운로드 주소: https://arxiv.org/abs/2212.10460)입니다.

먼저 확률적 행렬 분해의 MAP 정의를 검토합니다.

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

그런 다음 항목을 평가하는 사용자의 동작을 포아송 분포로 정의합니다. Poisson 분포의 정의에 따르면 다음 공식을 얻습니다.

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

Poisson 공식의 매개변수 정의에 따르면 다음과 같습니다.

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

Zipf 분포에 따르면 다음을 얻을 수 있습니다. 다음 공식:

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

위 공식을 기반으로 포아송 행렬 분해(PoissonMat)의 분석 형식을 얻습니다.

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

확률적 경사하강법 알고리즘을 사용하여 위 공식을 풀면 다음을 얻습니다. 알고리즘 흐름에 따른 다음 :

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘 저자는 Movielens 1 백만 데이터 세트 및 LDOS-Comoda 데이터 세트에서 알고리즘 정확도와 공정성을 실험적으로 비교했습니다. MovieLens 100만 데이터세트의 분해

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

에 대한 비교 실험

포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘

그림 2 LDOS-CoMoDa 데이터세트의 포아송 행렬 분해 비교 실험

실험적 비교 결과를 바탕으로 다음과 같은 결론을 내릴 수 있습니다. 포아송 행렬 분해(PoissonMat)가 정확도와 공정성 측면에서 더 나은 성능을 보입니다. 지표는 다른 알고리즘보다 우수합니다. 칭찬할만한 점은 포아송 행렬 분해 알고리즘이 입력 데이터를 전혀 사용하지 않고 콜드 스타트 ​​문제를 잘 해결하는 완전한 제로샷 학습 알고리즘이라는 점입니다.

마지막으로 저자는 16G RAM과 Intel Core i5를 탑재한 Lenovo 홈 노트북에서 실험을 수행했습니다. 알고리즘은 매우 빠르게 실행되고 구현도 매우 간단합니다.

추천 시스템의 콜드 스타트 ​​문제를 해결하는 것을 목표로 하는 제로샷 학습 알고리즘은 현재 연구 핫스팟입니다. 2021년 ZeroMat 알고리즘을 시작으로 제로샷 학습 문제를 해결하기 위해 어떠한 데이터도 필요하지 않은 진정한 제로샷 학습 알고리즘입니다. 본 기사에서 소개하는 포아송 행렬 분해 알고리즘(PoissonMat)은 ZeroMat 및 후속 알고리즘인 DotMat보다 성능이 뛰어나며 현재 이 분야 최고의 알고리즘 중 하나입니다. 관련 연구는 아직 초기 단계이므로 대다수 과학기술 실무자들의 관심과 관심을 끌기를 바랍니다.

저자 소개

왕하오(Wang Hao) 전 펀플러스 인공지능 연구소 소장이자 전 헝창리통 빅데이터 부서장입니다. 미국 유타대학교에서 학사(2008), 석사(2010)를 취득했습니다. 국제경영경제대학교 파트타임 MBA(2016). 추천 시스템(공정성/시나리오 기반 추천/콜드 스타트/해석성/순위 학습), 컴퓨터 그래픽(기하학적 모델링/시각화), 자연어 처리(산업 분야 구현 애플리케이션), 위험 제어 및 사기 방지(금융/의료) 다년간의 경험과 남다른 통찰력으로 다양한 방향으로 나아가고 있습니다. 그는 인터넷(Douban, Baidu, Sina, NetEase 등), 금융 기술(Hengchang Litong) 및 게임 회사(Funplus 등)에서 12년간의 기술 R&D 및 관리 경험을 보유하고 있습니다. 국제학술대회 및 저널에 30편의 논문을 게재하였고, 3개의 국제학술대회 최우수논문상/우수논문보고상(IEEE SMI 2008 최우수논문상/ICBDT 2020 최우수 구두발표상/ICISCAE 2021 최우수 구두발표상)을 수상하였습니다. 2006 ACM/ICPC 북미 로키산맥 지역 대회 금메달. 2004년 전국대학 영어능력대회 스피킹 결승 동메달. 2003년 진안대학 입학시험에서 이공계 영어 부문 1위를 차지했다.

위 내용은 포아송 행렬 분해: 데이터가 없는 추천 시스템의 콜드 스타트 ​​문제를 해결하는 행렬 분해 알고리즘의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제