首頁  >  文章  >  科技週邊  >  泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

WBOY
WBOY轉載
2023-04-14 10:31:02839瀏覽

作者 | 汪昊

審校 | 孫淑娟

推薦系統是目前網路產業最熱門的技術之一。在過去的十年中,互聯網產業誕生了數以百萬計的推薦系統模型迭代版本。儘管針對不同場景進行最佳化的推薦系統模型非常之多,但是經典的模型非常少。矩陣分解是推薦系統領域勃興早期,在 Netflix 競賽中展露頭角的推薦系統演算法,也是過去十年最為成功的推薦系統演算法。儘管到 2023 年的今天,推薦系統領域早已是深度學習的天下,矩陣分解仍然廣泛應用於各大公司研發過程中,並且仍有許多科研人員在從事相關演算法的研究工作。

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

矩陣分解演算法最為經典的論文是 2007 年的 Probabilistic Matrix Factorization 。在此基礎上,後人進行了大量的擴展工作,例如2021 年的RankMat(論文下載地址:https://arxiv.org/abs/2204.13016)、ZeroMat (論文下載地址:https://arxiv.org /abs/2112.03084) 和2022 年的DotMat (論文下載網址:https://arxiv.org/abs/2206.00151)、KL-Mat(論文下載網址:https://arxiv.org/abs/2204.13583/ 代碼下載網址:https://arxiv.org/abs/2204.13583/ 代碼下載地址:https://arxiv.org/abs/2204.13583/ 代碼下載地址地址:https://github.com/haow85/KL-Mat)等。推薦系​​統因其簡單易用性,以及速度快等原因,深受網路產業廣大工程師的喜愛。

推薦系統冷啟動問題是今年來備受關注的另一個研究熱點。許多從業者解決推薦系統的想法都是遷移學習和元學習。然而這個思路有個致命的缺點,就是需要其他知識領域的數據。而許多公司是不具備這項條件的。真正不需要任何資料的冷啟動演算法,是在 2021 年 ZeroMat 提出以後出現的。代表演算法包括上一節提到的 ZeroMat 和 DotMat。本文將要介紹的泊松矩陣分解演算法(PoissonMat)是 2022 年國際學術會議MLISE 2022所發表的論文。論文的名稱是PoissonMat:Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data(論文下載網址:https://arxiv.org/abs/2212.10460)。

我們先回顧一下Probabilistic Matrix Factorization的MAP定義:

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

我們接著定義使用者為物品評分這一行為為泊松分佈。根據泊松分佈的定義,我們得到以下公式:

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

#根據泊松公式中參數的定義,我們有:

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

#根據齊夫分佈,我們可以得到以下公式:

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

##綜合以上公式,我們得到泊松矩陣分解(PoissonMat)的解析形式:

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

#採用隨機梯度下降演算法求解以上公式,我們得到如下演算法流程:

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

作者隨後在MovieLens 1 Million Dataset 和LDOS-CoMoDa Dataset 上進行了演算法準確率和公平性的實驗對比:

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

#圖1 泊松矩陣分解在MovieLens 1 Million Dataset 上的對比實驗

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

#

泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法

圖2 泊松矩陣分解在LDOS-CoMoDa Dataset 上的對比實驗

根據實驗對比效果,我們可以得出以下結論:泊松矩陣分解(PoissonMat)在準確率和公平性指標方面都優於其他演算法。而且難能可貴的是,泊松矩陣分解演算法沒有用到任何輸入數據,是徹頭徹尾的零樣本學習演算法,很好的解決了冷啟動問題。

最後,作者是在 16G RAM 和 Intel Core i5 的聯想家用筆記本上做的實驗,演算法運行速度飛快,實現也非常簡單。

以解決推薦系統冷啟動問題為目標的零樣本學習演算法,目前是研究熱點。而不需要任何資料解決零樣本學習問題的真正的零樣本學習演算法,始自 2021 年的 ZeroMat 演算法。本文介紹的泊松矩陣分解演算法(PoissonMat)效能優於 ZeroMat 及其後續演算法 DotMat,是目前這一領域最優秀的演算法之一。由於相關研究仍處於起步階段,希望能引起廣大科技從業人員的注意與重視。

作者介紹

汪昊,前 Funplus 人工智慧實驗室負責人,前恆昌利通大數據部負責人。本科 (2008 年)和碩士(2010年)畢業於美國猶他大學(University of Utah)。對外經貿大學在職 MBA (2016年)。在推薦系統(公平性/基於場景的推薦/冷啟動/可解釋性/排序學習)、電腦圖形學(幾何建模/視覺化)、自然語言處理(工業界的落地應用)、風控反詐欺(金融/醫療)等方向有多年的經驗和獨特的見解。在網路(豆瓣、百度、新浪、網易等)、金融科技(恆昌利通)和遊戲公司(Funplus等)有 12 年的技術研發和管理經驗。在國際學術會議和期刊發表論文 30 篇,獲得國際會議最佳論文獎 / 最佳論文報告獎 3 次 (IEEE SMI 2008 Best Paper Award / ICBDT 2020 Best Oral Presentation Award / ICISCAE 2021 Best Oral Presentation Award)。 2006 年 ACM/ICPC 北美落磯山脈區域賽金牌。 2004 年全國大學生英語能力競賽口語決賽銅牌。 2003 年濟南市高考科英語狀元。

以上是泊松矩陣分解:無需資料解決推薦系統冷啟動問題的矩陣分解演算法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除