作者| 汪昊
已審校| 重樓
#說到21 世紀互聯網的技術,除了
Python / Rust / Go等一系列新型程式語言的誕生,資訊檢索技術的蓬勃發展也是一大亮點。網路上第一個純科技商業模式就是以Google和百度代表的搜尋引擎技術。然而讓大家臆想不到的是,推薦系統誕生的年代也很久遠。早在1992 年,人類歷史上第一個推薦系統就以論文的形式發表出來了,而在這個時候,谷歌和百度還沒有誕生。 不像搜尋引擎那樣被人們認為是剛需,很快就誕生了許多獨角獸。以推薦系統為核心技術的科技公司要等到2010 年代今日頭條和抖音崛起後才會出現。毫無疑問,今日頭條和抖音成為了推薦系統最成功的代表性公司。如果說第一代資訊檢索技術搜尋引擎是美國人先發制人,那麼第二代資訊檢索技術推薦系統就被牢牢的控制在中國人手中。而我們現在遇到了第三代資訊檢索技術—— 基於大語言模型的資訊檢索。目前來看先發者是歐美國家,但目前中美正齊頭並進。 近年來,推薦系統領域的權威會議RecSys 頻頻將最佳論文獎頒給序列推薦(Sequential Recommendation)。這說明該領域目前越來越重視垂直應用。而有一個推薦系統的垂直應用是如此重要,但至今都沒有掀起滔天巨浪,這個領域就是基於場景的推薦(
Context-aware Recommendation),簡稱CARS。我們偶爾會見到有些CARS 的Workshop
###,但是這些######Workshop ######的論文每年不超過######10 ######篇,門可羅雀。 ############CARS ######可以用來幹嘛?首先######CARS ######已經被漢堡王等速食公司使用。它還可以在使用者駕駛汽車的時候,根據場景向使用者推薦音樂。另外,我們可以暢想一下,我們有沒有可能根據天氣狀況給用戶推薦出遊計畫?抑或是根據使用者的身體狀況推薦給使用者餐飲?其實,只要我們充分的發揮自己的想像力,總是能給######CARS #######找出不同的落地應用。 ######然而問題來了,既然CARS 的用途這麼廣泛,為什麼這麼少的人發表論文?原因很簡單,因為CARS 幾乎沒有公開的資料集可以使用。目前最好用的 CARS 的公開資料集是來自斯洛維尼亞的LDOS-CoMoDa 資料集。除此之外,我們很難找到別的資料集合。 LDOS-CoMoDa 利用研究的形式提供了使用者觀影時的場景數據,使得廣大研究人員從事CARS 研究成為了可能。資料公開的時間點在2012 年到#2013 #年左右,但是目前知道這個資料集合的人很少。
言歸正傳,本文主要介紹MatMat / MovieMat 演算法和PowerMat 演算法。這些演算法都是用來解決 CARS 問題的利器。我們先來看看MatMat 是如何定義CARS 問題的:我們先重新定義使用者評分矩陣,我們把使用者評分矩陣的每一個評分值替換成方陣。方陣的對角線元素是原始的評分值,非對角線元素都是場景資訊。
我們下面定義MatMat 演算法的損失函數,該函數修改了經典的矩陣分解損失函數,形式如下:
其中U 與#V 都是矩陣。我們透過這種方式,改變了原始的矩陣分解中的向量點乘。將向量點乘變成了矩陣乘法。我們舉下面一個例子來看:
我們在MovieLens Small Dataset #上做一下效能比較實驗,得到以下結果:
可以看到,MatMat 演算法的效果優於經典的矩陣分解演算法。我們再來檢查一下推薦系統的公平性:
可以看到,MatMat 在公平性指標上表現依然不遑多讓。 MatMat 的解題過程較為複雜,即使是發明演算法的作者本人,也沒有在論文中寫出推導過程。但是俗話說的好,學好線性代數#,走遍天下都不怕。相信聰明的讀者自己一定能推導出相關的公式,並實作這個演算法。 MatMat 演算法論文的原文網址可以在下面的連結找到:https://www.php.cn/link/9b8c60725a0193e78368bf8b84c37fb2 。這篇論文是國際學術會議IEEE ICISCAE 2021 最佳論文報告獎。
MatMat 演算法被應用在了基於場景的電影推薦領域,該演算法的電影實例被命名為MovieMat#。 MovieMat 的評分矩陣是按照如下方法定義的:
作者接著做了一個比較實驗:
在LDOS-CoMoDa 資料集合上,MovieMat 取得了效能遠高於經典矩陣分解的效果。下面我們來觀察一下公平性的評估結果:
#在公平性方面,經典矩陣分解取得了優於MovieMat 的結果。 MovieMat 的原始論文可以在下面的連結找到:https://www.php.cn/link/f4ec6380c50a68a7c35d109bec48aebf 。
我們有的時候會遇到這樣的問題。我們新到了一個地點,光有場景數據,而沒有用戶評分數據該怎麼辦?不要緊,Ratidar Technologies LLC (北京達評奇智網路科技有限責任公司) 發明了基於零樣本學習的CARS 演算法—— PowerMat。 PowerMat 的原始論文可以在下面的連結中找到:https://www.php.cn/link/1514f187930072575629709336826443 。
PowerMat 的發明人借用了MAP 和DotMat,定義瞭如下的MAP 函數:
其中U 是使用者特徵向量、V 是物品特徵向量、R 是使用者評分值,而C 是場景變數。具體的,我們得到如下公式:
利用隨機梯度下降對該問題進行求解,我們得到下述公式:
#透過觀察,我們發現在這組公式裡沒有出現任何輸入資料相關的變量,因此PowerMat 是僅與場景相關的零樣本學習演算法。演算法可以應用在以下場景:遊客打算去某個地方旅遊,但從來沒有去過當地,因此只有天氣等場景數據,我們可以利用PowerMat 給遊客推薦打卡景點等等。
下面是PowerMat 和其他演算法的比較資料:
透過這張圖,我們發現PowerMat 和MovieMat 旗鼓相當,不分伯仲,而且效果都要優於經典的矩陣分解演算法。而下面這張圖顯示,即使是在公平性指標
方面,
依舊表現強勁: 透過對比實驗,我們發現PowerMat
是優秀的##CARS 演算法. 網路的資料工程師常說資料高於一切。並且在2010 年代左右互聯網有一股強勁的看好數據看衰演算法的風氣。 CARS 就是一個很好的例子。因為絕大多數人得不到相關數據,因此這個領域的發展一直受到了很大的限制。感謝斯洛維尼亞的研究人員公開了 LDOS-CoMoDa 資料集合,使得我們有機會發展這個領域。我們也希望有越來越多的人關注CARS,落地CARS
,為######CARS ## ####融資…######作者簡介
汪昊,前Funplus 人工智慧實驗室負責人。曾在ThoughtWorks、豆瓣、百度、新浪等公司擔任科技與科技主管。在網路公司和金融科技、遊戲等公司任職13 年,對於人工智慧、電腦圖形學和區塊鏈等領域有著深刻的見解和豐富的經驗。在國際學術會議和期刊發表論文42 篇,獲得IEEE SMI 2008 最佳論文獎、 ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024 最佳論文報告獎。
以上是學好線性代數,玩推薦系統的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。