搜尋
首頁科技週邊人工智慧有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

推薦系統作為一種智慧化的資訊過濾技術,已在實際場景中廣泛的應用。然而,推薦系統的成功往往建立在大量的使用者資料之上,而這些資料可能涉及使用者的私密和敏感資訊。在使用者資訊受到隱私保護限製或無法取得的場景下,傳統的推薦系統往往難以發揮良好的效果。因此,如何在確保隱私安全性的前提下,建立可信賴的推薦系統,是亟待解決的問題。


近年來,隨著用戶對自身隱私的重視程度不斷提高,越來越多的用戶傾向於在使用線上平台時不進行登入操作,這也使得匿名的基於會話的推薦成為一個重要的研究方向。近日,來自香港科技大學、北京大學、微軟亞研等機構的研究者提出了一個高效利用多層用戶意圖的新模型 Atten-Mixer。研究論文獲得 WSDM2023 最佳論文榮譽提名。


有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer


論文鏈接:https://dl.acm.org/doi/abs/10.1145/3539597.3570445


研究背景


研究背景


基於會話的推薦(Session-based recommendation, SBR) 是一種基於使用者在短暫、動態的會話(即使用者的行為序列)進行建議的方法。


與傳統的基於使用者或物品的推薦系統相比,SBR 更著重於捕捉使用者在目前會話中的即時需求,能夠更有效地適應使用者興趣的快速演化和長尾效應的挑戰。


有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer在SBR 模型的演進過程中,從基於循環神經網路(Recurrent Neural Network, RNN) 的模型,到基於卷積神經網絡(Convolutional Neural Network, CNN) 的模型,再到近期的SBR 研究中廣泛採用基於圖神經網路(Graph Neural Network, GNN) 的模型來更好地挖掘物品之間複雜的轉移關係。



#然而,這些模型在基準資料集上的效能提升與其模型複雜度的指數級成長相比顯得十分有限。面對這種現象,本文提出瞭如下問題:這些基於 GNN 的模型是不是對於 SBR 來說太簡單或太複雜了?


初步分析


#為了回答這個問題,作者試圖解構現有的基於GNN 的SBR 模型,並分析它們在SBR 任務上的作用。


一般來說,典型的基於GNN 的SBR 模型可以分解為兩個部分:


(1)GNN 模組。參數可分為圖卷積的傳播權重和將原始嵌入和圖卷積輸出融合的 GRU 權重。 


(2)Readout 模組。參數包括用於產生長期表示的注意力池化權重和用於產生會話表示以進行預測的轉換權重。



#########接下來,作者分別在這兩個部分上採用Sparse Variational Dropout(SparseVD),一種常用的神經網路稀疏化技術,並在訓練模型時計算參數的密度比(density ratio)。 ################

參數的 density ratio 指的是參數的權重中大於某個閾值的元素數與總元素數的比例,其數值可用來衡量參數的重要性。


有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer


GNN 模組。

 

#由於GNN 有許多參數,隨著隨機初始化,一開始會有許多要更新的知識。因此我們可以看到圖卷積傳播權重的 density ratio 在一開始的幾個 batch 資料上會有波動。 隨著訓練趨於穩定,該 density ratio 會趨於 0。

 

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

#Readout 模組。


我們可以發現,隨著訓練的進行,注意力池化權重的density ratio 可以保持在一個較高水平。

在其他資料集和其他 GNN-based SBR 模型上,我們也可以觀測到相同的趨勢。

因此,作者發現 GNN 模組的許多參數在訓練過程中都是冗餘的。基於此,作者提出了以下用於SBR 的更簡單而更有效的模型設計準則: 

#(1) 不過分追求複雜的GNN 設計,作者傾向於刪除GNN 傳播部分,只保留初始嵌入層

; (2) 模型設計者應該更專注於基於注意力的Readout 模組


由於注意力池化權重參數保持了較高的密度比,作者推測在基於注意力的readout 方法上進行更先進的架構設計將會更有利。

由於本文放棄了對 GNN 傳播部分的依賴,Readout 模組應該承擔更多模型推理上的責任。

考慮到現有的基於實例視圖(instance-view) 的Readout 模組的推理能力有限,本文需要設計具有更強的推理能力的Readout 模組。

如何設計一個具有更強推理能力的Readout 模組

根據精神病理學的研究,人類推理本質上是一種多層次資訊處理的過程。

例如,透過綜合考慮Alice 互動的底層商品,人類可以獲得一些更高層次的概念,例如Alice 是否打算籌備婚禮或裝飾新房子。在確定 Alice 很可能是在籌備婚禮後,人類接著會考慮與花束相關的婚禮用品,如婚禮氣球,而不是與花束相關的裝飾用品,如壁畫。

在推薦系統中採用這種多層次推理策略可以幫助剪枝大量的搜尋空間,避免局部最優解,透過考慮用戶的整體行為趨勢,收斂到更令人滿意的解決方案。

因此,本文希望在Readout 模組設計中引入這種多層推理的機制


##########

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

然而,獲得這些高層概念不是一件容易事,因為單純地列舉這些高層概念並不現實,並且很可能引入無關的概念並幹擾模型的表現。

為了回應這個挑戰,本文採用兩個SBR 相關的歸納偏移(inductive biases): 即局部不變性(local invariance) 和固有優先權(inherent priority),來縮減搜尋空間

  • 固有優先級指的是session 中後幾個item 更能反映使用者目前的興趣; 
  • ##局部不變性指的是session 中後幾個item 的相對順序並不影響使用者的興趣,因此在實務上可以透過不同數目的尾部item 形成group,透過這些group 來建構相關的高層概念。

在這裡尾部 item 對應固有優先級,group 對應局部不變性,而不同數目則代表本文考慮多層的高層概念。

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

提出模型

因此,本文提出了一個名為 Atten-Mixer 的模型。該模型可以與各種編碼器整合。對於輸入 session,模型從 embedding 層中取得每個 item 的 embedding。然後,模型對產生的 group representation 套用 linear transformation,以產生多層使用者意圖查詢(multi-level user intent queries)。

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

其中Q1 是instance-view attention query,而其他的則是更高層級的attention query,具有不同的感受野和局部不變訊息。接下來,模型使用產生的 attention queries 來 attend 該 session 中每個 item 的 hidden state,並獲得最終的 session representation。

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

實驗及結果

在離線實驗中,本文採用了三個不同領域的數據集:Diginetica 是電子商務交易的資料集,Gowalla 是社交網路的資料集,Last.fm 是音樂推薦的資料集。

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

#離線實驗結果

(1)整體比較

#(1)整體比較

作者將Atten-Mixer 與基於CNN、基於RNN、基於GNN 和基於readout 的四種基準方法進行了比較。 有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

實驗結果表明,Atten-Mixer 在三個資料集上都在準確性和效率方面超越了基準方法。

(2) 效能提升分析

#此外,作者還將Atten-Mixer 模組嵌入到SR-GNN 和SGNN-HN 中,以驗證此方法對原始模型的效能提升作用。

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

離線實驗結果顯示,Atten-Mixer 在所有資料集上都顯著提升了模型效能,尤其是在評估指標中的K 值較小時,說明Atten-Mixer 能夠幫助原始模型產生更精確和用戶友好的推薦。

############線上實驗結果##########

作者还于 2021 年 4 月将 Atten-Mixer 部署到了大规模电商在线服务中,线上实验显示多级注意力混合网络 (Atten-Mixer) 在各种线上业务指标上都取得了显著提升。

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

实验结论

总结一下,Atten-Mixer 具备多级推理能力,在准确性和效率方面展现了优异的在线和离线性能。以下是一些主要贡献:

  • 复杂的模型架构并不是 SBR 的必要条件,而基于注意力的 readout 方法的创新架构设计则是一种有效的解决方案。
  • 多级概念相关性有助于捕捉用户的兴趣,利用归纳偏差是发现信息丰富的高阶概念的有效途径。

研究过程

最后,值得一提的是,这篇文章在获得 WSDM2023 最佳论文荣誉提名的背后还有一段曲折的开发经历,如文章作者之一来自 UIUC 的 Haohan Wang 介绍的那样,这篇文章其实先后因为太过简单而在投稿过程中拒绝过多次,值得庆幸的是,文章的作者并没有为了中文章而去迎合审稿人的口味,而是坚持了自己简单的方法,并最终让这篇文章获得了荣誉。

有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

以上是有效率地利用多層用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具