開卷有益,是我們一直以來的體認。閱讀可以幫助人們提升自己的語言能力、學習到新的技能....
閱讀也能改善情緒,提升心理健康程度。經常閱讀的人有更豐富的常識以及對其他文化更深入的理解。
並且,有研究證實愉悅閱讀與學業成功有關。
但在資訊爆炸的時代,線上與線下的閱讀資源都十分豐富。讀什麼,就成為了一項艱鉅的挑戰。
尤其是閱讀的內容既要符合不同的年齡階段,又要引人入勝。
而推薦系統則是這個挑戰的解決方案。它能夠向讀者呈現相關的閱讀材料,並幫助他們保持閱讀的興趣。
推薦系統的核心是機器學習(Machine learning, ML),它被廣泛應用於建立各種類型的推薦系統:從影片到圖書,再到電商平台等。
經過訓練的ML 模型可以根據使用者偏好、使用者參與度和推薦的項目單獨向每個使用者進行推薦,從而改善使用者體驗。
Google最新的研究提出了一種考慮到閱讀的社會性質(如教育環境)的有聲書內容推薦系統:STUDY演算法。
由於一個人的同儕目前正在閱讀的內容會對他們感興趣的閱讀內容有重大影響,因此,Google與Learning Ally進行了合作。
Learning Ally是一家教育非營利組織,擁有一個針對學生的大型精選有聲讀物數位圖書館,非常適合建立社交推薦模式。
這能使模型能夠從有關學生本地化社交群體的(如教室)即時資訊中獲益。
STUDY演算法採用了將建議內容問題建模為點擊率預測問題的方法。
其中模擬使用者與每個特定項目的互動機率取決於:
1)使用者和項目特徵
2)該使用者的項目互動歷史序列。
先前的工作顯示Transformer模型非常適合建模這個問題。
當單獨處理每個使用者時,模擬互動就成為了自迴歸序列建模問題。
STUDY演算法是透過這個概念架構對資料建模,然後對這個框架進行擴展的最終成品。
點擊率預測問題可以對個別使用者過去和未來的專案偏好之間的依賴關係進行建模,並且可以在訓練時學習使用者之間的相似性模式。
但有一個問題是,點擊率預測的方法無法對不同使用者之間的依賴關係進行建模。
為此,Google開發了STUDY模型,可以解決自迴歸序列建模中無法對閱讀的社會性質進行建模的缺陷。
STUDY可以將多個學生在一個課堂上閱讀的書籍序列連接成一個序列,從而在一個模型中收集多個學生的資料。
但是,在使用Transformer對這種資料表示進行建模時,需要仔細研究這種資料表徵。
在Transformer中,注意力掩碼是控制哪些輸入可用來預測哪些輸出的矩陣。
在序列中使用所有先前的token來為輸出的預測提供資訊的模式,會導致上三角形注意力矩陣,它一般會在因果解碼器中被發現。
然而,由於輸入進STUDY模型的序列不是按時間順序的,儘管它的每個組成子序列都是按時間順序,傳統的因果解碼器也不再適合這種序列。
在試圖預測每個token時,模型不允許注意力轉向序列中出現在它之前的每個token;其中一些token可能具有較晚的時間戳,並包含部署時不可用的資訊中。
圖片
因果解碼器中通常使用的注意力遮罩。每一列代表一個輸出,每一列代表一個輸出。矩陣條目在特定位置的值為1(顯示為藍色),表示模型在預測對應列的輸出時可以觀察到該行的輸入,而值為0(顯示為白色)則表示相反。
STUDY 模型以因果轉換器為基礎,將三角矩陣注意力掩碼替換為基於時間戳記的靈活注意力掩碼,從而允許跨不同子序列的注意力。
與普通轉換器相比,STUDY 模型在一個序列中保持一個因果三角注意矩陣,並在不同序列中具有靈活的值,這些值取決於時間戳記。
因此,序列中任何輸出點的預測都會參考相對於目前時間點過去發生的所有輸入點,無論它們是出現在序列中目前輸入點之前還是之後。
這個因果約束非常重要,因為如果在訓練時不執行此約束,模型就有可能學會利用未來的資訊進行預測,而這在現實世界的部署中是無法實現的。
圖片
(a)一個具有因果注意力的順序自回歸變換器,它可以單獨處理每個用戶;(b)一個等效的聯合前向傳遞,其計算結果與(a)相同;(c)透過在註意力遮罩中引入新的非零值(紫色顯示),允許資訊在用戶間流動。為此,研究者允許預測以時間戳較早的所有交互為條件,而不論交互是否來自同一用戶
Google使用Learning Ally資料集來訓練STUDY模型,並使用多個基準進行比較。
團隊使用了自回歸點擊率轉換解碼器(稱之為「個人」)、k-近鄰基準(KNN)和可比較的社會基準-社會注意力記憶網路(SAMN)。
他們使用第一學年的資料進行訓練,使用第二學年的資料進行驗證和測試。
團隊透過測量使用者實際互動的下一個項目,在模型的前n個建議中的時間百分比,來評估這些模型。
除了在整個測試集上對模型進行評估外,團隊還報告了模型在測試集的兩個子集上的得分,這兩個子集比整個資料集更具挑戰性。
可以觀察到,學生通常會與有聲書進行多次互動,因此,簡單地推薦用戶閱讀的最後一本書,就顯得微不足道。
因此,研究者將第一個測試子集稱為「非延續」,在這個子集中,我們只考察每個模型在學生與不同於前一次互動的書籍進行互動時的建議表現。
另外,團隊也觀察到,學生們會重溫他們過去讀過的書,因此,將為每個學生推薦的書本限制在他們過去讀過的書本範圍內,就可以在測試集上取得很好的表現。
儘管向學生推薦他們過去最喜歡的書籍可能有一定的價值,但推薦系統的大部分價值還是來自於向用戶推薦新的、未知的內容。
為了衡量這一點,團隊在測試集的子集上對模型進行了評估,在這個子集上,學生們第一次與書目互動。我們將這個評估子集命名為「新子集」。
可以發現,「STUDY 」在幾乎所有評估中,都優於其他模型。
圖片
##STUDY演算法的核心是將使用者分組,並在模型的單次前向傳遞中對同組的多個使用者進行聯合推斷。
研究人員透過一項消融研究,檢視了實際分組對模型表現的重要性。
在提出的模型中,研究人員將同一年級和學校的所有學生分組。
然後試驗了由同一年級和同一學區的所有學生定義的分組,以及將所有學生歸入一個組中,並在每次前向傳遞時使用隨機子集的分組。
研究人員也將這些模型與 「個人」模型進行了比較,以供參考。
研究發現,使用更本地化的小組更有效,即學校和年級分組優於學區和年級分組。
這支持了一個假設,即研究模式之所以成功,是因為閱讀等活動具有社會性:人們的閱讀選擇很可能與周圍人的閱讀選擇相關聯。
在不使用年級對學生進行分組的情況下,這兩種模式的表現都優於其他兩種模式(單一小組模式和個人模式)。
這表明,閱讀程度和興趣相似的使用者的資料有利於提高模型的效能。
最後,Google的這項研究是僅限於假定社交關係是同質的用戶群進行建模的。
參考資料:
https://www.php.cn/link/0b32f1a9efe5edf3dd2f38b0c0052bfe
###################################################################### ##以上是你的朋友也在看! GoogleSTUDY演算法加持書單推薦系統,讓學生愛上閱讀的詳細內容。更多資訊請關注PHP中文網其他相關文章!