首頁  >  文章  >  科技週邊  >  使用者畫像演算法:歷史、現況與未來

使用者畫像演算法:歷史、現況與未來

WBOY
WBOY轉載
2024-04-11 13:40:18854瀏覽

一、使用者畫像簡介

畫像是一種人類可理解的、機器可讀寫的,對使用者的結構化描述。它不僅可以提供個人化服務,還在企業的策略決策和商業分析中發揮了重要作用。

1. 畫像的分類

#依資料來源分為社會通識類別與領域知識類別。社會通識類畫像又可依時間維度劃分為靜態類和動態類,最常見的靜態類社會通識類畫像包含人口統計學特徵,例如性別、戶籍、畢業學校等,這些內容在相對長一段時間視窗裡都是相對靜態的,除了圖片用到它,人口統計、人群學和社會學等中也常會用到。動態社會通識類畫像則更為重要,也稱為人生階段畫像,舉個電商的例子,人的收入會隨著職業發展不斷變化,其購物傾向也會發生變化,所以這些人生階段的畫像是非常有實際價值的。

除了上述通識類別畫像,企業內部可能更多的是去建構領域知識類別畫像。領域知識類別畫像從時間的維度上面可分成半靜態和動態,進一步可細分為長期性、週期性、短期性和未來屬性的畫像。這些時間維度畫像又和概念領域糾纏在一起,概念領域包含了行為模型、興趣模型和意圖模型。

行為模型主要是追蹤使用者週期性行為,例如使用者每天早上通勤時間會做什麼、晚上下班以後會做什麼、周中工作日會做什麼、週末會做什麼等一些週期性行為。興趣模型則是對領域知識內的標籤進行一定的聯合建模與排序,例如用戶和APP 等平台產品進行交互後可以得到一些操作日誌,日誌可以關聯解析出結構化、標籤化的一些數據,我們可以把它們分門別類,同時賦予一定的權重,最終排序形成一定的興趣畫像。需要注意的是意圖模型更多的是未來式的,是對使用者未來意圖的預測。但是在新用戶還沒有進行互動的時候,如何事先預知其可能的意圖呢?這個問題就更偏向即時的、未來的畫像,也對畫像資料的整體基建結構有更高的要求。

使用者畫像演算法:歷史、現況與未來

2. 使用者畫像基礎應用架構

了解影像的概念以及大致分類後,接著簡單介紹一下使用者畫像的基礎應用框架。整個框架可以分為四個層次,首先是資料收集,其次是資料預處理,再次是基於這些處理好的資料進行畫像的建構和更新,最後是應用層,在應用層定義一個使用協議,讓下游各種各樣的應用能夠比較方便、快速、有效率地使用畫像。

我們可以從這個框架中發現,使用者畫像應用程式以及使用者畫像演算法需要懂得的內涵特別的廣、特別的雜,因為我們面對的不僅是簡單的、標籤化的、文字類別的數據,還有各種多模態的數據,可能是音訊、視訊或圖文,需要透過各種預處理手段才能得到高品質的數據,然後建立更信賴的畫像。這裡會涉及到資料探勘、機器學習、知識圖譜、統計學習等各個面向。使用者畫像與傳統搜尋推薦演算法的不同之處是,我們需要和領域專家密切合作,才能不斷在迭代和循環中建立更高品質的畫像。

使用者畫像演算法:歷史、現況與未來

##二、基於本體論(Ontology)的傳統用戶畫像

使用者畫像是透過對使用者行為資料和資訊進行深度分析後建立起來的概念。透過理解使用者的興趣、喜好和行為模式,可以更好地為使用者提供個人化的服務和體驗。

在早期,使用者畫像主要依賴知識圖譜,知識圖譜源自於本體論(Ontology)的概念。而本體論,則屬於哲學範疇。首先本體論的定義和畫像的定義非常相似,就是人類可理解、機器可讀寫的一個概念系統。當然這個概念系統本身的複雜程度可以非常高,它是由實體、屬性、關係和公理所組成的。基於Ontology 的使用者畫像,它的好處是便於對使用者及內容進行分類,並且方便生產出可供人類直觀理解的數據報告,再根據報告的相關結論進行決策,這也是為什麼非深度學習時代會選擇這一技術形態。

接下來介紹 Ontology 中一些基本的概念。要建構一個 Ontology,首先要把領域知識進行概念化,也就是建構實體、屬性、關係和公理,並處理成機器可讀取的格式,例如 RDF 和 OWL。當然,也可以用一些比較簡單的資料格式,甚至可能是把 Ontology 退化成關聯式資料庫或是圖資料庫可儲存讀寫和分析的格式。這種畫像的獲得方式,一般都是透過領域專家構建,或是基於已有的一些行業標準,去進行豐富和細化。例如淘寶採用的商品標籤體係其實也是藉鏡了國家對於各種各樣的製造商品產業的公開標準,並在這個基礎之上豐富和迭代的。

使用者畫像演算法:歷史、現況與未來

下圖是一個非常簡單的Ontology 的例子,其中包含了3 個節點,圖中的實體是文娛領域的一個興趣標籤,例如在奈飛等平台裡面有很多電影,每個電影都有唯一的ID 標識,然後每個電影又有自己的屬性,比如標題、主演,這個實體同時又屬於犯罪題材系列,而犯罪系列又屬於動作電影裡的子類。我們根據該視覺化的圖去寫成如下圖右邊的RDF 文本文檔,在該文檔裡除了前面我們能夠直觀理解的實體屬性關係外,還定義了一些公理,比如裡邊約束了“has title”只能作用於電影這個基本概念域,如果有其他概念域,例如用電影的導演作為實體去建構到Ontology 裡面的時候,電影導演就不能擁有「has title」的屬性了。以上就是關於本體論的一些簡單介紹。

使用者畫像演算法:歷史、現況與未來

在基於本體論去做使用者畫像的早期時代,會用類似TF-IDF 的方法對建構出來的結構化標籤計算權重。 TF-IDF 過去主要用於搜尋領域或文字主題領域,主要是對某個搜尋字詞或主題詞的權重進行計算,應用到使用者畫像裡面只需稍微加點限制和變形即可,例如上個例子中的TF 就是去數一下用戶觀看該類標籤的電影或短視頻的數量,IDF 則是先統計用戶每一類標籤下的觀影或短視頻數量和所有歷史觀看總量,再根據圖中公式計算IDF 和TF *IDF。 TF-IDF 的計算方式非常直且效果穩定,同時也能解釋、好用。

但它的缺點也很明顯:TF-IDF 對標籤顆粒度非常敏感,但是又對Ontology 結構本身是不敏感的,它可能會存在過度強調冷門興趣而導致平凡解的情況,例如用戶只偶爾看了某一個標籤下的某一個視頻,TF 會非常小,IDF 會特別大,TF-IDF 有可能會變成一個和它的熱門興趣接近的值。更重要的是,我們需要隨著時間維度進行更新、調整使用者畫像,而傳統的 TF-IDF 方法則不太適合這種情況。因此,研究人員提出了新的方法,基於本體論的結構化表達直接建構使用者帶權重的畫像以滿足動態更新的需求。

使用者畫像演算法:歷史、現況與未來

#

演算法從Ontology 的葉子類別開始,使用使用者在對應標籤下的媒體消費行為來更新權重,權重初始化為0,然後根據使用者行為定義的fbehavior 函數進行更新。 fbehavior 函數會依照使用者消費的不同程度,給予不同的隱式回饋訊號,例如電商領域的點擊、加購和下單,或是影片領域的播放和完成度。同時對不同的使用者行為我們也會給予不同強度的回饋訊號,例如電商消費行為裡,下單>加購>點擊,影片消費裡,更高的播放完成度、更高的播放時間等也會設定更強的fbehavior 值。

葉子類別目標簽權重更新後,需要更新父類別權重,需要注意的是更新父類別時需要定義一個小於1 的衰減係數。因為,如圖所示,使用者可能對「戰爭」中的「二戰」這個子類目感興趣,但是對其​​他戰爭主題不一定感興趣。這個衰減係數可以作為一個超參數進行自定義,這樣定義是強調每個子類興趣對父類貢獻的平等性,也可以用子類標籤數的倒數來作為衰減係數,這樣更多的強調小眾的興趣,例如某些大型父類節點包含的子類主題廣泛且關係不緊密,它們之間的受眾面取決於作品數量,通常情況下這種作品數量會非常非常多,衰減速度可以適當設置快一點,而較小的分類別標籤可能是一些小眾興趣,作品也不多,子類主題間的關係會比較緊密,衰減速度可適當設定小一點。總之,我們可以根據 Ontology 中定義的這些領域知識屬性來設定衰減係數。

使用者畫像演算法:歷史、現況與未來

以上方式可以做到結構化標籤的更新效果,也基本上能夠打平甚至超越TF-IDF 效果,但是它缺少一個時間尺度屬性,即如何建構一個對時間尺度較敏感的畫像。

我們先想到可以對權重本身的更新去做進一步調整。當需要區分長短期用戶畫像時,可以在權重上添加一個滑動窗口,並定義一個時間衰減係數a (0-1之間),滑動窗口的作用是只關注窗口期內的用戶行為,對窗口前的進行丟棄,原因是用戶的長期興趣也會隨著人生階段的變化而進行緩慢變化,例如用戶可能會喜歡某一類題材的電影一兩年,之後就不喜歡了。

此外,大家也可能觀察到這個公式和帶動量的Adam 梯度更新方式有異曲同工之妙,我們透過調節a 的大小讓權重的更新在一定程度上更側重於歷史或當下。具體來說,當給予一個較小的 a 時,會更側重於當下,然後歷史累積會有較大的衰減。

使用者畫像演算法:歷史、現況與未來

以上的方法論都被限制在使用者已經接收到了的資訊裡,但我們通常也會遇到大量的標籤遺失的情況,以及用戶冷啟動或在用戶可能沒有接觸到這一類內容但不代表用戶不喜歡的情況。在這些情況下就需要進行興趣補全和興趣推斷了。

最基礎的方法就是藉用推薦系統中的協同過濾進行畫像補全,假設有一個標籤矩陣,橫軸是用戶,縱軸是各個標籤,這個超大規模矩陣裡面的元素就是使用者對這個標籤的興趣,這些元素可以是0 或1,也可以是興趣權重。當然也可以改造這個矩陣,使其適應人口統計的畫像,例如可以將標籤表達成是否是學生,或者是否是職業者,或者哪種職業等,也可以用一種編碼方式去構造這個矩陣,同樣也可以去應用矩陣分解的方式去得到矩陣分解,然後補全缺失的特徵值,這個時候優化目標如下圖的公式。

在這個公式裡可以看到,原矩陣為M,補全矩陣為X,外加一個約束,這個約束是希望數值不缺失的地方,X 和M 是盡可能接近的,同時也希望X 是低秩矩陣,因為我們假設大量使用者的興趣是相似的,在這個相似使用者的假設下,標籤矩陣一定是低秩的,最後對這個矩陣做一個正規化,完成非負矩陣分解的目標。這個方法其實也可以用我們最熟悉的隨機梯度下降的方法去進行求解。

使用者畫像演算法:歷史、現況與未來

當然,除了以矩陣分解的方式進行缺失屬性或興趣的推斷,也可以使用傳統機器學習的方法。還是假設相似的使用者會有相似的興趣,這時就可以用KNN 分類或回歸的方式去進行興趣推斷,具體做法為,建立用戶近鄰關係圖譜後,將用戶近k 個近鄰裡面最多的標籤或標籤權重均值賦值給使用者缺失的屬性。近鄰關係圖可以是自己建構的,也可以是現成的近鄰圖結構,例如社群網路的使用者畫像,或是 B 端的企業畫像--企業圖譜。

使用者畫像演算法:歷史、現況與未來

以上就是 Ontology 建構傳統畫像的介紹。傳統畫像建構演算法的價值在於其非常簡單、直接、易於理解,且容易實現,同時其效果也不錯,因此並不會完全被更高階演算法取代,尤其是當我們需要對畫像進行debug 時,這一類傳統演算法會具有更大的便利性。

三、畫像演算法&深度學習

1 . 深度學習演算法之於畫像演算法的價值

進入深度學習時代後,大家希望結合深度學習演算法進一步提升畫像演算法的效果。深度學習之於畫像演算法到底有哪些價值?

首先肯定是有更強大的使用者表徵能力,在深度學習以及機器學習領域,有一個專門的門類--表徵學習,或者是metric learning,這種學習方法可以幫助我們去建構非常強大的使用者表徵。其次是更簡單的建模流程,我們可以利用深度學習端到端(end to end)的方式簡化建模流程,很多時候只需要構造好特徵,做一些特徵工程,然後把神經網路當成黑盒將特徵輸入進去,並在輸出端定義好標籤或其他的監督訊息,而無須注意其間的細節。

再一次,深度學習在強大的表達能力基礎上,我們也在很多任務上面得到了更高的準確度。接著,深度學習還可以將多模態的資料統一建模。傳統演算法時代我們需要在資料預處理上耗費大量精力,例如上文提到的對視訊類型標籤擷取需要非常複雜的預處理,先把影片切斷,然後擷取主題,再辨識出其中的人臉,逐一打上對應的標籤,最後再去建立畫像。有了深度學習後,想要一個統一的使用者或 item 表現時,可以端到端直接處理多模態的資料。

最後,我們希望在迭代中盡可能地降壓成本。前文中提到畫像演算法的迭代和搜推廣等其他類目的演算法迭代的不同之處是需要很多的人工參與。有些時候最可靠的數據就是人去標註的,或是透過問卷等方式收取來的數據,這些數據的獲取成本是相當高的,那麼如何以更低成本獲得更有標註價值的數據呢?這個問題也在深度學習時代有了更多的想法和解決方案。

使用者畫像演算法:歷史、現況與未來

2. 基於深度學習的結構化標籤預測

C-HMCNN 是對Ontology 結構化標籤進行預測的經典深度學習方法,它並不是一個fancy 的網路結構,而是定義了一個適合標籤,尤其是適合結構化的標籤分類或預測的演算法框架。

其核心是把層次化的結構化標籤拍平再預測,如下圖右側所示,該網路直接給出A\B\C 三個標籤的預測機率,不需要考慮結構的層次、深度等。它的Loss 公式設計也能夠盡可能地懲罰違反結構化標籤的結果,公式首先對葉子類目B 和C 用經典的交叉熵Loss,對父類類目則用max(yB pB,yCpC)來約束結構訊息,只有在子類別類別被預測為真時才預測父類別類別目A,用1- max(pB,pC)來表達,當父類別目標簽為假時,強制子類別類別目的預測盡可能也接近0,從而實現對結構化標籤的約束。這樣建模的好處在於計算 Loss 非常簡單,它對所有的標籤一視同仁地進行預測,幾乎可以無視標籤樹深度資訊。

最後要提到的一點就是這個方法要求每個標籤都是0 或1,例如P只代表使用者喜歡或不喜歡,而不能設定成多分類,因為多分類的LOSS 限制會比較難成立,所以模型建模時相當於把所有標籤全部拍平了,然後進行0、1 預測。拍平可能帶來的一個問題是,當標籤樹結構裡父類標籤有海量子標籤時就會面臨一個超大規模的多標籤分類問題,一般的處理方式是用一些手段提前過濾掉用戶很可能不感興趣的標籤。

使用者畫像演算法:歷史、現況與未來

3. 基於表徵學習的lookalike

在使用者畫像的應用環節,lookalike 這一思想常被用到。在畫像下游應用程式可以用 lookalike 去做廣告潛在用戶群的定向,也可以基於種子用戶利用 lookalike找到一些缺少目標屬性的用戶,然後把這些用戶相對應的缺失屬性用種子用戶去進行替換或表達。

Lookalike 的應用最需要的是一個強大的表徵學習器,如下圖所示,最常用的有三類表徵建模方式。

第一種是多分類方式,如果我們有多種分類標籤畫像數據,可以在有監督訊號的情況下學到更有針對性的表徵,針對我們想要去預測的某一類標籤進行預測所訓練所得到的表徵對於定向的標籤缺失預測非常有價值。

第二種是AE( auto encoder) 範式,模型結構是一個沙漏形式,不需要關注監督訊息,而只需要找到一種encoding 模式,先把使用者encoding 出來,然後在中間細腰的地方做資訊壓縮並得到表徵,這種範式在沒有足夠的監督數據時比較可靠。

第三種是圖範式,目前GNN 和GCN 之類的圖網絡的應用領域越來越廣,在畫像裡面也一樣,而且GNN 可以基於最大似然的方法進行無監督訓練,也可以在有標籤資訊的情況下進行有監督訓練,並且優於多分類範式。因為圖結構除了表達標籤資訊以外,還可以 embedding 進去更多圖結構的資訊。當沒有顯示的圖結構的情況下,也有很多方式去構建圖,比如電商領域的知名推薦算法swing i2i,根據用戶的共同購買或者共同觀看記錄構建二部圖,這樣的圖結構也是有非常豐富的語意資訊的,可以幫助我們學到更好的使用者表徵。當有了豐富的表徵以後,我們可以選定一些種子用戶去用最近鄰檢索進行擴圈,然後透過擴圈擴到的用戶進行丟失標籤的推斷,或者 targeting。

使用者畫像演算法:歷史、現況與未來

在小規模的應用上面去做最近鄰檢索是很容易的,但是在超大規模的資料上面,例如有幾億月活用戶的大平台上面,對這些用戶進行KNN 檢索是一個非常耗時的事情,因此目前最常用的方式是近似最近鄰檢索,其特點是用精度換效率,在保證接近99% 精度的同時把檢索的時間壓縮到原來暴力檢索的1/ 1000,1/ 10000,甚至1/ 100000。

目前近似最近鄰檢索的有效方法都是基於圖索引的向量檢索演算法,這些方法在當下的大模型時代被重新推向了一個高潮,也就是前段時間大模型裡面最火的一個概念-- RAG(檢索增強生成),檢索增強對文本檢索採用的核心手段就是向量檢索,最常用的方法就是基於圖的向量檢索,最廣泛應用到的方法有HNSW、 NSG 和SSG,後兩者的原版開源程式碼和實作連結也放在下圖中。

使用者畫像演算法:歷史、現況與未來

4. 基於主動學習的畫像迭代

在進行畫像迭代的過程中,仍然有一些盲點是無法覆蓋的,例如有一些低消費行為的用戶畫像還是沒辦法很好地定位,最後很多方法還是會回退到人工收集方式。然而,我們有這麼多低活用戶,如果可以只在其中選擇更有價值、有代表性的用戶去進行標註,就可以收集到更有價值的數據,因此我們引入了主動學習框架,主動學習加上不確定學習實現低成本的畫像迭代。

首先基於已有的標註的數據,訓練一個不確定性預測的分類模型,使用的方法是機率學習領域裡面的經典方法--貝葉斯網路。貝葉斯網路的特徵是預測的時候不僅可以給出機率,同時還可以預測出它對這個預測結果的不確定性。

貝葉斯網路非常容易實現,如下圖右側所示,在原有的網路結構上面增加一些特殊層就可以了,我們在這些網路中間增加一些drop out層,去隨機丟棄前饋網路的一些參數。貝葉斯網絡包含多個子網絡,其中每一個網絡參數完全相同,但由於dropout 層的特性,在隨機丟棄時每個網絡參數被隨機丟棄的可能性是不一樣的,在最後訓練好網絡進行推理的時候也保留drop out,這和drop out 在其他領域的應用方式不一樣。其他領域只有在訓練的時候 drop out,在推理的時候會應用全部參數,只是在最後計算 logit 和機率值時,對 drop out 帶來的一個預測值的 scale 倍增情況做一個還原。

貝葉斯網路不同的地方是,在前饋推理的時候要保留所有的drop out 隨機性,這樣每一個網路都會給出這個標籤的一個不同的機率,然後對這一組機率求出平均值,這個平均值其實就是一種投票的結果,也是我們想要預測的機率值,同時對這一組機率值做一個變異數的計算用來表達預測的不確定度。當一個樣本經歷了不同的 drop out 參數表達以後,最後得到的機率值是不一樣的,機率值方差越大,代表學習過程中的機率確定性越小。最後就可以對不確定度高的標籤預測樣本進行人工標註,對確定度高的標籤則直接採納機器打標的結果。然後再不斷回到主動學習框架的第一步進行循環,以上就是主動學習的基本架構。

使用者畫像演算法:歷史、現況與未來

5. 基於大模型世界知識的肖像標註/預測

在大模型時代,也可以引入大模型的世界知識進行畫像標註。下圖舉了兩個簡單例子,左邊是用大模型對使用者畫像進行標註,將使用者的觀影歷史按照一定序列組織起來,形成一個prompt,會看到大模型能給出非常詳盡的分析,例如該用戶可能喜歡什麼類型、什麼導演、什麼演員等等。右邊是大模型對一個商品的標題進行分析,給出商品標題讓大模型去推測其屬於哪些類目。

到這裡我們發現一個很大的問題是大模型的輸出是非結構化的,是比較原始的文字表達,還需要一些後處理的過程。例如需要對大模型的輸出進行實體辨識、關係辨識與規則挖掘、實體對齊等等,而這些後處理又屬於知識圖譜或 Ontology 範疇裡面的基礎應用規則。

為什麼用大模型的世界知識做畫像標註會有更好的效果,甚至可以取代部分人工?因為大模型是在廣泛的開放網路的知識上進行訓練的,而推薦系統、搜尋引擎等只擁有自己封閉平台裡的用戶和商品庫之間的一些歷史交互數據,這些數據實際上是一些ID 化的系統日誌,其中許多相互關聯的關係很難透過現有平台裡的封閉知識進行詮釋,但大模型的世界知識可以幫助我們填補封閉系統所缺少的這部分知識,從而幫助我們更好地進行畫像的標註或預測。大模型甚至可以理解為一種高品質的對於世界本身的概念系統的抽象刻畫,這些概念系統非常適合去做畫像和標籤體系。

使用者畫像演算法:歷史、現況與未來

#四、總結與展望

################# ######最後簡單總結使用者畫像目前存在的限制,以及未來的發展方向。 ############首要問題是如何進一步提高現有畫像的準確度。阻礙準確度提升的因素有以下幾個方面,首先是從虛擬ID 到自然人的統一,現實中一個用戶有多個設備去登錄同一個帳號,也可能有多個端口、多個渠道登錄,比如用戶登入不同的APP,但這些APP 同屬於同一個集團,我們是否可以在集團內部進行自然人的拉通,把所有的虛擬ID 映射到同一個人,然後把它識別出來。 ######

第二是對於家庭共享帳戶的主體人識別問題。這個問題在影片領域非常常見,尤其是長影片領域,我們常常會遇見一些badcase,例如用戶明明是個40 歲左右的成年人,推薦的卻全是動畫片,其實是一個家庭共用一個帳號,每個人的興趣是不一樣的。針對這種情況,能否透過一些手段辨識當下的時間和行為模式,從而即時地、快速地去更新畫像,然後確定當前的主體人到底是誰,再針對性地提供個人化的服務。

第三是多場景連動的即時意圖預測。我們發現平台發展到一定階段,其搜推廣畫像還是比較割裂的,比如有時一個用戶剛剛有踏入過推薦場景,現在準備搜索,我們是否可以根據剛剛推薦場景的實時意圖給出一個更好的搜尋推薦詞,或是剛搜過一個東西,能否根據這個意圖擴散,預測出使用者可能想要看到的一些其他類目的東西,去做意圖預測。

從封閉式的 Ontology 到開放式 Ontology 的過渡也是畫像領域亟待解決的問題。在之前很長一段時間裡採用的是一些比較固化的行業標準來定義Ontology,但現在很多系統的Ontology 是完全開放增量更新的,比如短視頻平台,短視頻的各種各樣的標籤本身是使用者和平台在共同創作下不停自發生長、爆發的狀態,有許多熱詞、熱門標籤,是隨著時間的推進不停湧現的。如何在開放式的 Ontology 上提升畫像的時效性,去除噪音,然後去更多地探索和利用一些手段幫助我們提升畫像的準確度,也是一個值得研究的問題。

最後,在深度學習時代,如何在畫像演算法裡面,尤其是應用了深度學習的畫像演算法裡面提升可解釋性,以及如何更好地讓大模型在畫像演算法中落地,這些都將是未來研究的方向。

使用者畫像演算法:歷史、現況與未來

以上就是這次分享的內容,謝謝大家!

五、Q & A

Q1:畫像的處理與實際應用連結非常長,實際業務中採用AB test 的驗收效果可能會有很多問題,請問傅聰老師在畫像的AB test 方面有什麼經驗分享嗎?

A1:畫像的應用連結確實比較長。如果你的畫像主要服務對像是演算法,那確實從畫像的精確度提升到傳導下游的這些模型是有一個精確度的損失 gap。我其實不是特別建議做畫像AB test,我覺得可能更好的一個應用方式是去找運營人員,在用戶圈選還有廣告定投等這種偏運營性質的一些應用場景,比如大促的優惠券定向投放等場景上進行AB Test。因為它們的效果是直接基於你的畫像來施加影響的,所以可以考慮這種鏈路比較短的應用方合作線上 AB test。另外,我可能會建議除了 AB test 以外,也考慮一下另外一種 test 方式--交叉檢驗,給一個用戶同時去推薦基於優化前後畫像的排序結果,然後讓用戶去評估哪個更好。比如說我們現在可以看到的某些大模型廠商會讓模型輸出兩個結果,然後讓使用者決定哪個大模型產出的文字比較好。其實類似這種交叉檢驗,我覺得可能效果更好,而且它和畫像本身是直接關聯的。

Q2:貝葉斯網路測試集上也有 drop out?

A2:不是說在測試集上有drop out,而是說我們在測試推理的時候,依然會將網絡裡面的drop out 的隨機特性保留下來進行隨機推理。

Q3:考慮隱私安全性問題,在客戶資料無法匯出的前提下,如何利用大模型的成果。

A3:很坦誠地說,目前業界沒有一個非常好的方案。但可能有兩種方式,一種是考慮互信的第三方去做在地化大模型的推理部署。另外一種,也是最近的新概念叫做聯邦網絡,不是聯邦學習,可以去看看聯邦網絡所包含的一些可能性。

Q4:與大模型結合,除了標註方面還有其他的結合可以提一下嗎?

A4:除了標註方面,還有使用者的一些分析和推理。可以基於現有的畫像,推測使用者的下一次的意圖,或者說把大量的使用者資料匯集起來,用大模型的方式去分析一些地區性的,或其他限制限制下的使用者模式。這個其實也是有一些開源 Demo,可以去探索一下這個方向。

以上是使用者畫像演算法:歷史、現況與未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除