首頁  >  文章  >  科技週邊  >  演算法在 58 畫像平台建置中的應用

演算法在 58 畫像平台建置中的應用

WBOY
WBOY轉載
2024-05-09 09:01:10505瀏覽

算法在 58 画像平台建设中的应用

一、58 畫像平台建立背景

先和大家分享下 58 畫像平台的建置背景。

1. 傳統的畫像平台

算法在 58 画像平台建设中的应用

#傳統的想法已經不夠,建構使用者畫像平台依賴資料倉儲建模能力,整合多業務線數據,建構準確的使用者畫像;還需要資料探勘,理解使用者行為、興趣和需求,提供演算法側的能力;最後,還需要具備資料平台能力,有效率地儲存、查詢和共享使用者畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。

2. 58 中台畫像建置的背景

算法在 58 画像平台建设中的应用

58 的使用者畫像平台建置主要源自於下列幾種業務需求:

  • 個人化推薦:業務方需要基於使用者畫像做千人千面的內容分發。
  • 精細化營運:產品營運需要畫像平台提供人群洞察、人群圈選等功能對不同人群做更精細的營運活動。
  • 用戶價值成長:粗放式流量成長已經過去,如何利用畫像平台做好存量用戶價值成長是相當迫切的需求。

3. 萬象

算法在 58 画像平台建设中的应用

#為了解決當前業務需求和外部環境挑戰,我們提出了UA CDP MA 這一套使用者畫像平台解決方案。透過OneID 服務建立用戶畫像基礎數據,結合流量和人群洞察,利用演算法智慧生成人群,並匹配物料進行精準行銷。同時監測效果並回收數據,優化策略迭代人群。為業務方提供智慧化成長解決方案,實現精準營運和業務成長。

二、演算法在58 畫像平台建構中的作用

算法在 58 画像平台建设中的应用

演算法側在58 使用者畫像平台的建設主要包括兩個方面,一個是標籤體系的建設,另一個是平台能力的建構。

1. 標籤系統的建置

萬象標籤系統包含社會屬性、地理位置、行為習慣、偏好屬性、使用者分層等多個分類,一共有1500 餘個標籤。我們根據生產方式分為兩種:

  • 事實類別標籤:數倉同學利用統計或規則,透過 SQL 等開發生產。
  • 演算法類別標籤:演算法團隊透過資料探勘等手段加工生產。

2. 演算法類別標籤範例

算法在 58 画像平台建设中的应用

#演算法類別標籤可根據資料來源和粒度分類。如性別、年齡、業務傾向等標籤,資料來源一般為結構化數據,常作為分類任務處理,模型可選用 XGBoost、DeepFM 等。還有租屋目的標籤,需要從使用者瀏覽的貼文文字中辨識使用者目的,這類標籤資料來源為非結構化數據,可以用文字分類等方式處理。在我們的內容偏好標籤中,例如使用者在不同業務的貼文偏好 topN,則需要建立離線的推薦流程來生產這類標籤。

3. 以內容偏好標籤為例解釋標籤的流程

算法在 58 画像平台建设中的应用

以內容類偏好標籤為例,生產該標籤需建立離線推薦流程。面對百萬甚至更多的帖子,我們首先透過召回階段進行初步篩選,採用熱門、規則、協同過濾等方法,如圖卷積神經網路(LightGCN)和雙塔(DSSM)模型等。然後,基於召回的帖子,利用 Pointwise 方式透過 CTR 模型進行排序。最終產出用戶最感興趣的 Top N 貼文。在實際應用中,以 push 場景為例,可以從 Top 1 貼文中提取關鍵屬性,產生個人化文案。同時,落地頁可以是 Top 1 貼文的詳情頁或 Top N 貼文的清單頁。

算法在 58 画像平台建设中的应用

在生產內容偏好類別標籤時,考慮到58 同城業務的地理和類別特性,使用者在推薦中通常只對特定地域或類別目的貼文感興趣。因此,在向量化召回(如使用 EGES 模型)時,可能會出現大量異地或非本類目的貼文。為解決這個問題,我們將城市資訊以16 進位表示,將0 替換為-1,然後將此編碼直接拼接到先前生成的向量中,這樣做可以確保同城市或同類目的帖子在相似度計算中具有最大相似性,從而提高召回和推薦的準確性。

在排序階段,利用多模態訊息,包含文字內容,以提升建議的準確性。例如貼文標題作為文字特徵,可以採用 BERT、M3E 等預訓練模型進行 embedding 表示。然而,由於貼文數量龐大,這對計算資源構成了挑戰。為解決這個問題,我們採用了 Spark NLP,這是一個基於 Apache Spark Machine Learning 的自然語言處理函式庫。儘管原生庫中沒有中文的 BERT 模型,但透過一些轉換,我們成功地將其應用於大規模離線推理。

算法在 58 画像平台建设中的应用

在 58 同城用戶畫像平台的功能建構中,演算法同樣發揮核心作用。以智慧營運能力為例,我們利用流量地圖辨識不同業務之間的相關性,為業務方提供營運建議或結論。業務方可根據這些建議直接透過智慧圈人功能產生營運人群包,並對接到對應管道進行投放。投放效果可以透過平台進行監測,並根據效果數據進行迭代優化,從而不斷提升營運效果。

算法在 58 画像平台建设中的应用

演算法是如何發揮作用的呢?接下來分成幾個環節來介紹。首先是流量地圖這一塊。我們利用 OLAP 資料探勘和資料視覺化技術,深入分析 58APP 用戶在不同業務之間的瀏覽情況。透過分析和加工這些數據,可以展示使用者在不同業務之間的流轉路徑,為營運團隊提供直覺的使用者行為視圖。在這個過程中,演算法不僅可以幫助我們辨識出使用者的行為模式,還可以透過關聯分析等技術,挖掘出不同業務之間的相關性。這些相關性為我們提供了寶貴的營運建議,支援營運團隊進行交叉營運。

算法在 58 画像平台建设中的应用

在得到營運建議後,營運團隊可以透過智慧圈人功能來圈選目標人群。為了實現這一目標,營運團隊需要先配置個人化營運目標,明確目標是拉新、促活還是促轉等。接著,需要設定期望達到的效果,包括人群包的大小和預期的投放效果等。此外,營運團隊還需要選擇適合的投放管道,以確保目標族群能夠接收相關的營運活動資訊。

算法在 58 画像平台建设中的应用

產生人群包的過程對於營運團隊來說是一個黑盒子。為了解決這個問題,我們提供了更多關於演算法原理和步驟的解釋和說明,以便營運團隊更好地理解和應用該技術。同時,我們提供了更多的視覺化工具和介面,幫助營運團隊直觀地查看和分析人群包的特徵和效果。

在產生人群包的過程中,我們主要採用了 Look-alike 技術。在這項技術的演進上,我們經歷了幾個階段,前期借鑒 Yahoo 的方案,將人群包的產出分為召回和排序模組。召回模組,首先構建所有用戶的特徵向量,然後採用minHash 和局部敏感哈希技術進行特徵向量的壓縮,並通過類似聚類分桶的方法實現了近似於k-NN 的檢索,快速計算種子用戶與候選人群之間的兩兩相似度,選取topN 作為每位種子使用者的召回人群。在排序階段,首先使用 Information Value 進行特徵篩選,然後基於篩選後的特徵計算分數值,最後根據分數進行排序,最終產出人群包。在整個過程中,演算法起到了關鍵作用,確保了人群包的準確性和有效性。

算法在 58 画像平台建设中的应用

除了基於相似度的方案,同樣基於機器學習的方式也有不錯的效果。在實際應用程式中,使用者可以透過場景圈人或種子人群上傳兩種方式發起請求。差別在於種子人群由使用者上傳還是我們自動挖掘。在拿到種子人群,也就是正樣本後,我們需要選擇負樣本,可以暴力的全域隨機負採樣,也可以用 PU learning 或 TSA 等演算法完成負樣本的選取。接下來是特徵選擇階段,分為兩種方案,一種是提前預製人工挑選的特徵,經過固定的特徵工程,可以使用DeepFM 等模型完成訓練和CTR 的預估,根據CTR 選擇TopN 作為人群包;還有一個方案是我們使用全量的標籤作為特徵,透過IV 值和相關性自動化挑選和剔除特徵,然後使用AutoML 框架完成特徵工程、模型訓練,最後對58App 的人群池進行推理,並根據TopN 產出人群包,對接到渠道進行觸達,最後回收投放效果資料來完成樣本選擇迭代。

上述方案有一些值得關注的點,首先是樣本的迭代,回收效果數據時,不僅需要對曝光數據進行篩選,同時需要對未曝光數據,也就是 Exposure Bias 做 Debias 處理。同時迭代後的效果需要離線評估驗證,確保迭代的效果。此外,特徵方面也需要考慮穿越問題,特別是拉新場景,需要考慮特徵選擇的時間因素。

算法在 58 画像平台建设中的应用

隨著營運場景中累積的數據越來越多,我們開始嘗試利用這些數據進行離線實驗,以優化我們的迭代方案。其中之一就是基於騰訊微信的 Look-alike 方式,它採用後設學習的方法。具體來說,這種方法透過建立一個泛化模型,在離線階段完成模型的構建,然後在線上階段利用少量的資料集進行客製化模型的訓練,並進行推理工作。當這種方式能夠解決樣本量相對較少時,模型容易出現過擬合的問題。多場景多目標的人群擴散,也是我們下一步迭代的方向之一。

三、58 畫像平台應用案例

##1. 個人化資源位投放

個人化資源位的投放,在58App 資源位元包含開螢幕、banner 位元、浮窗、fees 串流卡等等,都有用到58 使用者畫像平台對應的功能,例如用價運作透過畫像平台的標籤圈選能力去產出人群包為其推送特定的內容,完成千人千面的精細化運作。

2. 個人化push 推送

我們的畫像平台與58 的push 平台也完全打通,運營同學可以透過萬象圈選或Look-alike 等形式創建人群,配置個人化文案,透過push 觸達用戶,達成營運目的。

3. 搜尋推薦

搜尋推薦是基於使用者畫像最常見的應用程式。 58 新車、二手車這兩個業務方沒有演算法人員,但是又想做一些個人化的應用,因此接取了前文中提到的內容偏好類別標籤。首頁的新車推薦,相關推薦等資源位都用到了內容偏好 TopN 標籤。在二手車的搜尋位置上,搜尋框的提示語以及搜尋發現頁的相關車係也用到了這個標籤。相較於先前通過規則的方式,透過接取內容偏好標籤作為專案初期的解決方案,也取得了很好的效果。

四、展望與總結

當前 58 的畫像平台已經具備了業界通用的畫像平台能力,並且透過演算法加持,實現了智慧營運等能力。不僅提升了業務方營運效果,在為用戶提供個人化服務的同時也帶來了更好的用戶體驗。接下來,還將與業務方深度合作,探索更多的應用場景,在合作的過程當中進行總結和提煉、優化與創新,升級技術以應對各種需求和挑戰,我們期待為用戶和企業創造更大的價值。

以上是演算法在 58 畫像平台建置中的應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除