首頁  >  文章  >  科技週邊  >  防治“虛假種草”,小紅書技術團隊乾了這幾件大事

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

PHPz
PHPz轉載
2023-04-11 12:55:031375瀏覽

本文主要聚焦在社區及電商風控在小紅書的最佳實務領域-刷量治理。

作為一個內容社區,小紅書月活用戶數自2021年10月突破2億後一直穩定成長。圍繞著不斷累積的UGC內容資產,小紅書正成為越來越多用戶的多元生活方式聚集地。這些都讓小紅書成為了刷量黑產的目標。

從使用者維度來看,安全在內容平台上要解決兩個問題:保證使用者的資訊在網路上是安全的,以及保障使用者在網路上取得的資訊是真實的

刷量,作為社群及交易中常見的作弊手段,會導致用戶獲取的資訊不真實。透過刷量這種方式所獲得的無論是筆記閱讀、按讚、評論等社群流量,或是商品瀏覽、銷售等電商數據,都會瓦解我們的內容安全,影響用戶對平台的信賴。

一、走進黑產了解刷量的實現

1.1 什麼是刷量?

初級的理解,刷量可以理解為數據造假,例如使用作弊手段獲得虛假的點讚、收藏等數據,以此來謀得更高的商業價值。在電商場景中的刷量更集中在商家維度,例如聘請刷單用戶並利用虛假物流構造交易,虛構高GMV。

為了深入了解刷量的本質,我們探訪了一批專門從事刷量產業鏈的公司,以下是對其中三家及實現手段的介紹:

1.1.1 群控刷量公司

這家公司是做刷量服務的,主要基於機器的群控設備去刷量,包含越獄機和正常iPhone。他們利用了蘋果的安全機制,例如蘋果手機的鏡像打包:把整個手機中包含用戶登陸態的客戶端進行打包後存儲成一個文件,再把這些文件存儲在沙箱環境裡。基於此方法,利用單一手機還原出大量沙箱環境和帳號,實現不錯的群組控制效果。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

1.1.2 養號引流公司

這是一家透過引流售賣高仿衣服的電商公司。主要的做法是透過虛擬的廳卡註冊帳號後養號碼。當使用的帳號被標黑後,它需要打通附近線下二手手機店,以較低的價格(5-10元)進行標黑手機的置換。在拿到全新的設備後,僱用一批真人,註冊帳號後持續做內容的發布和運作。最後做品牌導流並獲取報酬。據了解,一個號可以引流幾十萬的gmv,考慮到號的數量,這家公司的收益相當可觀。


防治“虛假種草”,小紅書技術團隊乾了這幾件大事


#1.1.3 眾包刷量公司

眾包黑產通常有專業的機構,在各大平台上尋找任務並招攬人力做兼職,兼職人員用自己的帳號完成任務即可獲取報酬。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

1.2 刷量的重新定義

刷粉刷讚就是刷量嗎?是,但並不完全,我們要從更高的角度來理解刷量。

在小紅書的社群環境中,我們把使用者分成兩類:內容發佈者和內容消費者。內容發布者負責生產,並提供消費者優質的內容。而內容消費者,相對地,支付時間成本、機會成本、資訊成本、情感成本、所瀏覽內容所包含的資訊價值。換言之,發布者和消費者其實是在做一種類交易行為,而內容平台就是一個市場經濟平台。有了市場,就要有流通的貨幣。在內容社群中,貨幣就是閱讀量、按讚、收藏、留言數等這些可以被衡量的單位。


防治“虛假種草”,小紅書技術團隊乾了這幾件大事


在這樣的類比下,刷量相當於做假幣的行為,假內容發布類比於假貨,會導致整體市場的通貨膨脹。這些代幣雖然存在於二級市場(社群),但最終會和一級市場做交易(電商,廣告),實現流量變現。對小紅書來說,刷量等同於假幣,需要不遺餘力的治理

二、風控面臨的挑戰

既然已經定性為假幣,為何刷量仍長期存在?這裡就必須提到反作弊面臨的幾個挑戰:辨識困難、治理困難、鞏固難

2.1 辨識難

辨識難可以歸納為三個部分:終端無法控制、AI對AI、真人對真人

2.1.1 終端不可控

在社群刷量的場景當中,終端實際上是不可控的,對抗人員很難去判斷客戶端到底是一個正常用戶還是一個黑產。理論上講,通訊方式不可信,就沒有辦法做到可信。

我們曾經嘗試逆向了某個介面協定攻擊的工具,拆解了裡面的程式碼,透過破解簽章演算法偽裝成我們的客戶端向伺服器發送請求。這是目前最容易的一種,其他方式更難管控。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

(*協定攻擊)

#2.1.2 AI對AI 

儘管風控不斷的提升且已大規模地使用AI 計算的方式來進行對抗,但我們的對手也不斷攻破升級。

以黑灰產的群控手段為例。利用三方授權的漏洞,在公共平台產生批量三方帳號,利用三方帳號完成小紅書帳號的註冊。再透過UI的自動腳本點擊工具去控制點擊和按鍵,在手機上進行操作,來批量刷贊藏粉。目前盛行的手段是用4G手機/EC20的晶片,做混雜攻擊來規避我們對於黑IP的辨識。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

AI智能化在風控中的推動速度是緩慢的。原因是AI演算法擅長解決的是一階問題,例如圖片是否包含支付二維碼。然而實際場景中,我們要判斷的是這個聊天內容是否帶有風險。站在人的角度,經常聯繫的好友間發出的支付二維碼沒有風險,但是剛聊天不久的陌生人之間發送支付二維碼就是高風險的行為。這裡的風險取決於支付二維碼 陌生人聊天這兩階資訊的聚合。相對人,AI很難自動的判斷這兩階維度的聚合識別,所以需要人的大量介入。

2.1.3 真人對真人

透過線上群聊、線下小任務、甚至透過正規的招募管道招募人員,這些人混跡在真實用戶中且存在真實的正常行為。到了某個時間會收錢做刷量的事情,這讓整個識別變得異常複雜。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

2.2 治理難

在小紅書平台上,內容社群分K(部落客),B(品牌/商家),MCN代理商(中介),C端(普通用戶)。長久困擾我們的問題是,到底是誰為了利益去做了刷量這個行為,是K端、B端、MCN端還是C端?而這個人在當下的行為是好的還是壞的?在治理的同時,又該如何避免誤傷?

真實的情況是,每個端都有可能參與刷量。品牌發佈行銷的需求後,MCN接受任務並分發給各大平台的K,讓K發布相關筆記吸引用戶,最後達到行銷推廣的目的。這個流程中,MCN為了完成品牌側的曝光要求獲得獲利,有動力刷量。同樣地,K為了完成MCN發布的任務,彌補自身流量不足的問題,也有動力刷量。品牌側不同角色例如營運側,為了完成公司的任務,也可能刷量。而部分競對,為了陷害同行,也會聚集C端用戶到筆記下刷量,導致風控判罰博主和筆記。

更麻煩的是,大量的真人會混雜在整個群體內,很難準確的區分刷量行為。即便可以辨別,如何判斷這個人當下的行為是否正常?這裡面會有召回和誤傷的問題,既要保障完整的召回,又不能誤傷批量的用戶,影響業務的順利運作。

同時平台的冷啟動也是一個需要解決的問題。例如新的小商家為何刷量,因為初期小商家在物流,貨品質量和價格的把控上本身就劣於大商家。即便用戶偶然搜到新商家的商品,銷售量為0,買家不信任,最後仍失去成交機會。這也是小商家產生了刷量需求。

2.3 鞏固難

任何安全的運營,最終都會落入到投入產出比的問題。在內容刷量的場景中,由於沒有直接的收益計算,較難衡量風控投入的ROI收益。

第二個困難點是防控效果的衡量。前面我們講到了CTR,那是否CTR的數值足以判斷風控的效果?答案是否定的。防控的結果會涉及多個維度。在我們治理的刷量案例中,有許多一部分的作弊刷量來自於真人眾包,是以使用者的維度還是異常行為的數量來評判防控的效果?刷量的治理,是人與人的對抗,風控限制和治理一種方式之後,對手又會用新的手段和技術開啟下一輪的攻擊,所以防控的效果是在不斷波動的,我們需要持續去進行對抗。

三、小紅書的治理實踐

小紅書是一個真誠分享、友善互動的平台。對我們來說,比技術能力更重要的是平台的態度。這也代表了我們對刷量行為的態度是嚴厲打擊零容忍的。

在安全技術部內部,我們提出了三個解決方向,分別是:風控基礎設施引擎化,風控對抗流程化,和風控識別智能化

3.1 風控基礎設施引擎化

國內統計的黑產從業人員有150萬,遠遠超出我們風控技術團隊,如何以小規模對抗整個產業鏈呢?我們提出的方案快速迭代易試錯,風控基礎設施引擎化,將工程引擎與整個前後上下游鏈路打通,提高整體的風控對抗效率。這裡的風控引擎,不單指在一個獨立的節點部署策略,還包括整個鏈路的資訊接入,並利用上下游資訊識別風險

以近線平台為例,我們將現有的準即時任務進行了高度的抽象化,使用戶能在短時間透過組裝任務的方式快速上線規則,進而提高效率。該平台的引擎能力能夠在後台結合多資料來源和歷史資料在相對準即時的情況下給出風控辨識結果,同時結合行為序列分析、圖分析和演算法模型,提升風控能力實效性。

近線平台補足了單一規則辨識的局限性,與原風控即時體系融合,同時又是其他防控手段的有效補充。近線平台支援綜合處理資料、事件的能力,也支援多來源資料接入,具備靈活的資料處理能力,更為重要的是提供可支援演算法、策略同學自訂資料處理邏輯的功能。在流程工程化的同時,釋放人力、提升準確性。

下圖為近線系統的整體系統及架構:

防治“虛假種草”,小紅書技術團隊乾了這幾件大事


防治“虛假種草”,小紅書技術團隊乾了這幾件大事

從設備啟動->帳號註冊登入-> 筆記/商城瀏覽->互動->內容發佈/購買商品等,目前我們已覆蓋了用戶全場景行為,在獲取業務數據後,將實時請求、準實時流式、及離線資料接取風控引擎,實現多場景層面聯防聯,對所取到的身份特徵、網路環境、時序特徵、累計因子等做加工挖掘,輸入至決策分析層。除此之外,實現辨識能力的遷移,將新辨識到的風險點沉澱後再利用至其他風險情境。

除了風控引擎,通用業務網關側(edith2.0)也做了統一, 整體提高新業務的接入效率和穩定性,實現業務的分鐘級接入。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

3.2 風控對抗流程化

業務風控最大的困難是對抗,無論作弊變成何種形式,唯一不變且一直存在的就是對抗。一個標準化的流程或許並不能保障立刻得到最優方案,但是可以幫助我們分析問題、暴露問題,建立起有回饋的正向迭代鏈路,提高我們的效率。

由情報技術所驅動的營運沉澱能力在小紅書風控團隊中已逐漸形成一個可行的流程體系在不斷運作。整個流程可以分為五個步驟:風險感知、能力建構、風險識別、風險處置、效果評估

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

風險感知:依賴指標體系更快發現風險,變被動救火為主動防禦,驅動能力建構以及後續流程。

能力建構:建立對抗導向的快速反應能力,快速存取可靈活配置的風控系統。

風險識別:提高識別準召,建立特徵體系,對作弊特徵進行挖掘,並能對缺失能力進行需求回饋。

風險處置:選擇更有效的方式降低對抗成本,對行為的攔截、對筆記的限流、使用者的處置,並能對策略迭代形成有效回饋。

效果評估:同樣依賴指標體系,評估風險水位的變化,如作弊漏過、黑產服務價格、帳號價格等,同時能夠進行誤殺和漏過回饋。

在發現一個新的情報或感知到一個新的作弊攻擊後,按照這個流程進行運作,並從過程中分析判斷是哪裡出了問題:是情報發現不夠多,還是情報轉化成辨識不夠快,或是辨識處置召回不足

以情報運作中的買量分析為例,透過情報或價格波動發現黑產服務後進行採買測試,進而分析手法並選擇合適的策略或模型進行識別、處置,而對於效果的評估需要透過二次採買或對黑產價格的持續監控,當對識別處置的回饋均已落實且效果評估達標之後,當前流程才算結束。

3.3 風控辨識智能化

在對抗的層次以及防控的力度上,風控智能化辨識的環節大體上可以分為三個階段:第一個階段,針對黑產的低成本機器手法,基於行為主體的特徵進行分析判斷;第二個階段,在與黑產的高頻對抗中,基於群體的特徵進行團體挖掘;第三個階段,在真人刷量的辨識中,依據刷量社群的關聯關係,基於圖的演算法來做主體關係的發現。目前這三個階段已經在小紅書落地,進行了實踐。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

3.3.1 行為主體特徵分析

流量資料作為表現形式,其基本組成是使用者的每一條互動行為,風控也正是基於行為的特徵進行分析辨識。在辨識的過程中,行為特徵的品質直接關係著對於黑產刷量的識別召回,因此資料特徵的建構尤其重要。 “磨刀不誤砍柴工”,在這一階段,我們建立了一套基於行為主體的用戶、設備等的特徵體系,為風控智能化識別奠定了基石。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

黑產的目的是以最低的成本完成刷量任務,在這一階段,黑產往往利用機器手段進行自動或半自動的批量刷量,不僅成本低,而且效率高。我們的基本假設是:在進行機器刷量時,機器帳號或設備上必然存在明確的、可解釋的異常特徵。因此如何分析辨識出異常特徵是風控第一階段需要解的命題。在辨識分工上,我們實施端雲的防控模式,端防設計合理的設備上報、偵測方法,完成對設備的初步防控,雲防基於使用者特徵、設備特徵和行為特徵對行為進行異常分析識別。

以協議接口請求為例,黑產透過破解平台的簽章演算法直接請求後端接口,不需要真實設備就能完成刷量,是黑產常用的成本最低且最高效的刷量手段。沒有真實設備的同時也導致了沒有真實的前端打點和設備上報,即便是偽造了設備信息,設備上報信息的字段和設備環境也無法有效偽造和正常設備一樣。

除了透過對相關特徵參數的校驗,對環境異常的識別進行識別防控之外,我們還依賴全面的特徵體系和沈積的黑產刷量樣本等建立了有監督的識別模型。在整個模型當中,特徵工程是確保模型召回的重要環節,而模型結果的處理環節是準確率的保障

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

特徵工程:在特徵工程中,我們分成兩部分順序進行。

  • 特徵選擇:經過前期不斷地“人工對抗”,我們積累了豐富的特徵對抗經驗,從黑產刷量手法角度出發選擇了全面的特徵、標籤,如設備內核版本、農場標籤,改機欄位、註冊時長、大量註冊標籤等。
  • 特徵處理:在特徵處理時,將離散特徵和連續特徵分別標準化處理之後進行LabelEncoder,並對錶徵結果嘗試了不同的拼接方法,將散亂的特徵資料轉換為多維的模型輸入。

結果處理:在設計上,我們訓練了迴歸模型作為infer,也就是輸入值為連續的分數,相較於分類模型在結果的處理上更加靈活。

  • 樣本分佈:透過分析真實刷量樣本的模型結果分佈,半自動化的計算出了「合適」的閾值作為區分黑產和真實行為的標準。
  • 營運評估:在模型上線之前,風控運作會對端到端的結果進行準確性評估,只有評估的準確率達到標準,模型才能上線辨識。

3.3.2 群體特徵挖掘

如如前文提到,對抗是一直存在的。當黑產發現低成本的機器手法繞不過風控的校驗時,會不斷地嘗試使用真機、偽造設備參數、使用作弊工具等對抗手法,並進行手法升級,淘汰低成本手法。而在不斷的對抗中,第一階段的主體特徵分析就顯得相對被動,無法進行主動防治。

從風控的角度出發,在這階段我們的基本假設是:黑產無論如何偽造、繞過,其團夥性質仍然無法改變,數據特徵上一定存在著相似和聚集。因此在這個階段,以團體為辨識目標對群體特徵進行挖掘,利用結構化資料特徵體系,是需要建立起的第二道防線。

以不斷變換手法的機器刷量為例,黑產的手法逐漸由協定介面轉化為改機群控,並演化為自動化點擊工具。為了主動防控,我們透過設備聚類模型進行識別召回,對上述機器手法都完成了有效的遏制。

裝置聚類模型以裝置基礎資訊(如裝置型號、app版本、系統核心等)為特徵,對同筆記或與部落客下互動使用者的裝置基礎資訊進行特徵工程與相似度計算,透過聚類演算法圈定相似度高的設備群體。識別後一方面記錄黑設備並進行後續行為攔截,另一方面輸出黑設備群的設備標籤擴充設備黑庫。此模型屬於無監督模型,能夠很好地適應黑產頻繁變換作弊手法的特點,同時也能對線上策略作補充並擴充召回。

以下為模型流程圖與聚類識別案例:

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

防治“虛假種草”,小紅書技術團隊乾了這幾件大事

#在整個模型中,我們依賴特徵工程和簇篩選對黑產設備進行高召回高準確的聚類:

  • #特徵工程:在第一階段,我們建立了一套全面、高復用的特徵體系,在這個階段我們透過分析團夥設備的特徵,選擇了適當的20~30維的設備特徵作為輸入,從資料來源保證了模型的召回。
  • 簇篩選:在不斷的風控對抗中,我們沉澱了足夠的設備標籤和設備黑庫,在聚類模型的輸出結果篩選上,這部分黑設備作為種子用於計算聚類簇中黑產濃度,從而篩選出準確且高召回的設備簇。

3.3.3 基於圖的主體發現

#如前文所提到的挑戰,刷量的手法會逐漸演變為真人對真人,當黑產發現機器手法繞不過風控時,會選擇招募眾包或組織互刷的方式,嘗試以真人行為進行刷量。雖然都是真人行為,但本質都是缺乏真實意願,屬於「假幣」。真人行為不僅主體特徵分析無法發現異常,在裝置上也無法發現群體性。

由於刷量行為的特殊性,我們的合理假設是:無論如何改變手法,刷量行為的最終指向都是買量的主體,只要存在主體相關性,就能透過資料特徵對行為進行識別召回。在這一階段,小紅書依賴特有的社區、電商行為圖以及刷量、刷單圖對一組行為主體進行主動發現挖掘,透過實體關聯並利用圖算法對真人作弊用戶或正在養號的用戶進行召回,能夠有效的發現「漏網之魚」。

防治“虛假種草”,小紅書技術團隊乾了這幾件大事


*圖1:正常使用者讚筆記的關聯圖

(紅點為筆記,藍點為使用者)

防治“虛假種草”,小紅書技術團隊乾了這幾件大事


*圖2:作弊使用者按讚筆記的關聯圖片

(紅點為筆記,藍點為使用者)


圖1 :7位正常用戶按讚的筆記中,僅有一篇筆記存在重疊,即中間紅點的筆記。

  • ##圖2:9位作弊用戶按讚的筆記為同一批筆記,按讚筆記高度重疊且未按讚過非這批筆記以外的其他筆記。
上圖為使用者和筆記的行為關聯圖(紅色為筆記、藍色為使用者),圖1為正常使用者按讚正常筆記的行為關聯關係,可以發現行為使用者的群體關聯性低,不會大量點贊同一群筆記,但存在因為「嗜好」被系統推薦同類型的筆記造成偶爾的重疊。而圖2中的行為使用者按讚同一批作弊筆記,具有較強的社群關聯性,是典型的作弊用戶按讚作弊筆記的行為關聯圖。

以「開車」互刷為例,即黑產接到刷量任務之後充當組織者、中間商的身份,對經常參與互刷(例如互讚)的人群發布任務,對指定目標進行刷量。黑產不會只發布一項任務,行為使用者也不會只做一條任務,這二者之間有相對固定的「圈子」。對於這類作弊方式,我們透過標籤傳播模型對社群用戶進行了批量召回。

標籤傳播模型是基於風控圖對種子用戶進行擴散傳播

,種子用戶來自風控識別沉澱的刷量用戶,關聯主體為買量筆記、買量博主等,以風控圖中的點邊關聯關係傳播。用真人來進行刷量,設備、帳號是有限的,為了能夠達到刷量的目的,行為用戶會啟用小號重複接多個任務。標籤傳播的目的是透過正確的路徑將刷量標籤傳播給社群中的其他刷量用戶,完成對刷量的識別召回。 


傳播路徑:防治“虛假種草”,小紅書技術團隊乾了這幾件大事使用者標籤會經過裝置、三方帳號等強路徑進行傳播,也會經過以買方如筆記、作者等的關聯路徑進行傳播。


使用者標籤:

由於是刷量使用者是真人,透過標籤傳播給使用者賦予的標籤往往無法直接進行行為攔截,因此基於對真人刷量的基本假設,我們對買量主體下的標籤進行了聚集性分析,從而識別出買量主體和刷量使用者。

四、跳脫技術思維解決問題以上主要是基於技術來解決問題,但在實際的工作中,我們還需要跳脫技術視角,從一個更為宏觀的角度來助力業務,完善安全。基於這個目的,在深挖鑽研技術的同時,我們沉澱出了一套可落地且有效的方法論:

從消除麻煩的影響入手,到解決掉製造麻煩的人,最終消除引起麻煩的動機

#解決麻煩的三點論

###消除麻煩影響#########在透過技術手段辨識刷量的作弊物件和資料後,進行實際的治理、處置動作,把虛假流量從平台中屏蔽掉。 #########解決製造麻煩的人#########打擊處於這個產業鏈中的人以及每一個環節,包括帳號的交易、平台數據的交易、交易的人等。這裡我們採用了風控與法務等部門聯合作戰的方式,解決麻煩的製造者。今年6-8月,對6家存在刷量行為的MCN和部分作者進行了嚴厲的處罰,並對其發起了訴訟。 ######電商場景中,刷單的商家主要是為了引流並實現更高的GMV。被辨識出的商家帳號會交由營運同學進行專業的判斷,並根據惡劣程度交由規則側進行處罰;而行為惡劣的使用者則會被放入黑名單,由風控對其下單行為進行限制。 #########解決製造麻煩的動機######

社群場景中買量者的目的是希望透過作弊方式實現他的商業價值,而我們要做的就是降低這部分使用者或機構的商業價值。 風控聯合生態及營運部門依據平台規則、法律法規等對作弊流量進行處罰。 經過持續不斷的打擊,黑產帳號成本變高,刷量服務價格持續上漲,按讚、收藏單價已經上漲超過300%,買量用戶的作弊意願也逐漸降低。

2022年至今,小紅書累計清理作弊點讚行為31億次,可以看到,對於刷量這件事情,平台的態度始終是非常堅決的。

(本文作者:小紅書安全技術部  陸遜  時影  王馬  葉峰  石昊  老皮)

以上是防治“虛假種草”,小紅書技術團隊乾了這幾件大事的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除