Maison >Périphériques technologiques >IA >Pour prévenir et contrôler la « fausse plantation d'herbe », l'équipe technique de Xiaohongshu a fait ces choses majeures

Pour prévenir et contrôler la « fausse plantation d'herbe », l'équipe technique de Xiaohongshu a fait ces choses majeures

PHPzavant: 2023-04-11 12:55:031521parcourir

Cet article se concentre principalement sur le domaine des meilleures pratiques en matière de contrôle des risques communautaires et du commerce électronique à Xiaohongshu : la gestion du volume des brosses.

En tant que communauté de contenu, le nombre d'utilisateurs actifs mensuels de Xiaohongshu n'a cessé de croître depuis qu'il a dépassé les 200 millions en octobre 2021. Basé sur l'accumulation continue d'actifs de contenu UGC, Xiaohongshu est en train de devenir un lieu de rassemblement de styles de vie diversifiés pour de plus en plus d'utilisateurs. Tout cela a fait de Xiaohongshu une cible pour la production illégale.

Du point de vue de l'utilisateur, la sécurité doit résoudre deux problèmes sur la plate-forme de contenu : Assurer que les informations des utilisateurs sont en sécurité sur Internet et garantir que les informations que les utilisateurs obtiennent sur Internet sont authentiques.

Le brossage de volume, en tant que méthode de triche courante dans la communauté et dans les transactions, rendra les informations obtenues par les utilisateurs fausses. Qu'il s'agisse du trafic communautaire tel que la lecture de notes, les likes et les commentaires, ou de données de commerce électronique telles que les vues et les ventes de produits, obtenues par brossage, cela compromettra la sécurité de notre contenu et affectera la confiance des utilisateurs dans la plateforme.

1. Entrez dans l'industrie noire pour comprendre la réalisation du volume du pinceau

1.1 Qu'est-ce que le volume du pinceau ?

Dans une compréhension de base, le brossage de volume peut être compris comme une fraude aux données, comme l'utilisation de méthodes de triche pour obtenir de faux likes, collections et autres données, afin d'obtenir une valeur commerciale plus élevée. Dans le scénario du commerce électronique, le brossage est plus concentré au niveau du commerçant, par exemple en embauchant des utilisateurs de brossage et en utilisant une fausse logistique pour structurer les transactions et fabriquer un GMV élevé.

Afin de comprendre en profondeur la nature du volume des pinceaux, nous avons visité un groupe d'entreprises spécialisées dans la chaîne industrielle du volume des pinceaux. Voici une introduction à trois d'entre elles et à leurs méthodes de mise en œuvre :

1.1.1 Contrôle du volume des pinceaux en groupe. entreprise

Cette entreprise fournit un service de brossage, principalement basé sur des dispositifs de contrôle de groupe de machines, y compris des machines jailbreakées et des iPhones normaux. Ils ont profité des mécanismes de sécurité d'Apple, tels que l'empaquetage d'images des téléphones mobiles Apple : le client contenant le statut de connexion de l'utilisateur sur l'ensemble du téléphone est empaqueté et stocké dans un fichier, puis ces fichiers sont stockés dans un environnement sandbox. Sur la base de cette méthode, un seul téléphone mobile est utilisé pour restaurer les environnements et les comptes sandbox par lots afin d'obtenir de bons effets de contrôle de groupe.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

1.1.2 Société de maintenance et de drainage de compte

Il s'agit d'une société de commerce électronique qui vend des vêtements à haute imitation grâce au trafic. La méthode principale consiste à créer un compte via une carte de salle virtuelle, puis à maintenir le compte. Lorsque le compte utilisé est sur liste noire, il doit ouvrir un magasin de téléphones portables d'occasion hors ligne à proximité pour remplacer le téléphone sur liste noire à un prix inférieur (5 à 10 yuans). Après avoir obtenu le nouvel équipement, embauchez un groupe de vraies personnes, créez un compte et continuez à publier et à exploiter du contenu. Enfin, faites la promotion de la marque et soyez payé. Il est entendu qu'un seul compte peut attirer des centaines de milliers de GMV. Compte tenu du nombre de comptes, les revenus de l'entreprise sont considérables.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

1.1.3 Entreprise de brossage participative

Les produits noirs de crowdsourcing ont généralement des organisations professionnelles qui recherchent des tâches sur les principales plateformes et recrutent des personnes pour effectuer des emplois à temps partiel. leurs propres comptes peuvent obtenir des récompenses après avoir accompli des tâches.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

1.2 Redéfinition du volume du pinceau

Le brushing aime-t-il la même chose que le volume du pinceau ? Oui, mais pas complètement. Nous devons comprendre le volume des pinceaux d’un point de vue plus élevé.

Dans l'environnement communautaire de Xiaohongshu, nous divisons les utilisateurs en deux catégories : les éditeurs de contenu et les consommateurs de contenu. Les éditeurs de contenu sont responsables de produire et de fournir un contenu de qualité aux consommateurs. Les consommateurs de contenu, en revanche, paient des coûts de temps, des coûts d'opportunité, des coûts d'information, des coûts émotionnels et la valeur des informations contenues dans le contenu qu'ils consultent. En d’autres termes, les éditeurs et les consommateurs s’engagent en réalité dans un type de transaction, et la plateforme de contenu est une plateforme d’économie de marché. Lorsqu’il y a un marché, il faut qu’il y ait de la monnaie en circulation. Dans la communauté de contenu, la devise est constituée d'unités qui peuvent être mesurées telles que les lectures, les likes, les collections et les commentaires.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

Dans cette analogie, la décoloration équivaut à l'acte de fabriquer de la fausse monnaie. La diffusion de faux contenus est analogue aux faux produits, qui entraîneront une inflation sur l'ensemble du marché. Bien que ces tokens existent sur le marché secondaire (communauté), ils seront éventuellement échangés avec le marché primaire (e-commerce, publicité) pour réaliser une monétisation du trafic. Pour Xiaohongshu, le lavage équivaut à de la fausse monnaie et doit être géré sans ménager ses efforts.

2. Les défis du contrôle des risques

Puisqu'elle a été classée comme fausse monnaie, pourquoi le volume de lavage existe-t-il encore longtemps ? Il faut ici mentionner plusieurs défis rencontrés par l'anti-triche : Difficulté d'identification, difficulté de gouvernance et difficulté de consolidation.

2.1 Difficulté d'identification

La difficulté d'identification peut être résumée en trois parties : Le terminal est incontrôlable, IA contre IA, et vraies personnes contre vraies personnes.

2.1.1 Le terminal est incontrôlable

Dans le domaine du brossage communautaire, le terminal est en réalité incontrôlable, et il est difficile pour les adversaires de juger si le client est un utilisateur normal ou un produit noir. Théoriquement parlant, si la méthode de communication n’est pas fiable, il n’existe aucun moyen de la rendre fiable.

Nous avons déjà essayé de procéder à l'ingénierie inverse d'un outil d'attaque de protocole d'interface, désassemblé le code à l'intérieur et envoyé une requête au serveur déguisé en notre client en déchiffrant l'algorithme de signature. C’est de loin la méthode la plus simple, les autres méthodes sont plus difficiles à maîtriser.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

(*Attaque de protocole)

2.1.2 IA contre IA

Bien que le contrôle des risques s'améliore constamment et que l'informatique IA ait été utilisée à grande échelle pour combattre, nos adversaires sont également en rupture constante à travers et la mise à niveau.

Prenons comme exemple la méthode de contrôle de groupe de Black Grey Production. Utilisez la vulnérabilité de l'autorisation de tiers pour générer des lots de comptes tiers sur la plate-forme publique et utilisez les comptes tiers pour finaliser l'enregistrement des comptes Xiaohongshu. Utilisez ensuite l'outil de clic de script automatique de l'interface utilisateur pour contrôler les clics et les frappes au clavier, et utilisez votre téléphone mobile pour gagner des likes et des abonnés par lots. La méthode populaire actuelle consiste à utiliser des puces de téléphone mobile 4G/EC20 pour mener des attaques hybrides afin d'éviter notre identification d'adresses IP noires.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

La promotion de l'intelligence artificielle dans le contrôle des risques est lente. La raison en est que les algorithmes d’IA sont efficaces pour résoudre les problèmes de premier ordre, comme par exemple si une image contient un code QR de paiement. Cependant, dans des scénarios réels, nous devons déterminer si le contenu du chat est risqué. D'un point de vue humain, il n'y a aucun risque à envoyer des codes QR de paiement entre amis qui sont en contact fréquent, mais l'envoi de codes QR de paiement entre inconnus qui viennent de discuter est un comportement à haut risque. Le risque dépend ici de l'agrégation de deux niveaux d'informationspaiement QR code + chat inconnu. Par rapport aux humains, il est difficile pour l’IA de juger automatiquement de la reconnaissance globale de ces deux dimensions, elle nécessite donc beaucoup d’intervention humaine.

2.1.3 De personne réelle à personne réelle

Recrutez des personnes via des discussions de groupe en ligne, de petites tâches hors ligne et même via des canaux de recrutement formels. Ces personnes font partie de vrais utilisateurs et ont des comportements vraiment normaux. À un moment donné, de l’argent sera collecté pour augmenter le volume, ce qui rend toute l’identification extrêmement compliquée.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

2.2 Difficulté de gouvernance

Sur la plateforme Xiaohongshu, la communauté de contenu est divisée en K (blogueurs), B (marques/marchands), organisations MCN (intermédiaires) et C-side (utilisateurs ordinaires). La question qui nous préoccupe depuis longtemps est de savoir qui adopte ce comportement dans un but lucratif : est-ce le côté K, le côté B, le côté MCN ou le côté C ? Et le comportement de cette personne en ce moment est-il bon ou mauvais ? En gérant, comment éviter les blessures accidentelles ?

La situation réelle est que

chaque terminal peut participer au brossage en volume. Une fois que la marque a publié ses besoins marketing, MCN accepte la tâche et la distribue à K sur les principales plateformes, permettant à K de publier des notes pertinentes pour attirer les utilisateurs et enfin d'atteindre l'objectif de promotion marketing. Dans ce processus, MCN est motivé à augmenter le volume afin de répondre aux exigences d'exposition du côté de la marque et de réaliser des bénéfices. De même, afin d'accomplir les tâches confiées par MCN et de compenser son propre manque de trafic, K a également la motivation d'augmenter son trafic. Différents rôles du côté de la marque, comme celui des opérations, peuvent également augmenter le volume afin de mener à bien les tâches de l'entreprise. Certains concurrents, afin d'encadrer leurs pairs, rassembleront également des utilisateurs finaux C pour brosser leurs ordinateurs portables, ce qui entraînera des pénalités de contrôle des risques pour les blogueurs et les ordinateurs portables.

Ce qui est encore plus gênant, c'est qu'un grand nombre de personnes réelles seront mélangées dans l'ensemble du groupe, ce qui rendra difficile la distinction précise du comportement de brossage. Même si vous pouvez le dire, comment pouvez-vous savoir si le comportement actuel de la personne est normal ? Il y aura des problèmes de rappel et de dommages accidentels. Il est nécessaire d'assurer un rappel complet sans endommager accidentellement un lot d'utilisateurs, ce qui affectera le bon fonctionnement de l'entreprise.

En même temps, le démarrage à froid de la plateforme

est aussi un problème qui doit être résolu. Par exemple, pourquoi les nouveaux petits commerçants augmentent-ils leurs ventes ? C'est parce qu'au début, les petits commerçants étaient intrinsèquement inférieurs aux grands commerçants en termes de logistique, de qualité des produits et de contrôle des prix. Même si un utilisateur recherche accidentellement un produit auprès d'un nouveau commerçant, le volume des ventes est de 0 et l'acheteur ne lui fait pas confiance et, à la fin, il perd toujours la possibilité d'effectuer une transaction. C'est également la demande de volume de brosse de la part des petites entreprises. 2.3 La consolidation est difficile

Toute opération sûre finira par tomber dans le problème du rapport entrées-sorties. Dans les scénarios où le contenu est vidé, il est difficile de mesurer le retour sur investissement des investissements en matière de contrôle des risques car il n’existe pas de calcul direct des revenus.

La deuxième difficulté est de mesurer l’efficacité de la prévention et du contrôle. Nous avons parlé du CTR plus tôt, mais la valeur du CTR est-elle suffisante pour juger de l'effet du contrôle des risques ? La réponse est non. Les résultats de la prévention et du contrôle comporteront de multiples dimensions. Parmi les cas de brossage que nous gérons, de nombreux brossages frauduleux proviennent du crowdsourcing de personnes réelles. Faut-il juger de l'efficacité de la prévention et du contrôle en fonction de la dimension utilisateur ou du nombre de comportements anormaux ? La gestion du volume de brosses est une confrontation entre les gens. Après une méthode de contrôle des risques et de gouvernance, les opposants utiliseront de nouveaux moyens et technologies pour lancer la prochaine série d'attaques. Par conséquent, l'effet de la prévention et du contrôle fluctue constamment. est requis.

3. Les pratiques de gouvernance de Xiaohongshu

Xiaohongshu est une plateforme de partage sincère et d'interaction amicale. Pour nous, ce qui est plus important que les capacités techniques, c'est l'attitude de la plateforme. Cela signifie également que notre attitude à l’égard du comportement de lavage en volume consiste à sévir sévèrement contre la tolérance zéro.

Au sein du Département des technologies de sécurité, nous avons proposé trois orientations de solutions, à savoir : ingénierie de l'infrastructure de contrôle des risques, rationalisation de la confrontation des contrôles des risques et rendre intelligente l'identification des contrôles des risques.

3.1 Infrastructure de contrôle des risques basée sur un moteur

Selon les statistiques nationales, il y a 1,5 million d'employés de l'industrie noire, bien plus que notre équipe technique de contrôle des risques. Comment pouvons-nous lutter contre l'ensemble de la chaîne industrielle à petite échelle ? La solution que nous avons proposée est rapide à itérer et facile à expérimenter, et l'infrastructure de contrôle des risques est basée sur un moteur. Elle connecte le moteur d'ingénierie à l'ensemble des liens en amont et en aval pour améliorer l'efficacité globale du contrôle des risques. Le moteur de contrôle des risques ici fait non seulement référence au déploiement de stratégies sur un nœud indépendant, mais inclut également l'accès aux informations de l'ensemble du lien et l'utilisation des informations en amont et en aval pour identifier les risques .

En prenant comme exemple la plateforme quasi-ligne, nous avons fortement abstrait les tâches existantes en quasi-temps réel, permettant aux utilisateurs de se connecter rapidement en assemblant des tâches en peu de temps, améliorant ainsi l'efficacité. La capacité du moteur de cette plate-forme peut combiner plusieurs sources de données et des données historiques en arrière-plan pour fournir des résultats d'identification du contrôle des risques de manière relativement en temps réel. Elle combine également l'analyse des séquences comportementales, l'analyse graphique et les modèles algorithmiques pour améliorer l'efficacité du contrôle des risques. capacités.

La plateforme de proximité compense les limites de l'identification d'une règle unique, s'intègre au système original de contrôle des risques en temps réel et constitue un complément efficace aux autres méthodes de prévention et de contrôle. La plate-forme de proximité prend en charge la capacité de traiter de manière globale les données et les événements, et prend également en charge l'accès aux données multi-sources. Plus important encore, elle fournit des fonctions qui peuvent prendre en charge les algorithmes et les stratégies ainsi que la logique de traitement des données personnalisée des étudiants. . Libérez de la main d’œuvre et améliorez la précision lors des processus d’ingénierie.

L'image ci-dessous montre le système global et l'architecture du système de proximité :

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

Activer depuis l'appareil -> Enregistrement et connexion du compte -> Notes/navigation dans le centre commercial -> Interaction -> Publication de contenu/achat de biens, etc. À l'heure actuelle, nous avons couvert le comportement des utilisateurs dans tous les scénarios. Après avoir obtenu les données commerciales, nous connecterons les demandes en temps réel, le streaming en temps quasi réel et les données hors ligne au moteur de contrôle des risques pour y parvenir. prévention et contrôle conjoints à plusieurs niveaux des caractéristiques d'identité obtenues. L'environnement du réseau, les caractéristiques des séries chronologiques, les facteurs cumulatifs, etc. sont traités et extraits et entrés dans la couche d'analyse décisionnelle. De plus, les capacités d'identification sont migrées et les points de risque nouvellement identifiés sont précipités et réutilisés dans d'autres scénarios de risque.

En plus du moteur de contrôle des risques, la passerelle commerciale générale (edith2.0) a également été unifiée pour améliorer l'efficacité globale de l'accès et la stabilité des nouveaux services et obtenir un accès infime aux services.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

3.2 Rationaliser le contrôle des risques et la confrontation

La plus grande difficulté dans le contrôle des risques d'entreprise est la confrontation Quelle que soit la forme que prend la tricherie, la seule chose qui reste inchangée et existe toujours est la confrontation. Un processus standardisé ne garantit peut-être pas que nous obtiendrons immédiatement la solution optimale, mais il peut nous aider à analyser et à exposer les problèmes, à établir un lien d'itération vers l'avant avec les commentaires et à améliorer notre efficacité.

La capacité d'accumulation opérationnelle pilotée par la technologie du renseignement a progressivement formé un système de processus réalisable au sein de l'équipe de contrôle des risques de Xiaohongshu et fonctionne en permanence. L'ensemble du processus peut être divisé en cinq étapes : Perception des risques, renforcement des capacités, identification des risques, traitement des risques et évaluation des effets.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

Perception des risques : Appuyez sur le système d'indicateurs pour découvrir les risques plus rapidement, transformer la lutte passive contre les incendies en défense active et piloter les processus de renforcement des capacités et de suivi.

Renforcement des capacités : Établissez des capacités de réponse rapide en cas de confrontation et accédez rapidement à un système de contrôle des risques configurable de manière flexible.

Identification des risques : Améliorez la précision de l'identification, établissez un système de fonctionnalités, exploitez les fonctionnalités de triche et fournissez des commentaires sur les demandes sur les capacités manquantes.

Élimination des risques : Choisissez des moyens plus efficaces pour réduire le coût de la confrontation, intercepter les comportements, limiter le flux de notes et traiter avec les utilisateurs, et former un retour efficace sur les itérations stratégiques.

Évaluation des effets : S'appuie également sur le système d'indicateurs pour évaluer les changements dans les niveaux de risque, tels que la tricherie et les fuites, les prix des services de produits noirs, les prix des comptes, etc., et peut également fournir des informations sur les homicides involontaires et les fuites.

Après avoir découvert un nouvel élément d'intelligence ou détecté une nouvelle attaque de triche, opérez selon ce processus, analysez et déterminez ce qui n'a pas fonctionné dans le processus : Est-ce que l'intelligence n'est pas suffisamment découverte, ou que l'intelligence n'est pas converti en reconnaissance assez rapidement, ou bien l'identification, l'élimination et le rappel sont insuffisants.

Prenons l'exemple de l'analyse du volume d'achat dans les opérations de renseignement. Après avoir découvert des services illégaux grâce au renseignement ou aux fluctuations de prix, des tests d'achat sont effectués, puis les techniques sont analysées et des stratégies ou modèles appropriés sont sélectionnés pour l'identification et l'évaluation. les effets nécessitent deux sous-achats ou une surveillance continue des prix des produits illégaux, le processus actuel ne se terminera pas tant que le retour d'information sur l'identification et l'élimination n'aura pas été mis en œuvre et que l'évaluation des effets n'aura pas répondu aux normes.

3.3 Identification intelligente du contrôle des risques

En termes de niveau de confrontation et d'intensité de la prévention et du contrôle, l'identification intelligente du contrôle des risques peut être grossièrement divisée en trois étapes : la première étape, les techniques de machines à faible coût pour les produits noirs , analyser et juger sur la base des caractéristiques des sujets comportementaux ; la deuxième étape, dans la confrontation à haute fréquence avec les produits noirs, sur la base des caractéristiques du groupe pour mener l'exploration de gangs ; du volume de pinceau de personnes réelles, basé sur la relation entre la communauté des pinceaux, un algorithme basé sur un graphique est utilisé pour découvrir la relation entre le sujet. À l'heure actuelle, ces trois étapes ont été mises en œuvre et pratiquées à Xiaohongshu.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

3.3.1 Analyse des caractéristiques du sujet du comportement

En tant que forme d'expression, les données de trafic sont essentiellement composées de chaque comportement interactif de l'utilisateur, et le contrôle des risques est également analysé et identifié en fonction des caractéristiques du comportement . Dans le processus d'identification, la qualité des caractéristiques comportementales est directement liée à l'identification et au rappel des produits noirs, la construction des caractéristiques des données est donc particulièrement importante. "Un couteau aiguisé ne perdra jamais de temps à couper du bois de chauffage." À ce stade, nous avons établi un système de fonctionnalités basé sur les utilisateurs, les appareils, etc. de sujets comportementaux, qui a jeté les bases d'une identification intelligente du contrôle des risques.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures Le but de la production noire est de réaliser la tâche de brossage en volume au moindre coût. A ce stade, la production noire utilise souvent des moyens mécaniques pour effectuer un brossage par lots automatique ou semi-automatique, ce qui est non seulement peu coûteux, mais aussi une grande efficacité. Notre hypothèse de base est que lors du brossage en machine, il doit y avoir des caractéristiques anormales claires et explicables sur le compte ou l'appareil de la machine. Par conséquent, la manière d’analyser et d’identifier les caractéristiques anormales est une question qui doit être résolue dès la première étape du contrôle des risques. En termes d'identification et de division du travail, nous mettons en œuvre le

end + modèle de prévention et de contrôle du cloud

. End Defense conçoit des méthodes raisonnables de reporting et de détection des appareils pour compléter la prévention et le contrôle préliminaires de l'appareil et effectue une analyse comportementale basée sur l'utilisateur. caractéristiques, caractéristiques de l'appareil et caractéristiques comportementales. Analyse et identification des anomalies. Prenons l'exemple de la demande d'interface de protocole. Les produits noirs demandent directement l'interface back-end en déchiffrant l'algorithme de signature de la plateforme, et peuvent effectuer le brossage sans avoir besoin d'un équipement réel. moyen de brossage couramment utilisé par les produits noirs. L'absence d'appareils réels entraîne également l'absence de véritable gestion frontale et de reporting sur les appareils. Même si les informations sur les appareils sont falsifiées, les champs et l'environnement des informations de rapport sur les appareils ne peuvent pas être efficacement falsifiés pour être identiques à ceux des appareils normaux.

En plus d'identifier et de prévenir les anomalies environnementales grâce à la vérification des paramètres de caractéristiques pertinents, nous avons également établi un modèle d'identification supervisé s'appuyant sur un système de caractéristiques complet et des échantillons de production de noir précipité. Dans l'ensemble du modèle,

l'ingénierie des fonctionnalités est un maillon important pour assurer le rappel du modèle, et le traitement des résultats du modèle est la garantie de l'exactitude

Ingénierie des fonctionnalités : Dans l'ingénierie des fonctionnalités, nous la divisons en deux parties et procédons de manière séquentielle.

Sélection des fonctionnalités : après une « confrontation manuelle » continue au début, nous avons accumulé une riche expérience dans la confrontation des fonctionnalités et sélectionné des fonctionnalités et des étiquettes complètes du point de vue des techniques de brossage de la production noire, telles que la version du noyau de l'appareil, l'étiquette de ferme, Champs de machine modifiés, durée d'enregistrement, étiquettes d'enregistrement par lots, etc.
Traitement des caractéristiques : pendant le traitement des caractéristiques, les caractéristiques discrètes et les caractéristiques continues sont standardisées séparément, puis LabelEncoder est effectué. Différentes méthodes d'épissage sont essayées sur les résultats de caractérisation pour convertir les données de caractéristiques dispersées en entrée de modèle multidimensionnel.

Traitement des résultats : En termes de conception, nous avons formé le modèle de régression comme une inférence, c'est-à-dire que la valeur d'entrée est un score continu, qui est plus flexible dans le traitement des résultats que le modèle de classification.

Distribution des échantillons : en analysant la distribution des résultats du modèle d'échantillons de pinceaux réels, le seuil « approprié » est calculé semi-automatiquement comme norme pour distinguer les produits noirs du comportement réel.
Évaluation des opérations : avant la mise en ligne du modèle, les opérations de contrôle des risques évalueront l'exactitude des résultats de bout en bout. Ce n'est que lorsque l'exactitude de l'évaluation atteint la norme que le modèle pourra être mis en ligne pour identification.

3.3.2 Exploration de fonctionnalités de groupe

Comme mentionné précédemment, la confrontation existe toujours. Lorsque les fabricants noirs découvrent que les techniques de machines à faible coût ne peuvent pas contourner la vérification du contrôle des risques, ils essaieront constamment d'utiliser de vraies machines, de faux paramètres d'appareil, d'utiliser des outils de triche et d'autres contre-mesures, et d'améliorer les techniques pour éliminer les techniques à faible coût. Dans la confrontation constante, l'analyse des caractéristiques du sujet dans un premier temps apparaît relativement passive et ne peut pas mener une prévention et un contrôle actifs.

Du point de vue du contrôle des risques, notre hypothèse de base à ce stade est la suivante : quelle que soit la manière dont les produits noirs sont forgés ou contournés, leur nature de gang ne peut pas être modifiée Il doit y avoir des similitudes et une agrégation dans les caractéristiques des données. Par conséquent, à ce stade, l’utilisation des gangs comme cible d’identification pour extraire les caractéristiques du groupe et l’utilisation de systèmes de données structurées constituent la deuxième ligne de défense qui doit être établie.

Prenons comme exemple les méthodes de brossage en constante évolution. Les méthodes de production de noir se sont progressivement transformées d'interfaces de protocole en un contrôle de groupe de machines modifié et ont évolué vers des outils de clic automatisés. Afin de prévenir et de contrôler de manière proactive, nous utilisons le modèle de regroupement de périphériques pour identifier et rappeler, et avons achevé le confinement efficace des techniques de machine ci-dessus.

Le modèle de clustering d'appareils est caractérisé par des informations de base sur l'appareil (telles que le modèle de l'appareil, la version de l'application, le noyau du système, etc.). Il effectue l'ingénierie des fonctionnalités et le calcul de similarité sur les informations de base de l'appareil des utilisateurs qui interagissent avec la même note ou le même. même blogueur. Grâce à l'algorithme clustering Class, il délimite les groupes d'appareils présentant une grande similarité. Après l'identification, d'une part, les appareils noirs sont enregistrés et une interception de comportement ultérieure est effectuée, d'autre part, les étiquettes d'appareil du groupe d'appareils noirs sont émises pour étendre la base de données des appareils noirs. Ce modèle est un modèle non supervisé et peut bien s'adapter aux caractéristiques des produits noirs qui changent fréquemment de méthode de triche. Il peut également compléter les stratégies en ligne et élargir le rappel.

Ce qui suit est l'organigramme du modèle et le cas d'identification des clusters :

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

Dans l'ensemble du modèle, nous nous appuyons sur l'ingénierie des fonctionnalités et le filtrage des clusterspour effectuer un clustering de haute précision et de rappel des équipements noirs. :

Ingénierie des fonctionnalités : Dans la première étape, nous avons établi un système de fonctionnalités complet et hautement réutilisable. À ce stade, nous avons analysé les caractéristiques de l'équipement du gang et sélectionné les caractéristiques appropriées de l'équipement en 20 à 30 dimensions comme entrée. le rappel du modèle est garanti à partir de la source de données.
Criblage des clusters : Dans la confrontation continue du contrôle des risques, nous avons accumulé suffisamment de balises d'appareils et de bibliothèques noires d'appareils. Lors du filtrage des résultats de sortie du modèle de clustering, ces appareils noirs sont utilisés comme graines pour calculer la concentration de production noire, éliminant ainsi les clusters de périphériques précis et à rappel élevé.

3.3.3 Découverte de sujets basée sur des graphiques

Comme mentionné ci-dessus, la méthode de brossage du volume évoluera progressivement vers une personne réelle contre une personne réelle lorsque l'industrie noire découvrira que les méthodes mécaniques ne peuvent pas contourner le contrôle des risques, ils choisiront de recruter en crowdsourcing ou d'organiser des méthodes de brossage mutuel, et tenteront d'utiliser le comportement de personnes réelles pour brosser le volume. Bien qu’il s’agisse d’actions de personnes réelles, leur essence est qu’elles manquent de volonté réelle et sont des « pièces contrefaites ». Non seulement l’analyse des principales caractéristiques du comportement de personnes réelles peut ne pas détecter d’anomalies, mais en outre, les caractéristiques de groupe ne peuvent pas être trouvées sur l’équipement.

En raison de la particularité du comportement de brossage du volume, notre hypothèse raisonnable est que quelle que soit la manière dont nous modifions la méthode, la direction ultime du comportement de brossage du volume est le corps principal du volume d'achat tant qu'il y a une corrélation de sujet. , le comportement peut être analysé à travers les caractéristiques des données Identifier les rappels. À ce stade, Xiaohongshu s'appuie sur des communautés uniques, des graphiques de comportement de commerce électronique et des graphiques de brossage de volumes et d'ordres pour découvrir et exploiter activement un groupe de sujets comportementaux. Il utilise des algorithmes d'association d'entités et de graphiques pour identifier les utilisateurs tricheurs réels ou ceux qui le font. Le rappel des utilisateurs permet de retrouver efficacement les « poissons qui ont glissé à travers le filet ».

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

* Figure 1 : Diagramme d'association des notes appréciées par les utilisateurs normaux

(les points rouges sont des notes, les points bleus sont des utilisateurs)

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

* Figure 2 : Che manger Diagramme de corrélation des notes aimées par les utilisateurs

(les points rouges sont des notes, les points bleus sont des utilisateurs)

Figure 1 : Parmi les notes aimées par 7 utilisateurs normaux, une seule note se chevauche. notez avec le point rouge au milieu.

Figure 2 : Les notes aimées par 9 utilisateurs tricheurs sont le même lot de notes. Les notes aimées se chevauchent fortement et ils n'ont pas aimé d'autres notes que ce lot de notes.

L'image ci-dessus montre le diagramme de corrélation comportementale entre les utilisateurs et les notes (le rouge est la note, le bleu est l'utilisateur). La figure 1 montre la relation de corrélation comportementale entre les utilisateurs normaux qui aiment les notes normales. La corrélation des utilisateurs comportementaux est faible et non Un grand nombre de personnes seront d'accord avec un groupe de notes, mais il y aura des chevauchements occasionnels car le système recommande des notes du même type en raison de leurs « passe-temps ». Dans la figure 2, l'utilisateur comportemental aime un lot de notes de triche, qui ont une forte pertinence pour la communauté et constituent un diagramme de corrélation de comportement typique d'utilisateurs tricheurs aimant les notes de triche.

Prenons l'exemple du brossage mutuel « conduisant », c'est-à-dire qu'après avoir reçu la tâche de brossage en volume, l'industrie noire agit en tant qu'organisateur et intermédiaire, confie des tâches aux personnes qui participent souvent au brossage mutuel (comme les likes mutuels), et brosse les cibles désignées. Les produits noirs ne publieront pas qu'une seule tâche, et les utilisateurs comportementaux n'effectueront pas qu'une seule tâche. Il existe un « cercle » relativement fixe entre les deux. Pour ce type de triche, nous avons utilisé le modèle de propagation des étiquettes pour rappeler les utilisateurs de la communauté par lots.

Le modèle de propagation des étiquettes s'appuie sur la carte de contrôle des risques pour diffuser les utilisateurs de graines. Les utilisateurs de graines sont issus des utilisateurs de pinceaux qui ont été identifiés et précipités par le contrôle des risques. Les sujets associés sont les notes d'achat, les blogueurs d'achat, etc., sur la base de la carte de contrôle des risques Propagation des relations point-bord. De vraies personnes sont habituées à brosser le volume, et l'équipement et les comptes sont limités. Afin d'atteindre l'objectif de brosser le volume, les utilisateurs comportementaux permettront aux petits comptes d'accepter plusieurs tâches à plusieurs reprises. Le but de la propagation des balises est de diffuser les balises de brossage à d'autres utilisateurs de brossage de la communauté par le chemin correct pour compléter l'identification et le rappel du brossage.

Chemin de propagation : Les balises utilisateur seront propagées via des chemins forts tels que les appareils et les comptes tiers, ainsi que via des chemins associés avec les acheteurs tels que les notes, les auteurs, etc.
Balises utilisateur : Étant donné que les utilisateurs qui brossent le volume sont de vraies personnes, les étiquettes attribuées aux utilisateurs via la propagation des étiquettes ne peuvent souvent pas être directement interceptées. Par conséquent, sur la base de l'hypothèse de base selon laquelle de vraies personnes brossent le volume, nous avons. effectué les balises sous les sujets d'achat. Analyse d'agrégation pour identifier les entités acheteuses et laver les utilisateurs du volume.

4. Penser en dehors de la technologie pour résoudre les problèmes

Ce qui précède est principalement basé sur la technologie pour résoudre les problèmes, mais dans le travail réel, nous devons également sortir de la perspective technique et aider l'entreprise et améliorer la sécurité d'un point de vue plus point de vue macro. Sur la base de cet objectif, tout en explorant en profondeur la technologie, nous avons développé un ensemble de méthodologies implémentables et efficaces : Commencez par éliminer l'impact des problèmes, puis résolvez les fauteurs de troubles, et enfin éliminez les motivations qui causent des problèmes.

Pour prévenir et contrôler la « fausse plantation dherbe », léquipe technique de Xiaohongshu a fait ces choses majeures

Trois points pour résoudre le problème

Éliminer l'impact du problème

Après avoir identifié les objets et les données tricheurs par des moyens techniques, effectuer des actions de gestion et d'élimination réelles, et Fake le trafic est bloqué depuis la plateforme.

Résolvez les fauteurs de troubles

Réprimez les personnes dans cette chaîne industrielle et tous les maillons, y compris les transactions de compte, les transactions de données de plateforme, les personnes effectuant des transactions, etc. Ici, nous utilisons une opération conjointe entre les services de contrôle des risques et les services juridiques pour lutter contre les fauteurs de troubles. De juin à août de cette année, six MCN et certains auteurs qui se sont livrés à du brossage de volumes ont été sévèrement punis et des poursuites ont été lancées contre eux.

Dans le scénario du commerce électronique, les commerçants qui falsifient des commandes le font principalement pour attirer du trafic et obtenir un GMV plus élevé. Les comptes marchands identifiés seront remis aux étudiants en opération pour jugement professionnel, et seront remis au côté des règles pour être punis en fonction de la gravité du mauvais comportement ; les utilisateurs ayant un mauvais comportement seront placés sur une liste noire et leur commande sera effectuée. le comportement sera limité par le contrôle des risques.

Aborder les motivations qui causent des problèmes

Le but des acheteurs en volume dans le scénario communautaire est de réaliser sa valeur commerciale en trichant, et ce que nous devons faire est de réduire la valeur commerciale de ces utilisateurs ou institutions. Le contrôle des risques s'associe aux services écologiques et opérationnels, pour sanctionner les trafics frauduleux conformément aux règles de la plateforme, aux lois et règlements, etc. Après des répressions continues, le coût des comptes illégaux est devenu plus élevé, le prix des services de brossage continue d'augmenter, le prix unitaire des likes et des collections a augmenté de plus de 300 % et la volonté des utilisateurs de tricher diminue progressivement.

Depuis 2022, Xiaohongshu a nettoyé 3,1 milliards de likes tricheurs au total. On peut voir que l'attitude de la plateforme en matière de révision du volume a toujours été très résolue.

(Auteur de cet article : Département des technologies de sécurité de Xiaohongshu, Lu Xun Shiying Wang Ma Ye Feng Shi Hao Lao Pi)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Le premier ensemble de données scientifiques multimodales de questions et réponses avec des explications détaillées, le raisonnement du modèle d'apprentissage profond a une chaîne de réflexionArticle suivant：Le premier ensemble de données scientifiques multimodales de questions et réponses avec des explications détaillées, le raisonnement du modèle d'apprentissage profond a une chaîne de réflexion

Articles Liés

Voir plus