Maison  >  Article  >  Périphériques technologiques  >  Application de la technologie de reconnaissance des émotions textuelles basée sur l'apprentissage profond dans la plateforme de gestion et de contrôle de la sécurité des mauvaises nouvelles 5G

Application de la technologie de reconnaissance des émotions textuelles basée sur l'apprentissage profond dans la plateforme de gestion et de contrôle de la sécurité des mauvaises nouvelles 5G

王林
王林avant
2023-04-09 16:41:061565parcourir

Auteur | Sun Yue, unité : China Mobile (Hangzhou) Information Technology Co., Ltd. | China Mobile Hangzhou R&D Center

Labs Introduction

Avec la popularisation continue des réseaux 5G, un grand nombre d'utilisateurs ont commencé à entrer en contact et utiliser les réseaux 5G. Les réseaux 5G peuvent non seulement transmettre la voix, la vidéo, le texte et d'autres informations des réseaux traditionnels, mais peuvent également être utilisés dans des scénarios d'application plus pratiques avec une latence plus faible et des capacités de positionnement de haute précision, telles que : informations en direct sur le champ de bataille, positionnement par satellite, navigation, etc.

Les informations sur Internet sont souvent mélangées à de mauvaises informations, telles que des informations à caractère politique, des informations pornographiques, des informations sur les Noirs, des informations sur la fraude, des informations sur la publicité commerciale, etc., et la quantité de les mauvaises informations augmentent d'année en année, donnant aux utilisateurs un énorme harcèlement. Afin de purifier l'environnement réseau et de contrôler efficacement la propagation des mauvaises informations, la plateforme de gestion et de contrôle de la sécurité des mauvaises nouvelles 5G de China Mobile a vu le jour.

Application de la technologie de reconnaissance des émotions textuelles basée sur lapprentissage profond dans la plateforme de gestion et de contrôle de la sécurité des mauvaises nouvelles 5G

Source de données : China Mobile Group Information Security Center

1. réseaux Dans l'environnement de l'information, tel que les messages texte, les informations vocales, les informations vidéo, les informations multimédias riches, etc., les informations sont classées en : messages publicitaires politiques, pornographiques, liés aux gangs, liés à la fraude, messages publicitaires commerciaux, messages normaux. messages, etc., puis grâce aux stratégies correspondantes Effectuer une interception en temps opportun et des sanctions de suivi en fonction de la gravité des mauvaises nouvelles, purifier l'environnement réseau de la cause profonde et créer un bon cyberespace.

Application de la technologie de reconnaissance des émotions textuelles basée sur lapprentissage profond dans la plateforme de gestion et de contrôle de la sécurité des mauvaises nouvelles 5G 2. Points techniques de la plateforme 5G existante de gestion et de contrôle des mauvaises informations

La plateforme intercepte principalement les mauvaises informations via les méthodes suivantes :

①Définir des mots-clés de premier niveau

 : les mots-clés de premier niveau sont généralement définis sur des mots extrêmement sensibles. Si l'utilisateur envoie un message contenant un contenu de mot-clé de premier niveau, le message sera immédiatement intercepté et le contenu du message ne pourra pas être distribué. , et identifiez cet utilisateur.

②Définir des mots-clés communs

 : les mots-clés communs sont définis sur des mots relativement sensibles. Si l'utilisateur envoie un message contenant un contenu de mot-clé commun, et dans un certain laps de temps, le nombre de fois où l'utilisateur envoie le message sensible dépasse. le numéro prédéterminé du système Si le seuil d'interception est défini, le système placera l'utilisateur dans la liste noire et, dans un certain laps de temps, l'utilisateur ne pourra pas utiliser l'intégralité du service réseau 5G.

③Définissez la surveillance des informations textuelles complexes

 : si l'utilisateur envoie un fichier PDF contenant du texte et des images, le texte du fichier sera extrait et les mots-clés de premier niveau et les mots-clés courants seront filtrés, et le les images seront traitées Le filtrage du mécanisme Rich Media, basé sur les résultats de filtrage du texte et des images, adopte le principe d'un traitement intensif comme résultat du traitement du fichier.

3. Faiblesses techniques de la plateforme existante de contrôle des mauvaises nouvelles de la 5G

Le mécanisme de filtrage de la plateforme existante de contrôle de la sécurité des mauvaises nouvelles de la 5G ne peut filtrer que les phrases spécifiées et limitées et les phrases courtes. Avec la popularisation d'Internet, un nouveau vocabulaire apparaît chaque jour en grand nombre. Il n'est plus possible de mettre à jour la bibliothèque de vocabulaire en temps opportun et rapidement en ajoutant simplement du vocabulaire. De plus, lorsqu'un grand nombre d'utilisateurs envoient aujourd'hui des messages texte, même si l'intégralité du message texte ne contient pas de mots illégaux, les pensées et les émotions exprimées peuvent contenir un grand nombre de tendances émotionnelles négatives. Les mots et les phrases courtes ne peuvent à eux seuls intercepter avec succès le contenu émotionnel négatif. . Par conséquent, l'utilisation de l'analyse des sentiments textuels pour soumettre des phrases riches en tendances émotionnelles négatives pour examen et interception peut renforcer encore l'effet d'un mauvais contrôle de l'information et réduire l'érosion et l'empoisonnement des utilisateurs par les informations de spam.

En établissant une bibliothèque d'émotions textuelles contenant des phrases courtes et des messages d'actualité populaires sur Internet, les émotions riches dans le texte sont divisées en trois catégories : les émotions positives, les émotions neutres et les émotions négatives, et chacune d'elles est classée en fonction de celles-ci. trois catégories. Ajoutez les étiquettes correspondantes au texte et utilisez le réseau d'apprentissage profond pour entraîner le texte dans la bibliothèque émotionnelle. Le modèle formé peut être utilisé dans la plateforme de gestion et de contrôle des mauvaises nouvelles 5G pour intercepter les mauvais messages émotionnels.

4. Détails techniques de mise en œuvre du système de gestion et de contrôle des mauvaises performances 5G basé sur l'apprentissage en profondeur

Cette technologie contient trois corps principaux : le système de segmentation de mots Jieba, la vectorisation de phrases et Algorithme de reconnaissance d'émotion de texte, l'interaction entre chaque sujet est la suivante :

Organigramme d'interaction de chaque module

Utilisez la technologie d'exploration pour explorer les mots Internet et les messages d'actualité en tant que texte original, et divisez le texte original en un ensemble d'entraînement et un ensemble de test dans un rapport de 8:2, étiquetez les informations textuelles dans l'ensemble d'entraînement, puis transmettez le texte informations contenues dans l'ensemble de tests via L'outil de segmentation de mots jieba effectue un traitement de segmentation de mots, par exemple : Il est venu au bâtiment Mobile Hangyan. Après la segmentation des mots via l'outil de segmentation des mots jieba, le résultat est : il/est venu/déplacé/Hangyan/bâtiment, et enfin les données après la segmentation des mots ont été organisées en un corpus. Étant donné que la quantité d'informations textuelles dans l'ensemble d'apprentissage et l'ensemble de test est très importante (généralement des millions de données), la quantité de données dans le corpus de segmentation post-mot sera également très importante (des dizaines de millions de données). Bien que ces corpus puissent être stockés sous une forme numérotée dans le corpus, en raison de l’énorme quantité de données, il est facile de souffrir du désastre de la dimensionnalité. Par conséquent, pour les particules modales qui apparaissent dans les informations textuelles, telles que : "le", "的", "我", etc., bien que ces mots apparaissent très fréquemment, ils ont peu de contribution à l'effet émotionnel, nous choisirons donc pour éliminer ces mots du corpus Phrases afin d'atteindre l'objectif de réduction des dimensions.

Nous envoyons les phrases vectorisées de l'ensemble de formation dans le réseau d'apprentissage profond pour l'apprentissage et la formation, et obtenons le modèle correspondant. Enfin, nous mettons les données de l'ensemble de test dans le modèle pour afficher les résultats de reconnaissance correspondants. le modèle peut obtenir un meilleur Lorsque le taux de précision est bon, le modèle est connecté à la mauvaise plate-forme de gestion et de contrôle 5G et l'utilisateur envoie des informations de bout en bout pour le filtrage. Au cours du processus de filtrage, si de mauvaises informations sont trouvées, elles seront interceptées à temps, ce qui rendra le système de gestion et de contrôle des mauvaises informations 5G plus systématique et complet dans l'interception des mauvaises informations.

Application de la technologie de reconnaissance des émotions textuelles basée sur lapprentissage profond dans la plateforme de gestion et de contrôle de la sécurité des mauvaises nouvelles 5G

Les étapes spécifiques sont les suivantes :

  1. Explorer le corpus de texte original à partir d'Internet et prétraiter le texte original, notamment : supprimer les particules modales, supprimer les signes de ponctuation qui apparaissent dans le texte, dans la zone vide, supprimez les terminateurs, les mots clairsemés et les mots spécifiques qui apparaissent dans le texte ; utilisez la bibliothèque jieba pour la segmentation des mots afin de couper avec précision les phrases de texte en fonction des phrases et de les diviser en phrases distinctes ; est divisé en un ensemble d'entraînement et un ensemble de test selon une certaine proportion, et les phrases de texte de l'ensemble d'entraînement sont annotées manuellement en : émotions positives, émotions négatives et émotions neutres. Et utilisez la bibliothèque jieba pour segmenter les phrases de texte dans l'ensemble d'entraînement et l'ensemble de test respectivement, et construisez l'ensemble d'entraînement segmenté dans un corpus
  2. Vectorisez les phrases de l'étape 1 afin que chaque segmentation soit mappée à une valeur continue multidimensionnelle ; vector , récupère la matrice vectorielle de mots de l’ensemble des données.
  3. Réduisez la complexité de la phrase en extrayant d'abord la clause où se trouve le mot émotionnel, puis prédisez la position de l'objet émotionnel dans la proposition en fonction de diverses caractéristiques, puis extrayez l'émotion de la position correspondante. L'extraction d'émotions consiste à obtenir des informations émotionnelles précieuses dans un texte et à déterminer le rôle qu'un mot ou une phrase joue dans l'expression émotionnelle, y compris des tâches telles que l'identification de l'expression émotionnelle, l'identification de l'objet d'évaluation et l'identification des mots du point de vue émotionnel.
  4. Obtenez un modèle de reconnaissance d'émotion textuelle en envoyant les vecteurs d'émotion obtenus par les opérations ci-dessus dans le réseau d'apprentissage profond, puis envoyez les vecteurs d'émotion de l'ensemble de test dans le modèle, affichez les résultats du test et continuez à filtrer les données avec la normale résultats de détection utilisant des stratégies conventionnelles, telles que : correspondance de texte, reconnaissance multimédia riche, etc.

5. Avantages du système d'interception 5G intégré au deep learning

Par rapport au système d'interception 5G existant, le système d'interception 5G intégré au deep learning présente les avantages suivants :

Utilisez la technologie d'apprentissage profond pour fournir une identification efficace avec une fiabilité et une authenticité élevées ;
  • Utilisez la technologie d'apprentissage profond pour la reconnaissance des émotions, avec moins d'intervention manuelle et une efficacité de travail élevée
  • Utilisez la reconnaissance des émotions textuelles pour compléter efficacement les lacunes d'interception de mots clés ;
  • Grâce à la reconnaissance des émotions textuelles, la stratégie peut être automatiquement mise à jour et complétée par de nouvelles informations d'entrée en temps opportun pour améliorer l'efficacité.

Écrit à la fin :

À l'heure actuelle, le champ d'application du deep learning est très large En s'appuyant sur ses méthodes de formation répétées et d'auto-apprentissage, il peut réduire considérablement la charge de travail manuelle et améliorer l'efficacité et la précision. Non seulement elle convient au mauvais système d'interception d'informations mentionné ci-dessus, mais je pense que dans un avenir proche, cette technologie brillera également dans d'autres domaines émergents. Bien entendu, l’apprentissage profond en lui-même n’est pas parfait et ne peut pas résoudre tous les problèmes épineux. Pour cette raison, nous devons continuer à investir dans la technologie du deep learning dans de nouveaux scénarios et de nouveaux domaines afin de réaliser de nouvelles avancées et de créer une vie intelligente future meilleure.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer