Maison >Périphériques technologiques >IA >En identifiant la « fraude ChatGPT », l'effet surpasse OpenAI : l'Université de Pékin et les détecteurs générés par l'IA de Huawei sont ici

En identifiant la « fraude ChatGPT », l'effet surpasse OpenAI : l'Université de Pékin et les détecteurs générés par l'IA de Huawei sont ici

王林
王林avant
2023-06-03 20:49:071193parcourir

Avec l’avancée continue des grands modèles génératifs, le corpus qu’ils génèrent se rapproche progressivement de celui des humains. Bien que les grands modèles libèrent les mains d'innombrables employés, leur puissante capacité à simuler de fausses mains a également été utilisée par certains criminels, provoquant une série de problèmes sociaux :

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

Des chercheurs de l'Université de Pékin et de Huawei ont proposé un détecteur de texte fiable capable d'identifier divers corpus générés par l'IA. Selon les différentes caractéristiques des textes longs et courts, une méthode d'entraînement au détecteur de texte généré par l'IA multi-échelle et basée sur l'apprentissage PU est proposée. En améliorant le processus de formation des détecteurs, des améliorations considérables des capacités de détection sur les corpus ChatGPT longs et courts peuvent être obtenues dans les mêmes conditions, résolvant ainsi le problème de la faible précision de la reconnaissance de textes courts par les détecteurs actuels.


Adresse papier : https://arxiv.org/abs/2305.18149En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

Adresse code (MindSpore) : https://github.com/mindspore-lab/mindone/tree/master/ examples/detect_chatgpt

  • Adresse de code (PyTorch) : https://github.com/YuchuanTian/AIGC_text_detector
  • IntroductionComme l'effet de génération de grands modèles de langage devient de plus en plus plus réaliste, diverses industries ont besoin de toute urgence d'un détecteur de texte fiable généré par l'IA. Cependant, différents secteurs ont des exigences différentes en matière de corpus de détection. Par exemple, dans le monde universitaire, il est généralement nécessaire de détecter des textes académiques volumineux et complets ; sur les plateformes sociales, les fausses nouvelles relativement courtes et fragmentées doivent être détectées. Cependant, les détecteurs existants ne peuvent souvent pas répondre à divers besoins. Par exemple, certains détecteurs de texte IA traditionnels ont généralement de faibles capacités de prédiction pour des corpus plus courts. Concernant les différents effets de détection de corpus de différentes longueurs, l'auteur a observé qu'il peut y avoir une certaine « incertitude » dans l'attribution de textes plus courts générés par l'IA ou, pour le dire plus crûment, à cause de certaines phrases courtes générées par l'IA ; souvent également utilisé par les humains, il est difficile de déterminer si le texte court généré par l’IA provient d’humains ou d’IA. Voici plusieurs exemples de personnes et d'IA répondant respectivement à la même question :

On voit à partir de ces exemples qu'il est difficile d'identifier les réponses courtes générées par l'IA : ce type de corpus est trop différent de celle des gens, il est difficile de juger strictement ses véritables propriétés. Par conséquent, il est inapproprié d’annoter simplement des textes courts comme étant humains/IA et d’effectuer une détection de texte selon les problèmes de classification binaire traditionnels.

En réponse à ce problème, cette étude transforme la partie détection de la classification binaire humain/IA en un problème d'apprentissage partiel PU (Positive-Unlabeled), c'est-à-dire que dans des phrases plus courtes, le langage humain est positif, le langage machine est Sans étiquette, ce qui améliore la fonction de perte d'entraînement. Cette amélioration améliore significativement les performances de classification du détecteur sur différents corpus.

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont iciDétails de l'algorithme

Dans le cadre d'apprentissage PU traditionnel, un modèle de classification binaire ne peut apprendre que sur la base d'échantillons d'entraînement positifs et d'échantillons d'entraînement non étiquetés. Une méthode d'apprentissage PU couramment utilisée consiste à estimer la perte de classification binaire correspondant aux échantillons négatifs en formulant la perte PU :

Parmi eux, En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici représente la perte de classification binaire calculée par les échantillons positifs et les étiquettes positives ; En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici représente la perte de classification binaire calculée en supposant que tous les échantillons non étiquetés sont des étiquettes négatives ; En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici représente la perte de classification binaire calculée par ; en supposant que les échantillons positifs sont des étiquettes négatives. La perte de classification binaire En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici représente la probabilité d'échantillon positif antérieur, c'est-à-dire la proportion estimée d'échantillons positifs dans tous les échantillons PU ; Dans l'apprentissage PU traditionnel, le prior En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici est généralement défini sur un hyperparamètre fixe. Cependant, dans le scénario de détection de texte, le détecteur doit traiter divers textes de longueurs différentes ; et pour les textes de longueurs différentes, la proportion estimée d'échantillons positifs parmi tous les échantillons PU de même longueur que l'échantillon est également différente. Par conséquent, cette étude améliore la perte de PU et propose une fonction de perte de PU multi-échelle (MPU) sensible à la longueur.

Plus précisément, cette étude propose un modèle récurrent abstrait pour modéliser la détection de textes plus courts. Lorsque la PNL traditionnelle modélise des séquences de processus, elles ont généralement une structure de chaîne de Markov, telle que RNN, LSTM, etc. Le processus de ce type de modèle cyclique peut généralement être compris comme un processus progressivement itératif, c'est-à-dire que la prédiction de chaque sortie de jeton est obtenue en transformant et en fusionnant les résultats de prédiction du jeton précédent et de la séquence précédente avec les résultats de prédiction de cette séquence. jeton. C'est-à-dire le processus suivant :

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

Afin d'estimer la probabilité a priori sur la base de ce modèle abstrait, il est nécessaire de supposer que le résultat du modèle est la confiance qu'une certaine phrase est positive, c'est-à-dire , il est jugé prononcé par une personne avec une probabilité d'échantillonnage. On suppose que la taille de la contribution de chaque jeton est l'inverse de la longueur du jeton de phrase, qu'elle est positive, c'est-à-dire sans étiquette, et que la probabilité d'être sans étiquette est bien supérieure à la probabilité d'être positive. Car à mesure que le vocabulaire des grands modèles se rapproche progressivement de celui des humains, la plupart des mots apparaîtront aussi bien dans l’IA que dans les corpus humains. Sur la base de ce modèle simplifié et de la probabilité de jeton positive définie, l'estimation préalable finale est obtenue en trouvant l'espérance totale de la confiance de sortie du modèle dans différentes conditions d'entrée.

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

Grâce à des dérivations théoriques et à des expériences, on estime que la probabilité a priori augmente à mesure que la longueur du texte augmente, et finit par se stabiliser. Ce phénomène est également conforme aux attentes, car à mesure que le texte s'allonge, le détecteur peut capturer plus d'informations, et « l'incertitude source » du texte s'affaiblit progressivement :

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

Après cela, pour chaque positif Pour un échantillon, la perte PU est calculée sur la base d'un a priori unique dérivé de la longueur de son échantillon. Enfin, étant donné que les textes plus courts n'ont qu'une certaine « incertitude » (c'est-à-dire que les textes plus courts contiendront également des caractéristiques textuelles de certaines personnes ou de l'IA), la perte binaire et la perte MPU peuvent être pondérées et ajoutées comme objectif d'optimisation final :

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

De plus, il convient de noter que la perte de MPU s'adapte à des corpus d'entraînement de différentes longueurs. Si les données de formation existantes sont évidemment homogènes et que la majeure partie du corpus est constituée de textes longs et volumineux, la méthode MPU ne peut pas exercer pleinement son efficacité. Afin de diversifier la durée du corpus de formation, cette étude introduit également un module multi-échelle au niveau de la phrase. Ce module couvre de manière aléatoire certaines phrases du corpus de formation et réorganise les phrases restantes tout en conservant l'ordre d'origine. Après une exploitation à plusieurs échelles du corpus de formation, le texte de formation a été considérablement enrichi en longueur, exploitant ainsi pleinement l'apprentissage PU pour la formation au détecteur de texte IA.

Résultats expérimentaux

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

Comme le montre le tableau ci-dessus, l'auteur a d'abord testé l'effet de la perte de MPU sur l'ensemble de données de corpus plus court généré par l'IA, Tweep-Fake. Le corpus de cet ensemble de données est constitué de segments relativement courts sur Twitter. L'auteur remplace également la perte traditionnelle à deux catégories par un objectif d'optimisation contenant la perte de MPU basé sur un réglage fin du modèle de langage traditionnel. Le détecteur de modèle de langage amélioré est plus efficace et surpasse les autres algorithmes de base.

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

L'auteur a également testé le texte généré par chatGPT. Le détecteur de modèle de langage obtenu par un réglage fin traditionnel a donné de mauvais résultats sur les phrases courtes ; le détecteur formé dans les mêmes conditions via la méthode MPU a mieux fonctionné sur les phrases courtes ; Les performances des phrases sont bonnes et, en même temps, elles peuvent améliorer considérablement le corpus complet. Le score F1 est augmenté de 1 %, dépassant les algorithmes SOTA tels qu'OpenAI et DetectGPT.

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

Comme le montre le tableau ci-dessus, l'auteur a observé le gain d'effet apporté par chaque partie de l'expérience d'ablation. La perte de MPU améliore l'effet de classification des matériaux longs et courts.

En identifiant la « fraude ChatGPT », leffet surpasse OpenAI : lUniversité de Pékin et les détecteurs générés par lIA de Huawei sont ici

L'auteur a également comparé le PU traditionnel et le PU multi-échelle (MPU). Le tableau ci-dessus montre que l'effet MPU est meilleur et peut mieux s'adapter à la tâche de détection de texte multi-échelle de l'IA.

Résumé

L'auteur a résolu le problème de la reconnaissance de phrases courtes par détecteur de texte en proposant une solution basée sur l'apprentissage PU multi-échelle Avec la prolifération des modèles de génération AIGC dans le futur, la détection de ce type de contenu. deviendra de plus en plus populaire. Cette recherche a fait un grand pas en avant dans la question de la détection de texte par l'IA. On espère que d'autres recherches similaires seront menées à l'avenir pour mieux contrôler le contenu AIGC et empêcher l'abus du contenu généré par l'IA.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer