Maison  >  Article  >  Périphériques technologiques  >  OpenAI développe un nouvel outil pour tenter d'expliquer le comportement des modèles de langage

OpenAI développe un nouvel outil pour tenter d'expliquer le comportement des modèles de langage

WBOY
WBOYavant
2023-05-12 10:28:051120parcourir

Le modèle linguistique est une technologie d'intelligence artificielle qui peut générer un langage naturel à partir d'un texte donné. Les modèles de langage de la série GPT d'OpenAI sont actuellement l'un des représentants les plus avancés, mais IT House a remarqué qu'ils ont également un problème : leur comportement est difficile à comprendre et à prévoir. Pour rendre les modèles de langage plus transparents et plus fiables, OpenAI développe un nouvel outil capable d'identifier automatiquement les parties d'un modèle de langage qui sont responsables de son comportement et de l'expliquer en langage naturel.

OpenAI développe un nouvel outil pour tenter dexpliquer le comportement des modèles de langage

Le principe de cet outil est d'utiliser un autre modèle de langage (c'est-à-dire le dernier GPT-4 d'OpenAI) pour analyser la structure interne d'autres modèles de langage (tels que le propre GPT-2 d'OpenAI). Un modèle de langage est composé de nombreux « neurones », chacun pouvant observer un modèle spécifique dans le texte et influencer la sortie suivante du modèle. Par exemple, étant donné une question sur les super-héros (telle que « Quels super-héros ont les super-pouvoirs les plus utiles ? »), un « Neurone de super-héros Marvel » pourrait augmenter la probabilité que le modèle mentionne un super-héros spécifique d'un film Marvel.

Les outils d'OpenAI utilisent ce mécanisme pour décomposer les différentes parties du modèle. Premièrement, il alimente une séquence de texte dans le modèle en cours d'évaluation et attend qu'un certain neurone se "déclenche" fréquemment. Il « montre » ensuite ces neurones hautement actifs à GPT-4 et laisse GPT-4 générer une explication. Pour déterminer l'exactitude de l'interprétation, il alimente GPT-4 en séquences de texte et lui demande de prédire ou de simuler le comportement du neurone. Il compare ensuite le comportement des neurones simulés au comportement des neurones réels.

"Avec cette approche, nous pouvons essentiellement générer des explications préliminaires en langage naturel pour chaque neurone, et également avoir un score pour mesurer dans quelle mesure ces explications correspondent au comportement réel." Jeff, chef de l'équipe d'alignement évolutif OpenAI "Nous avons utilisé GPT-4 comme " Cela fait partie d'un processus visant à générer des explications sur ce que le neurone recherche et à évaluer dans quelle mesure ces explications correspondent à ce qu'il fait réellement", a déclaré Wu.

Les chercheurs ont pu générer un nouvel ensemble de paramètres pour tous les neurones du GPT. -2. 307 200 neurones génèrent des interprétations et les compilent dans un ensemble de données publié en open source sur GitHub avec le code de l'outil. Des outils comme celui-ci pourraient un jour être utilisés pour améliorer les performances des modèles de langage, par exemple en réduisant les préjugés ou les discours nuisibles. Mais ils admettent également qu’il reste encore un long chemin à parcourir avant que cela soit vraiment utile. L’outil est sûr de son interprétation d’environ 1 000 neurones, soit une petite fraction du total.

On pourrait affirmer que cet outil est en fait une publicité pour GPT-4 puisqu'il nécessite GPT-4 pour s'exécuter. Mais Wu dit que ce n’est pas le but de l’outil, que son utilisation de GPT-4 était « accidentelle » et qu’il montre plutôt la faiblesse de GPT-4 dans ce domaine. Il a également déclaré qu'il n'a pas été créé pour des applications commerciales et qu'il pourrait théoriquement être adapté à d'autres modèles de langage que GPT-4.

"La plupart des explications ont obtenu un score très faible, ou n'expliquaient pas une grande partie du comportement réel des neurones", a déclaré Wu. "Beaucoup de neurones sont actifs d'une manière difficile à déterminer, comme s'ils s'activent sur cinq ou six différents. choses. , mais il n'y a pas de modèle évident. Parfois, il existe un modèle évident, mais GPT-4 ne peut pas le trouver. "

Sans parler des modèles plus complexes, plus récents et plus grands, ou des modèles qui peuvent parcourir le Web pour obtenir des informations. Mais pour ce dernier, Wu estime que la navigation sur le Web ne changera pas trop les mécanismes de base de l'outil. Il suffit de quelques ajustements, dit-il, pour comprendre pourquoi les neurones décident d'effectuer certaines requêtes sur les moteurs de recherche ou de visiter des sites Web spécifiques.

"Nous espérons que cela ouvrira une voie prometteuse pour résoudre le problème d'explicabilité de manière automatisée, afin que d'autres puissent s'appuyer sur cela et contribuer." Wu a déclaré: "Nous espérons pouvoir vraiment bien expliquer le comportement de ceux-ci." modèles. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer