Maison > Article > Périphériques technologiques > OpenAI utilise GPT-4 pour expliquer les 300 000 neurones de GPT-2 : voici à quoi ressemble la sagesse
Bien que ChatGPT semble rapprocher les humains de la recréation de l'intelligence, jusqu'à présent, nous n'avons jamais complètement compris ce qu'est l'intelligence, qu'elle soit naturelle ou artificielle.
Il est évidemment nécessaire de comprendre les principes de l'intelligence. Comment comprendre l'intelligence des grands modèles de langage ? La solution proposée par OpenAI est la suivante : demandez ce que dit GPT-4.
Le 9 mai, OpenAI a publié ses dernières recherches, qui ont utilisé GPT-4 pour interpréter automatiquement le comportement des neurones dans de grands modèles de langage, et ont obtenu de nombreux résultats intéressants.
Une façon simple d'étudier l'interprétabilité est d'abord de comprendre ce que font les différentes composantes du modèle d'IA (neurones et têtes d'attention). Les méthodes traditionnelles nécessitent que les humains inspectent manuellement les neurones pour déterminer les caractéristiques des données qu'ils représentent. Ce processus est difficile à mettre à l’échelle et son application à des réseaux de neurones comportant des centaines ou des centaines de milliards de paramètres est d’un coût prohibitif.
OpenAI a donc proposé une méthode automatisée - utilisant GPT-4 pour générer et noter des explications en langage naturel du comportement des neurones et l'appliquer aux neurones dans un autre modèle de langage - ici, ils ont sélectionné GPT-2 comme échantillon expérimental et ont publié des données ensemble de ces interprétations et scores des neurones GPT-2.
Cette technologie permet aux gens d'utiliser GPT-4 pour définir et mesurer automatiquement le concept quantitatif d'interprétabilité des modèles d'IA : elle est utilisée pour mesurer la capacité des modèles de langage à utiliser le langage naturel pour compresser et reconstruire les activations neuronales. En raison de leur nature quantitative, nous pouvons désormais mesurer les progrès dans la compréhension des objectifs informatiques des réseaux de neurones.
OpenAI a déclaré qu'en utilisant la référence qu'ils ont établie, le score d'utilisation de l'IA pour expliquer l'IA peut atteindre un niveau proche de celui des humains.
Le co-fondateur d'OpenAI, Greg Brockman, a également déclaré que nous avons franchi une étape importante vers l'utilisation de l'IA pour mener des recherches d'alignement automatisées.
La méthode d'utilisation de l'IA pour expliquer l'IA consiste à exécuter trois étapes sur chaque neurone :
Étape 1 : Utiliser GPT-4 pour générer des explications
Étant donné un neurone GPT-2, génère une explication de son comportement en affichant les séquences de texte et les activations pertinentes pour GPT-4.
Explication de la génération de modèles : références aux films, personnages et divertissements.
Étape 2 : Utilisez GPT-4 pour simuler
Utilisez à nouveau GPT-4 pour simuler ce que fera le neurone interprété.
Étape 3 : Comparaison
Les explications sont notées en fonction de la façon dont les activations simulées correspondent aux activations réelles - dans ce cas, GPT-4 a obtenu un score de 0,34.
En utilisant sa propre méthode de notation, OpenAI a commencé à mesurer l'efficacité de sa technologie sur différentes parties du réseau et à essayer d'améliorer la technologie pour les parties qui ne sont actuellement pas claires . Par exemple, leur technique ne fonctionne pas bien avec des modèles plus grands, peut-être parce que les couches ultérieures sont plus difficiles à interpréter.
OpenAI affirme que même si la grande majorité de leurs explications n'obtiennent pas un score élevé, ils pensent qu'ils peuvent désormais utiliser les techniques de ML pour améliorer encore leur capacité à générer des explications. Par exemple, ils ont constaté que les éléments suivants les ont aidés à améliorer leurs scores :
OpenAI dit qu'ils créent l'ensemble de données et les outils de visualisation écrits en GPT-4 interprétant les 307 200 neurones de GPT-2 open source. Dans le même temps, ils fournissent également du code pour l’interprétation et la notation à l’aide de modèles accessibles au public sur l’API OpenAI. Ils espèrent que la communauté des chercheurs développera de nouvelles techniques pour générer des explications plus performantes, ainsi que de meilleurs outils pour explorer GPT-2 à travers des explications.
Ils ont découvert qu'il y avait plus de 1 000 neurones avec un score d'explication d'au moins 0,8, ce qui signifie qu'ils représentaient la plupart des principaux comportements d'activation des neurones selon GPT-4. La plupart de ces neurones bien expliqués ne sont pas très intéressants. Cependant, ils ont également découvert de nombreux neurones intéressants que GPT-4 ne comprenait pas. OpenAI espère qu’à mesure que les explications s’améliorent, ils pourront rapidement découvrir des informations qualitatives intéressantes sur les calculs des modèles.
Voici quelques exemples de neurones activés dans différentes couches, les couches supérieures étant plus abstraites :
On dirait, GPT comprend-il les concepts différemment des humains ?
Travaux futurs d'OpenAIActuellement, cette méthode présente encore certaines limites, qu'OpenAI espère résoudre dans les travaux futurs :
À terme, OpenAI espère utiliser des modèles pour former, tester et itérer des hypothèses complètement générales, tout comme le font les chercheurs en explicabilité. De plus, OpenAI espère interpréter ses plus grands modèles comme un moyen de détecter les problèmes d'alignement et de sécurité avant et après le déploiement. Cependant, il reste encore beaucoup de chemin à parcourir avant que cela se produise.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!