Maison > Article > Périphériques technologiques > Premières expériences avec GPT-4, l’étincelle de l’intelligence artificielle générale
Récemment, Microsoft a publié un article de 154 pages intitulé "L'étincelle de l'intelligence artificielle générale, premières expériences avec GPT-4".
Le point principal de l'article est que bien que GPT-4 ne soit pas encore terminé, il peut déjà être considéré comme une première version de l'intelligence artificielle générale.
Étant donné que le texte intégral compte près de 70 000 mots, cet article affinera et interprétera le contenu de l'article. Si vous êtes intéressé, vous pouvez lire le texte original https://arxiv.org/pdf/2303.12712.pdf
Scientifiques. de Microsoft pense que GPT- Le niveau d'intelligence de 4 est très proche du niveau humain et dépasse de loin les modèles précédents tels que GPT-3.5 précédemment utilisé par ChatGPT-4 peut être considéré comme un système d'intelligence artificielle général, qui est le. stade précoce d’AGI, mais ce n’est pas une version complète.
En 1994, 52 psychologues ont donné une définition de l'intelligence : L'intelligence est une capacité mentale générale, comprenant le raisonnement, la planification, la résolution de problèmes, la pensée abstraite, la compréhension d'idées complexes, l'apprentissage rapide et l'apprentissage par l'expérience, etc.
L'AGI dans cet article de Microsoft fait référence aux systèmes qui atteignent ou dépassent les niveaux humains selon cette définition de l'intelligence.
Alors comment tester GPT-4 pour le prouver. Il existe de nombreux critères d'évaluation pour les grands modèles de langage. Par exemple, instructions super naturelles et grand banc. Un aspect clé de l'intelligence de GPT-4 est sa polyvalence, c'est-à-dire sa capacité à comprendre et à relier n'importe quel sujet et domaine, ce qui va au-delà de la portée des tâches classiques de traitement du langage naturel. Afin de surmonter cette limitation, l'équipe de recherche a proposé une méthode d'évaluation plus proche de la psychologie traditionnelle que de l'apprentissage automatique pour tester GPT-4, qui utilise la créativité et la curiosité humaines pour régénérer diverses tâches et questions nouvelles et difficiles. GPT-4.
L'équipe de recherche a divisé différents problèmes en 4 grandes catégories de capacités, à savoir le langage naturel, la programmation et les mathématiques, la planification et la résolution de problèmes, ainsi que la psychologie humaine et le bon sens.
Ensuite, quelques merveilleux exemples seront utilisés pour illustrer les capacités de GPT-4 sous divers aspects.
Exemple 1 : La capacité de combinaison interdisciplinaire
Ces tâches nécessitent souvent l'incorporation et l'intégration de connaissances ou de compétences provenant de plusieurs disciplines et domaines pour générer du texte ou du code. Par exemple, prenons l'exemple suivant, Figure 2.2 : Comparaison de GPT-4 et ChatGPT (GPT-3.5) sur une tâche interdisciplinaire : prouver qu'il existe une infinité de nombres premiers dans le style shakespearien.
GPT-4 et ChatGPT (GPT-3.5) ont répondu à cette question, laissez GPT-4 évaluer quelle réponse est la meilleure, c'est-à-dire laissez GPT-4 s'évaluer (GPT-4) et répondre de ChatGPT ( GPT-3.5) :
Je pense que les deux étudiants ont écrit la preuve qu'il existe une infinité de nombres premiers à la manière shakespearienne, et tous deux ont utilisé l'idée de base de la preuve : supposer qu'il n'y a que des nombres premiers finis, puis construire A nombre premier plus grand, contredisant ainsi cette hypothèse. Ils ont également utilisé un langage et un vocabulaire appropriés pour correspondre au style de Shakespeare. Cependant, je pense que GPT-4 fait un meilleur usage de la rime et de la mesure pour rendre le dialogue plus poétique et dramatique. ChatGPT (GPT-3.5) n'utilise pas de rimes et le rythme est incohérent. Je pense aussi que GPT-4 a fait un meilleur travail en créant deux factions opposées, l'une confiante et l'autre sceptique, alors que l'étudiant B a utilisé Roméo et Juliette, qui sont tous deux sur la même longueur d'onde et amoureux. Par conséquent, je donnerais à GPT-4 une note plus élevée, en lui donnant un A, et à ChatGPT (GPT-3.5) un B.
Exemple 2 : Capacité de programmation
Dans le test, afin d'éviter que GPT-4 ne voie le même code ou un code similaire pendant la pré-formation, l'équipe de recherche a délibérément utilisé 100 nouveaux codes publiés après la pré-formation GPT-4. Les questions du test LeetCode servent de référence pour les tests. pass@K sur la figure représente la probabilité de succès après k tentatives. Nous pouvons voir que lorsque k est égal à 5, GPT-4 a complètement dépassé les performances humaines. (En fait, k=1, il a surpassé les performances humaines dans les problèmes de programmation moyens et difficiles)
Il s'avère que GPT-4 est un maître en programmation, et le modèle AGI pourrait complètement changer notre future manière de programmer.
L'article est très long, et les exemples sont bien plus que ceux mentionnés ci-dessus. Je n'en ai sélectionné que deux ici. Ceux qui sont intéressés peuvent lire le texte original de l'article.
Le document souligne enfin que sur la voie d'une intelligence artificielle plus générale, les grands modèles de langage doivent être encore améliorés dans les aspects suivants. Les exemples incluent les hallucinations et la confiance, la mémoire à long terme, l'apprentissage continu, la personnalisation, la planification et la divergence conceptuelle, également connus sous le nom d'éclairs de lumière, la transparence, l'interprétabilité, la cohérence, les erreurs cognitives, la pensée irrationnelle et la réponse imprudente aux signaux de sexe et de sexe. plus.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!