Maison >Périphériques technologiques >IA >Un peu de cajolerie peut augmenter la précision du GPT-3 de 61 % ! Les recherches de Google et de l'Université de Tokyo sont choquantes
Quand je me suis réveillé, la communauté du machine learning était en état de choc.
Parce que les dernières recherches ont montré que le simple fait de dire « Réfléchissons étape par étape » à GPT-3 lui permettra de répondre correctement à des questions auxquelles il ne pouvait pas répondre auparavant.
Par exemple, l'exemple suivant :
La moitié des 16 balles sont des balles de golf, et la moitié de ces balles de golf sont bleues. Combien y a-t-il de balles de golf bleues au total ?
(La question n'est pas difficile. , Mais veuillez noter qu'il s'agit d'un apprentissage sans tir, ce qui signifie que des problèmes similaires n'ont jamais été observés pendant la phase de formation de l'IA )
Si vous demandez à GPT-3 d'écrire directement « quelle est la réponse », il le fera. donner la mauvaise réponse : 8.
Mais après avoir ajouté le "sort" qui nous permet d'y réfléchir étape par étape, GPT-3 va d'abord afficher les étapes de réflexion, et finalement donner la bonne réponse : 4 !
Et ce n'est pas une coïncidence, la recherche a déclaré l'équipe dans le journal Entièrement vérifié.
La question ci-dessus provient de l'ensemble de données MutiArith classique, qui teste spécifiquement la capacité du modèle de langage à résoudre des problèmes mathématiques. GPT-3 avait à l'origine une précision de seulement 17 % dans un scénario à échantillon nul.
Cet article résume les 9 mots d'invite les plus efficaces, parmi eux, les 6 premiers qui sont utilisés pour permettre à GPT-3 de réfléchir étape par étape ont augmenté la précision à plus de 70 %.
Même la phrase la plus simple « Pensons » peut monter jusqu'à 57,5%.
Cela ressemble à une tante de maternelle cajolant un enfant...
Cette technique ne semble nécessiter aucune modification magique de GPT-3. Quelqu'un l'a reproduite avec succès sur la démo officielle d'OpenAI, et l'a même changée en chinois.
Conseils chinois pour les questions en anglais, GPT-3 donne les réponses chinoises correctes.
Le chercheur de Google qui a transmis pour la première fois cet article au réseau social a déclaré que le nouveau tout ce dont vous avez besoin a été ajouté.
En voyant cela, les grands de tous horizons ont commencé à avoir des idées folles et à faire des blagues.
Que se passera-t-il si vous encouragez l'IA "Vous pouvez le faire, je crois en vous" ?
Et si vous menacez l'IA et dites "le temps presse" ou "vous avez un pistolet sur la tête" ?
Est-ce que dire "conduisez plus prudemment" à l'IA deviendra une solution pour la conduite autonome ?
Certaines personnes ont également suggéré que c'est presque la même chose que l'intrigue de la science-fiction histoire "Le Guide du voyageur galactique". La clé pour parvenir à une intelligence artificielle générale est de savoir comment le faire correctement Posez les questions de l'IA.
Alors, que se passe-t-il avec ce phénomène magique ?
La découverte de ce phénomène est le fruit d'une recherche collaborative entre Google Brain et l'Université de Tokyo, qui a exploré le zéro. -exemple de rôle des performances des grands modèles de langage dans la scène.
Le titre de l'article "Language Model Is a Zero-Sample Reasoner" rend également hommage au "Language Model Is a Few-Sample Learner" de GPT-3.
La méthode utilisée appartient au Chain of Thought Prompting (CoT), qui vient d'être proposée par l'équipe Google Brain en janvier de cette année.
Le premier CoT a été appliqué à l'apprentissage en quelques étapes, donnant un exemple de réponse étape par étape pour guider l'IA tout en posant des questions.
Cette dernière recherche propose un CoT à échantillon nul. Le principal changement est de simplifier la partie exemple.
Le plus grand avantage est qu'il est universel et qu'il n'est pas nécessaire de fournir des exemples dédiés pour différents types de problèmes.
L'article a réalisé suffisamment d'expériences sur divers problèmes, dont 12 tests :
Par rapport à l'apprentissage zéro-shot ordinaire, le CoT zéro-shot obtient de meilleurs résultats dans 10 d'entre eux.
△La valeur à droite est le résultat expérimental supplémentaire
Dans les tests mathématiques MultiArith et GSM8K plus difficiles, GPT est utilisé -3 La dernière version Text-davinci-002 (175B) a fait des expériences plus approfondies.
Si vous faites 8 tentatives pour obtenir le meilleur résultat, la précision peut être encore améliorée jusqu'à 93%.
Dans l'analyse des résultats d'erreur, les chercheurs ont également constaté que dans de nombreuses questions, le processus de raisonnement de l'IA était en fait correct, mais les réponses ne pouvaient pas convergent vers le seul moment défini. Plusieurs alternatives seront proposées.
À la fin de l'article, l'équipe de recherche a proposé que cette étude puisse non seulement servir de référence pour le CoT à échantillon zéro, mais espère également faire prendre conscience à la communauté universitaire de l'importance de construire des ensembles de données affinés. Avant d'utiliser des modèles d'invite pour petits échantillons, explorez pleinement l'importance des capacités d'échantillon zéro des grands modèles de langage.
L'équipe de recherche est issue du Laboratoire Matsuo de l'Université de Tokyo.
Le responsable, le professeur Matsuo Yutaka, est également le premier expert en intelligence artificielle au conseil d'administration de SoftBank .
L'un des membres de l'équipe est le professeur invité Gu Shixiang, qui fait partie de l'équipe Google Brain. Gu Shixiang a étudié sous Hinton, l'un des trois géants. , pour son diplôme de premier cycle et a obtenu un doctorat de l'Université de Cambridge.
La raison pour laquelle le CoT à échantillon zéro fonctionne reste à explorer.
Cependant, quelqu'un a expérimenté et a constaté que cette méthode ne semble être efficace que pour GPT-3 (text-davinci-002). Il a essayé la version 001 et a trouvé peu d'effet.
Il a énuméré un exemple de ce qu'il a fait.
Question : Merci de relier la dernière lettre de chaque mot en machine et en apprentissage.
GPT-3 La réponse donnée par l'invite est de relier toutes les lettres des deux mots.
En réponse, l'un des auteurs, Gu Shixiang, a répondu qu'en fait, le "sort" a un effet à la fois sur la version initiale et sur version améliorée de GPT-3 Ces résultats Cela se reflète également dans le document.
Certaines personnes se demandent également si le deep learning est devenu un jeu consistant à trouver un « sortilège magique » ?
#🎜🎜 #
Au même moment, nous avons revu Marcus dans l'équipe des plaintes. Il a également énuméré un exemple d'échec. GPT-3 n'a pas réussi à déterminer si la vache de Sally reviendrait à la vie sous la bénédiction du "sort"...Cependant, il convient de noter qu'il n'est pas rare que des exemples comme celui-ci ajoutent un peu de magie à l'IA et permettent d'obtenir une amélioration immédiate.
Certains internautes ont partagé que l'ajout de quelques commandes intermédiaires lors de l'utilisation de GPT-3 peut en effet obtenir des résultats plus satisfaisants.
Auparavant, des chercheurs de Google et du MIT ont découvert qu'il n'était pas nécessaire de modifier l'architecture sous-jacente tant que le modèle de langage de formation aura des « points d'arrêt » comme les programmeurs lors du débogage, la capacité du modèle à lire le code et à le faire. l'arithmétique s'améliorera.
Le principe est également très simple, c'est-à-dire que dans un programme comportant de nombreuses étapes de calcul, laissez le modèle encoder chaque étape en texte et enregistrez-les dans un registre temporaire appelé « pense-bête ».
En conséquence, le processus de calcul du modèle devient plus clair et plus ordonné, et les performances sont naturellement grandement améliorées.
Il existe également Instruct GPT-3 utilisé pour les tests dans cette expérience, qui est également un exemple typique.
Le simple fait de laisser GPT-3 apprendre des commentaires humains peut améliorer considérablement la situation en matière de réponses à des questions incorrectes.
Pour être précis, nous utilisons d'abord des réponses de démonstration humaine pour affiner le modèle, puis collectons plusieurs ensembles de données de sortie différentes pour une certaine question, trions manuellement les différents ensembles de réponses et entraînons le modèle de récompense sur cet ensemble de données. .
Enfin, en utilisant RM comme fonction de récompense, l'algorithme d'optimisation de la politique proximale (PPO) affine la politique GPT-3 pour maximiser les récompenses avec des méthodes d'apprentissage par renforcement.
Y compris Aran, le blogueur Twitter qui a déclenché ce sujet, est celui qui a découvert à l'origine que l'ajout de "Unreal Engine" peut faire monter en flèche la qualité des images générées par l'IA.
L'ancien patron des robots de Google, Eric Jang, a également découvert précédemment que l'apprentissage par renforcement peut également utiliser une réflexion similaire pour améliorer l'efficacité informatique.
Certaines personnes ont également dit que ce type de technique utilisée dans l'IA n'est pas celle qu'ils utilisent habituellement lorsqu'ils utilisent leur cerveau ?
En fait, Bengio était auparavant parti de la science du cerveau pour proposer le modèle opérationnel de l'IA Cela devrait ressembler au mode cerveau humain.
Les tâches cognitives humaines peuvent être divisées en cognition du système 1 et en cognition du système 2.
Les tâches cognitives du système 1 font référence aux tâches qui sont accomplies inconsciemment. Par exemple, vous pouvez immédiatement identifier ce que vous tenez dans votre main, mais vous ne pouvez pas expliquer aux autres comment vous avez accompli ce processus.
Les tâches cognitives du système 2 font référence à la cognition que le cerveau humain doit accomplir selon certaines étapes. Par exemple, si vous effectuez un calcul d’addition et de soustraction, vous pouvez expliquer clairement comment vous êtes arrivé à la réponse finale.
Le "sort" ajouté cette fois est de permettre à l'IA d'aller plus loin et d'apprendre à penser par étapes.
Face à cette tendance, certains chercheurs estiment que « l'ingénierie des indices remplace l'ingénierie des fonctionnalités ».
Alors « cue word hunter » deviendra-t-il le surnom de la prochaine génération de chercheurs en PNL ?
Adresse papier :https://www.php.cn/link/cc9109aa1f048c36d154d902612982e2
Lien de référence :
[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993
[2]https://evjang.com/2021/10/23/generalization.html
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!