Maison >Périphériques technologiques >IA >Quelle est l'instruction d'apprentissage derrière ChatGPT ? PSU publie sa première revue complète de « l'apprentissage pédagogique »
La sémantique des tâches peut être représentée par un ensemble d'exemples d'entrée-sortie ou une instruction textuelle. Les méthodes traditionnelles d'apprentissage automatique par traitement du langage naturel (NLP) reposent principalement sur la disponibilité d'ensembles d'échantillons à grande échelle spécifiques à des tâches.
Mais deux problèmes se posent : Premièrement, la collecte d'exemples étiquetés spécifiques à une tâche ne convient pas aux scénarios dans lesquels la tâche peut être trop complexe ou coûteuse à annoter, ou où le système doit traiter de nouvelles tâches immédiatement. convivial, car les utilisateurs finaux préféreront peut-être fournir une description de la tâche avant d'utiliser le système plutôt qu'un ensemble d'exemples.
Par conséquent, la communauté s'intéresse de plus en plus à un nouveau paradigme de recherche de supervision en PNL : Apprendre à partir des instructions de tâches. Malgré des progrès impressionnants, la communauté est toujours confrontée à certains problèmes communs.
Cet article tente de résumer la recherche actuelle sur l'apprentissage de l'instruction sous les aspects suivants :
(1) Qu'est-ce qu'une instruction de tâche et quels types d'instructions existent ?
(2) Comment modéliser des instructions ?
(3) Quels facteurs affectent et expliquent l'exécution des instructions ?
(4) Quels autres défis existent dans la directive ?
À notre connaissance, il s'agit de la première étude complète des commandes de texte.
Adresse papier : https://arxiv.org/pdf/2303.10475v2.pdf
L'un des objectifs de l'intelligence artificielle est de construire un système qui peut universellement comprendre et résoudre un nouveau système de tâches. Il est peu probable que les exemples étiquetés, en tant que représentations de tâches courantes, soient largement disponibles, voire inexistants. Alors, existe-t-il d’autres représentations de tâches qui peuvent contribuer à la compréhension des tâches ? Les instructions de tâche fournissent une autre dimension de supervision pour exprimer la sémantique des tâches, et les instructions contiennent souvent une connaissance plus abstraite et complète de la tâche cible qu'un seul exemple étiqueté.
L'apprentissage pédagogique s'inspire de l'apprentissage humain typique de nouvelles tâches, Par exemple, un enfant peut bien résoudre une nouvelle tâche mathématique en apprenant à partir d'instructions et de quelques exemples. Ce nouveau paradigme d’apprentissage a récemment attiré l’attention des communautés d’apprentissage automatique et de PNL.
Comme le montre la figure 1, grâce à la disponibilité d'instructions de tâches, des systèmes peuvent être rapidement construits pour gérer de nouvelles tâches, en particulier lorsque les annotations spécifiques aux tâches sont rares.
Quand il s'agit d'instructions de tâches, la plupart d'entre nous associent d'abord le concept à des invites - en utilisant un modèle court pour reformater la nouvelle entrée dans un problème de modélisation de langage afin de répondre au démarrage de PLM. Bien que les indices soient omniprésents dans la classification de textes, la traduction automatique, etc., les indices ne sont qu'un cas particulier d'instructions. Cet article fournit une vision complète et plus large de la recherche en PNL axée sur l’enseignement. Plus précisément, nous essayons de répondre aux questions suivantes :
Au meilleur de nos connaissances, il s'agit du premier article examinant l'apprentissage des instructions textuelles. Par rapport à certaines enquêtes existantes qui se concentrent sur des instructions contextuelles spécifiques, telles que des invites, des démonstrations entrée par sortie ou un raisonnement, nous proposons une perspective plus large qui relie différentes recherches dans ce domaine de manière organisée. J'espère que cet article pourra présenter une meilleure histoire d'apprentissage pédagogique et attirer davantage de collègues pour étudier ce problème difficile de l'intelligence artificielle. Nous avons également publié une liste de lectures correspondante pour cette enquête.
Pour l'apprentissage basé sur les tâches, l'objectif est de conduire le système pour obtenir le résultat d'une entrée donnée en suivant les instructions. Par conséquent, un ensemble de données se compose de trois éléments :
Input (X) : l'entrée de l'instance ; il peut s'agir d'un morceau de texte (comme une classification de sentiment) ou d'un ensemble de texte (comme une implication de texte) , question réponse, etc.).
Output (Y) : La sortie de l'instance ; dans un problème de classification, il peut s'agir d'une ou plusieurs étiquettes prédéfinies ; dans une tâche de génération de texte, il peut s'agir de n'importe quel texte ouvert.
Modèle (T) : Un modèle de texte qui tente d'exprimer le sens d'une tâche seule, ou de servir de pont entre X et y. T n'est peut-être pas encore une structure de composants.
Différents types d'instructions textuelles ont été utilisées dans des tâches PNL précédentes à tir zéro et à quelques tirs, telles que des invites, des instructions Amazon Mechanical Turk, complétées par des instructions démontrées et des explications de la chaîne de pensée. Différentes instructions ont été conçues à l'origine pour différents objectifs (par exemple, les instructions Mturk ont été créées à l'origine pour la compréhension de l'annotateur humain, les invites étaient destinées au contrôle du PLM). Dans cette section, comme le montre la figure 2, nous résumons d'abord ces instructions en trois catégories qui effectuent différentes combinaisons de T, définition formelle.
3.1 I=T^+Y : instructions basées sur l'implication
Une solution traditionnelle pour gérer les tâches de classification consiste à convertir l'étiquette cible en index et à laisser le modèle décider à quel index appartient l'entrée. Ce paradigme se concentre sur le codage de la sémantique d’entrée tout en perdant la sémantique des étiquettes. Afin que le système reconnaisse de nouvelles étiquettes sans s'appuyer sur un grand nombre d'exemples étiquetés, Yin et al proposent d'établir une hypothèse pour chaque étiquette - ensuite, la valeur de vérité dérivée de l'étiquette est convertie en valeur de vérité de l'étiquette déterminée. hypothèse. Comme le montre le tableau 1, cette méthode est intégrée à l'instruction I et combine le modèle T avec l'étiquette Y pour interpréter chaque étiquette cible Y. Puisque ce paradigme satisfait naturellement au format de l'implication textuelle (TE, où les entrées de tâches et les instructions peuvent être considérées respectivement comme des prémisses et des hypothèses), ces types d'instructions sont appelés « instructions orientées implication ».
La méthode d'apprentissage des instructions orientée implication présente les quatre avantages suivants :
(1) Maintient la sémantique des étiquettes, de sorte que l'encodage d'entrée et l'encodage de sortie reçoivent la même attention lors de la modélisation des relations d'entrée-sortie
( 2) Forme un processus de raisonnement unifié - implication textuelle - pour gérer divers problèmes de PNL
(3) Il crée des opportunités pour tirer parti de la supervision indirecte des ensembles de données TE existants, de sorte que les modèles TE pré-entraînés fonctionnent sur ces cibles ; tâches sans ajustement spécifique à la tâche ;
(4) Étendre le problème original de classification d'étiquettes en ensemble fermé à un domaine ouvert avec peu ou même aucun échantillon de classe générique Le problème de la reconnaissance d'étiquettes de forme ouverte.
Par conséquent, il est largement utilisé dans diverses tâches de classification en quelques coups/zéro coup, telles que la classification de sujets, d'émotions, de postures, de types d'entités et de relations entre entités.
3.2 I=T^ + Sur la saisie d'une tâche (invite de préfixe) ou un modèle de question cloze (invite cloze). Il est principalement utilisé pour interroger des réponses intermédiaires (qui peuvent ensuite être converties en réponses finales) à partir de modèles linguistiques pré-entraînés (PLM).
Étant donné que la saisie rapide répond aux objectifs de pré-formation du PLM, par exemple, la saisie de style Gestalt répond à l'objectif de modélisation du langage masqué, elle permet de se débarrasser de la dépendance à l'égard du réglage fin supervisé traditionnel et réduit considérablement le coût de annotation manuelle. En conséquence, l’apprentissage rapide a obtenu des résultats impressionnants sur un grand nombre de tâches PNL précédentes, telles que la réponse aux questions, la traduction automatique, l’analyse des sentiments, l’implication de texte et la reconnaissance d’entités nommées.
3.3 Instructions centrées sur l'humain
Les instructions centrées sur l'humain font essentiellement référence aux instructions utilisées pour le crowdsourcing sur les plateformes d'annotation humaine (telles que les instructions d'Amazon MTurk). Contrairement aux instructions orientées vers l'humain, les instructions orientées vers l'humain sont généralement des informations textuelles lisibles, descriptives et spécifiques à une tâche, composées de titres de tâches, de catégories, de définitions, de choses à éviter, etc. Par conséquent, les instructions centrées sur l’humain sont plus conviviales et peuvent idéalement être appliquées à presque toutes les tâches complexes de PNL.
Dans cette section, nous résumons plusieurs des stratégies de modélisation les plus populaires pour l'apprentissage de l'instruction. Dans l'ensemble, cet article présente quatre schémas de modélisation différents : pour les premiers systèmes basés sur l'apprentissage automatique, (1) les stratégies basées sur un analyseur sémantique sont une méthode courante pour coder les instructions avec l'avènement des réseaux de neurones et des modèles de langage pré-entraînés émergents (2) ; ) les modèles d'apprentissage basés sur des modèles de repères et (3) les modèles d'apprentissage basés sur des instructions de préfixes sont devenus récemment deux paradigmes privilégiés, (4) les méthodes basées sur les hyperréseaux ont également suscité un plus grand intérêt ;
5.1 Interaction homme-machine
Les commandes textuelles peuvent être naturellement considérées comme une forme d'interaction homme-machine. De nombreux travaux antérieurs ont utilisé des instructions en langage naturel pour « ordonner » aux ordinateurs d'effectuer diverses tâches du monde réel.
Pour les tâches non PNL (multimodales), la plupart se concentrent sur l'apprentissage des langues basé sur l'environnement, c'est-à-dire amener l'agent à associer des instructions en langage naturel à l'environnement et à réagir en conséquence, par exemple à partir d'images/vidéos. Sélectionnez les objets mentionnés, suivez. instructions de navigation, tracer les traces correspondantes sur la carte, jouer à des jeux de football/cartes selon des règles données, générer des retransmissions sportives en temps réel, contrôler des logiciels et interroger des bases de données externes. Dans le même temps, les instructions sont également largement utilisées pour faciliter la communication avec les systèmes afin de résoudre les tâches de PNL, telles que suivre des instructions pour manipuler des chaînes, classer les e-mails en fonction d'une explication donnée et générer du texte en code.
Ces dernières années, de plus en plus de recherches tendent à concevoir le processus de communication homme-machine de manière itérative et modulaire. Par exemple, Li et al. ont construit un système pour aider les utilisateurs à gérer les tâches quotidiennes (par exemple, commander un café ou demander un Uber). Grâce à l'interface graphique conviviale, le système peut poser de manière itérative des questions sur les tâches et les utilisateurs peuvent continuellement affiner leurs instructions pour éviter des descriptions peu claires ou des concepts vagues. De même, Dwivedi-Yu et al. ont proposé un benchmark pour guider le PLM de manière itérative afin d'améliorer le texte, où chaque itération utilise uniquement un court ensemble d'instructions avec un objectif précis (par exemple, « simplifier le texte » ou « rendre le texte neutre »). De plus, Chakrabarty et al. ont construit un système d'écriture de poésie collaborative dans lequel les utilisateurs peuvent initialement fournir une instruction ambiguë (par exemple, « Écrire un poème sur les gâteaux »), puis l'affiner progressivement avec plus de détails en observant les instructions intermédiaires du modèle (. par exemple, "Contient le mot -chocolat"). Pendant ce temps, Mishra et Nouri ont proposé un système de génération de biographie qui collecte progressivement les informations personnelles nécessaires auprès de l'utilisateur (en posant des questions pour guider l'utilisateur dans des scénarios conversationnels) et génère finalement une biographie basée sur des paragraphes. En réponse au problème des utilisateurs non experts qui ont des difficultés à rédiger des instructions complètes en une seule fois, l'adoption d'un paradigme de conception itérative et modulaire dans la conception de systèmes d'intelligence artificielle basés sur des instructions peut guider les utilisateurs à enrichir progressivement les instructions de tâches, atténuant ainsi efficacement la réflexion des utilisateurs. besoins. Rendre le système plus orienté vers l’utilisateur. Cet article souligne l’importance de cette branche de travail compte tenu de sa valeur pratique.
5.2 Amélioration des données et des fonctionnalités
Les ordres de tâches sont considérés comme une source indirecte de supervision, qui contiennent parfois des règles superficielles et arbitraires. Ces règles sont également appelées fonctions d'étiquetage et peuvent être appliquées directement aux annotations (par exemple, la phrase « un prix très juste » est sentimentalement positive car « le mot prix est directement précédé de juste »). Par conséquent, certains travaux existants utilisent également des instructions comme supervision à distance pour effectuer des améliorations de données ou de fonctionnalités. Par exemple, Srivastava et al. utilisent des analyseurs sémantiques pour convertir les explications en langage naturel en formes logiques et les appliquer à toutes les instances de l'ensemble de données afin de générer des fonctionnalités binaires supplémentaires. Wang et al. ont utilisé l'interprétation d'étiquettes pour annoter automatiquement le corpus d'origine et former un classificateur sur les données bruitées générées. En plus de l'expansion directe, Su et al. ont également utilisé des instructions de tâches pour enrichir la représentation du modèle et parvenir à une forte généralisation inter-tâches. Plus précisément, ils ont formé un modèle d'intégration (encodeur unique) sur un ensemble de données d'instructions différent avec un apprentissage contrastif, puis ont utilisé ce modèle pour générer des représentations spécifiques à des tâches basées sur des instructions pour des tâches invisibles en aval.
5.3 Modèle de langage universel
Selon la définition de l'intelligence générale artificielle (AGI), un « modèle universel » est généralement un système capable d'effectuer différentes tâches et évolutif dans un environnement changeant. ira bien au-delà de ce que ses créateurs attendaient initialement. Bien que spécifique au domaine de la PNL, le modèle de langage général doit être un excellent assistant multitâche capable de gérer avec compétence une variété de tâches PNL du monde réel et différents langages de manière totalement zéro/quelques coups. Étant donné que de nombreux travaux existants démontrent la capacité surprenante d’utiliser des instructions dans la généralisation de tâches croisées, cette instruction est susceptible de constituer une avancée majeure vers cet objectif ultime.
Il convient de noter que deux applications récentes notables d'instructions, à savoir InstructGPT et ChatGPT, indiquent également un grand pas vers la création de modèles de langage généraux. Cependant, contrairement à d'autres travaux qui adoptent principalement l'apprentissage pédagogique, ChatGPT adopte également d'autres composants tels que l'apprentissage par renforcement avec feedback humain (RLHF). Bien que la réponse à la question « quel composant contribue le plus aux excellents résultats de ChatGPT » reste vague et nécessite une enquête plus approfondie, nous introduisons quelques travaux récents pour mettre en évidence le rôle critique de l'apprentissage de l'instruction. Par exemple, Chung et al. ont mené des expériences approfondies pour évaluer l’alignement des préférences humaines pour PaLM. Ils ont constaté que même sans aucune rétroaction humaine, le réglage fin de l'enseignement réduisait considérablement les toxicités de la génération ouverte de PaLM, telles que les préjugés sexistes et professionnels. De plus, d’autres travaux ont également utilisé uniquement des conseils créatifs plutôt que des commentaires humains et ont obtenu des résultats multitâches significatifs. Bien que ChatGPT présente encore de nombreux aspects insatisfaisants et soit encore loin d'être un modèle de langage universel, nous espérons que l'objectif de l'AGI pourra continuer à être promu grâce à l'adoption et au développement de technologies plus puissantes, notamment l'apprentissage pédagogique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!