Maison >Périphériques technologiques >IA >Que peut faire d'autre la PNL ? L'Université Beihang, l'ETH, l'Université des sciences et technologies de Hong Kong, l'Académie chinoise des sciences et d'autres institutions ont publié conjointement un article d'une centaine de pages pour expliquer systématiquement la chaîne technologique post-ChatGPT.

Que peut faire d'autre la PNL ? L'Université Beihang, l'ETH, l'Université des sciences et technologies de Hong Kong, l'Académie chinoise des sciences et d'autres institutions ont publié conjointement un article d'une centaine de pages pour expliquer systématiquement la chaîne technologique post-ChatGPT.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-06-05 18:10:181204parcourir

Tout commence avec l'émergence de ChatGPT...

La communauté PNL autrefois paisible a été effrayée par ce "monstre" soudain ! Du jour au lendemain, l'ensemble du cercle de la PNL a subi d'énormes changements. L'industrie a rapidement suivi, les capitaux ont augmenté et la voie de la réplication de ChatGPT a commencé. La communauté universitaire est soudainement tombée dans un état de confusion... Tout le monde a lentement commencé à le faire ; Je crois que "la PNL est résolue!"

Cependant, à en juger par le cercle académique de la PNL qui est encore actif récemment et le flux incessant d'excellents travaux, ce n'est même pas le cas. est devenu réel!"

Au cours des derniers mois, l'Université Beihang, Mila, l'Université des sciences et technologies de Hong Kong, l'ETH Zurich, l'Université de Waterloo, le Dartmouth College, l'Université de Sheffield, l'Académie chinoise des sciences et d'autres institutions ont perfectionné l'article de 110 pages explique systématiquement la chaîne technologique dans l'ère post-ChatGPT : l'interaction.

Que peut faire dautre la PNL ? LUniversité Beihang, lETH, lUniversité des sciences et technologies de Hong Kong, lAcadémie chinoise des sciences et dautres institutions ont publié conjointement un article dune centaine de pages pour expliquer systématiquement la chaîne technologique post-ChatGPT.

Adresse papier : https://arxiv.org/abs/2305.13246
Ressources du projet : https://github. com /InteractiveNLP-Team

Différent des types d'interactions traditionnels tels que "Human in the Loop (HITL)" et "Writing Assistant", l'interaction abordée dans cet article a une perspective plus élevée et plus complète :

Par conséquent, permettre aux modèles de langage (LM) d'interagir avec des entités externes et avec eux-mêmes peut non seulement aider à combler les lacunes inhérentes aux grands modèles, mais peut également constituer une étape importante vers l'idéal ultime de l'AGI !

Qu'est-ce que l'interaction ?

En fait, le concept « d'interaction » n'est pas celui imaginé par les auteurs. Depuis l'avènement de ChatGPT, de nombreux articles ont été publiés sur de nouvelles problématiques dans le monde de la PNL, tels que :

Tool Learning with Foundation Models explique comment les modèles de langage peuvent utiliser des outils pour raisonner ou effectuer des opérations du monde réel [2]
#🎜 ; 🎜# Modèles de base pour la prise de décision : problèmes, méthodes et opportunités explique comment utiliser des modèles de langage pour effectuer la prise de décision [3]
ChatGPT pour la robotique : principes de conception et Model Abilities explique comment utiliser ChatGPT pour responsabiliser les robots [4]
Modèles de langage augmentés : une enquête explique comment utiliser la chaîne de pensée, l'utilisation d'outils et autres ; des modèles de langage améliorés et ont souligné que l'utilisation d'outils par des modèles de langage peut avoir un impact réel sur le monde extérieur (c'est-à-dire agir) [5] ; : Les premières expériences avec GPT-4 expliquent comment utiliser GPT-4 pour effectuer divers types de tâches, y compris des cas d'interaction avec des personnes, des environnements, des outils, etc. [6].
On peut constater que l'attention de la communauté universitaire en PNL est progressivement passée de « comment construire un modèle » à « comment construire un cadre ». ", c'est-à-dire que davantage d'entités sont incluses dans le processus de formation et de raisonnement du modèle linguistique. L'exemple le plus typique est le célèbre Reinforcement Learning from Human Feedback (RLHF). Le principe de base est de laisser le modèle de langage apprendre de l'interaction avec les humains (feedback) [7].

Par conséquent, on peut dire que la fonctionnalité « interaction » est l'une des voies de développement technique les plus courantes pour la PNL après ChatGPT ! L'article des auteurs définit et déconstruit systématiquement la « PNL interactive » pour la première fois, et principalement sur la base de la dimension des objets interactifs, discute des avantages et des inconvénients de diverses solutions techniques et considérations d'application de manière aussi complète que possible, notamment : # 🎜🎜#

LM interagit avec les humains pour mieux comprendre et satisfaire les besoins des utilisateurs, Personnaliser les réponses , s'aligner sur les valeurs humaines et améliorer l'expérience utilisateur globale ; Que peut faire dautre la PNL ? LUniversité Beihang, lETH, lUniversité des sciences et technologies de Hong Kong, lAcadémie chinoise des sciences et dautres institutions ont publié conjointement un article dune centaine de pages pour expliquer systématiquement la chaîne technologique post-ChatGPT.

Ainsi, dans le cadre interactif, le modèle de langage n'est plus le modèle de langage lui-même, mais un modèle de langage qui peut être « observé » et « Des agents basés sur le langage qui peuvent « agir » et « obtenir des commentaires ».
Interagissant avec un objet, les auteurs l'appellent "XXX-in-the-loop", indiquant que cet objet participe au processus de formation ou d'inférence de modèle de langage, et y participer sous la forme d'une cascade, d'une boucle, d'un feedback ou d'une itération.

#🎜 🎜 #

Il existe trois façons d'interagir avec les gens : Utiliser les commentaires pour apprendre 🎜#

De plus, afin de garantir un déploiement évolutif, des modèles ou des programmes sont souvent utilisés pour simuler le comportement ou les préférences humaines , c'est-à-dire apprendre à partir de simulations humaines.

En général, le problème central à résoudre dans l'interaction humaine est l'alignement, c'est-à-dire comment rendre la réponse du modèle de langage plus conforme aux besoins de l'utilisateur. Il est plus utile, inoffensif et bien fondé, permettant aux utilisateurs d'avoir une meilleure expérience utilisateur, etc.

« Utiliser les invites pour communiquer » se concentre principalement sur la nature continue et en temps réel de l'interaction, c'est-à-dire qu'il met l'accent sur la nature continue de plusieurs cycles de dialogue. Ceci est cohérent avec l’idée de l’IA conversationnelle [8]. Autrement dit, à travers plusieurs cycles de dialogue, laissez l'utilisateur continuer à poser des questions, afin que la réponse du modèle de langage s'aligne lentement sur les préférences de l'utilisateur pendant le dialogue. Cette approche ne nécessite généralement pas d'ajustement des paramètres du modèle pendant l'interaction.

"Apprendre à l'aide du feedback" est actuellement le principal moyen d'alignement, qui consiste à permettre aux utilisateurs de donner un feedback sur la réponse du modèle de langage. Ce feedback peut être une annotation "bonne/mauvaise" décrivant les préférences, ou il peut être naturel. Commentaires plus détaillés sous forme linguistique. Le modèle doit être entraîné pour rendre ces rétroactions aussi élevées que possible. Un exemple typique est RLHF [7] utilisé par InstructGPT. Il utilise d'abord les données de retour de préférence étiquetées par l'utilisateur pour les réponses du modèle afin de former un modèle de récompense, puis utilise ce modèle de récompense pour former un modèle de langage avec un certain algorithme RL afin de maximiser la récompense. (comme indiqué ci-dessous) ).

Former les modèles de langage à suivre les instructions avec des commentaires humains [7]

"Ajuster à l'aide de la configuration" est une méthode interactive spéciale qui permet aux utilisateurs d'ajuster directement les super paramètres du modèle de langage (tels que comme la température), ou la méthode en cascade de modèles de langage, etc. Un exemple typique est les chaînes d'IA de Google [9]. Les modèles de langage avec différentes invites prédéfinies sont connectés les uns aux autres pour former une chaîne de raisonnement pour le traitement des tâches rationalisées. Les utilisateurs peuvent ajuster la méthode de connexion des nœuds de cette chaîne via un glisser-déposer de l'interface utilisateur.

« Apprendre à partir de la simulation humaine » peut favoriser le déploiement à grande échelle des trois méthodes ci-dessus, car, notamment dans le processus de formation, utiliser de vrais utilisateurs est irréaliste. Par exemple, RLHF doit généralement utiliser un modèle de récompense pour simuler les préférences des utilisateurs. Un autre exemple est l'ITG de Microsoft Research [10], qui utilise un modèle Oracle pour simuler le comportement d'édition de l'utilisateur.

Récemment, le professeur Percy Liang de Stanford et d'autres ont construit un système d'évaluation très systématique de l'interaction homme-LM : évaluation de l'interaction modèle homme-langage [11].

Trois étapes dans l'interaction avec la base de connaissances 言 Modèle de langage et interaction de la base de connaissances :

déterminer la source de connaissances supplémentaires : Source de connaissances

Recherche de connaissances : Connaissance Récupération
Utiliser les connaissances pour l'amélioration : veuillez vous référer à la section Interaction Message Fusion de cet article pour plus de détails. Je ne le présenterai pas ici.

MineDojo [16] : lorsqu'un agent de modèle de langage rencontre une tâche qu'il ne connaît pas, il peut rechercher du matériel d'apprentissage dans la base de connaissances, puis terminer la tâche à l'aide du matériel . « Source de connaissances » est divisée en deux types, l'un est la connaissance de corpus fermé (Corpus Knowledge), comme WikiText, etc. [15] ; connaissances de recherche disponibles pour le moteur [14].

« Knowledge Retrieval » est divisé en quatre méthodes :

Représentation clairsemée basée sur le langage et récupération clairsemée (récupération clairsemée) de correspondance lexicale : comme la correspondance n-gramme, BM25, etc.
Récupération dense (récupération dense) basée sur une représentation dense basée sur le langage et une correspondance sémantique : comme l'utilisation d'un modèle à tour unique ou à double tour comme récupérateur, etc.
Basé sur la recherche générative : il s'agit d'une méthode relativement nouvelle. Le travail représentatif est l'index de recherche différenciable [12] de Google Tay Yi et al., qui enregistre les connaissances sur les paramètres du modèle de langage et les génère directement. après avoir donné une requête. L'identifiant du document ou le contenu du document correspondant à la connaissance. Parce que le modèle de langage est la base de connaissances [13] !
Basé sur l'apprentissage par renforcement : C'est aussi une méthode relativement avant-gardiste. Les travaux représentatifs tels que WebGPT d'OpenAI [14] utilisent le retour humain pour entraîner le modèle afin de récupérer les connaissances correctes.

Interagir avec des modèles ou des outils

L'objectif principal des modèles de langage interagissant avec des modèles ou des outils est de décomposer des tâches complexes, telles que la décomposition de tâches de raisonnement complexes en plusieurs sous-tâches, ce qui est également une chaîne de la pensée [17]. Différentes sous-tâches peuvent être résolues à l'aide de modèles ou d'outils dotés de différentes capacités. Par exemple, les tâches informatiques peuvent être résolues à l'aide de calculatrices et les tâches de récupération peuvent être résolues à l'aide de modèles de récupération. Par conséquent, ce type d'interaction peut non seulement améliorer les capacités de raisonnement, de planification et de prise de décision du modèle de langage, mais également atténuer les limitations du modèle de langage telles que « l'hallucination » et les résultats inexacts. En particulier, lorsqu'un outil est utilisé pour effectuer une sous-tâche spécifique, il peut avoir un certain impact sur le monde extérieur, comme l'utilisation de l'API WeChat pour publier un cercle d'amis, etc., ce que l'on appelle « orienté outil ». Apprentissage" [ 2].

De plus, il est parfois difficile de décomposer explicitement une tâche complexe. Dans ce cas, vous pouvez attribuer différents rôles ou compétences à différents modèles de langage, puis laisser ces modèles de langage collaborer les uns avec les autres. Au cours du processus de communication, une certaine division du plan de travail se forme implicitement et automatiquement pour décomposer les tâches. Ce type d'interaction peut non seulement simplifier le processus de résolution de tâches complexes, mais également simuler la société humaine et construire une certaine forme de société d'agents intelligents.

Les auteurs rassemblent modèles et outils, principalement parce que les modèles et les outils ne sont pas nécessairement deux catégories distinctes. Par exemple, un outil de moteur de recherche et un modèle de récupération ne sont pas essentiellement différents. Cette essence est définie par les auteurs en utilisant « après la décomposition des tâches, quels types de sous-tâches sont entreprises par quels types d'objets ».

Lorsqu'un modèle de langage interagit avec un modèle ou un outil, il existe trois types d'opérations :

Penser : le modèle interagit avec lui-même pour effectuer une décomposition et un raisonnement des tâches
Agir : le modèle appelle ; d'autres modèles, ou outils externes, etc., aident au raisonnement ou ont des effets réels sur le monde extérieur ;
Collaboration : plusieurs agents modèles de langage communiquent et collaborent entre eux pour accomplir des tâches spécifiques ou simuler le comportement social humain.

Remarque : La réflexion parle principalement de la "Chaîne de pensée à plusieurs étapes", c'est-à-dire : différentes étapes de raisonnement, correspondant à différents appels du modèle de langage (exécution de modèles multiples), au lieu d'exécuter le modèle une seule fois. et la sortie pensée+réponse (exécution d'un modèle unique) comme Vanilla CoT [17]

Cette partie hérite de la méthode d'expression de ReAct [18].

Le travail typique sur la réflexion comprend ReAct [18], Least-to-Most Prompting [19], Self-Ask [20], etc. Par exemple, Least-to-Most Prompting [19] décompose d'abord un problème complexe en plusieurs sous-problèmes de modules simples, puis appelle de manière itérative le modèle de langage pour les résoudre un par un.

Les travaux typiques sur Acting incluent ReAct [18], HuggingGPT [21], Toolformer [22], etc. Par exemple, Toolformer [22] traite le corpus de pré-formation du modèle de langage dans un formulaire avec une invite d'utilisation d'outil. Par conséquent, le modèle de langage formé peut automatiquement appeler le bon outil au bon moment lors de la génération de texte. tels que les moteurs de recherche, les outils de traduction, les outils de gestion du temps, les calculatrices, etc.) résolvent des sous-problèmes spécifiques.

La collaboration comprend principalement :

Interaction en boucle fermée : comme les modèles socratiques [ 23] etc. , grâce à l'interaction en boucle fermée de grands modèles de langage, de modèles de langage visuel et de modèles de langage audio, certaines tâches complexes d'assurance qualité spécifiques à l'environnement visuel peuvent être réalisées.
Théorie de l'esprit : vise à permettre à un agent de comprendre et de prédire l'état d'un autre agent afin de promouvoir une interaction efficace entre eux. Par exemple, l'article exceptionnel de l'EMNLP 2021, MindCraft [24], donne à deux modèles de langage différents des compétences différentes mais complémentaires, leur permettant de collaborer pour accomplir des tâches spécifiques dans le monde MineCraft pendant le processus de communication. Le célèbre professeur Graham Neubig a également récemment accordé une grande attention à cette direction de recherche, comme [25]. L'exemple le plus typique est celui des Agents Génératifs [26] de l'Université de Stanford qui a récemment choqué le monde : en construisant un environnement bac à sable et en permettant à de nombreux agents intelligents injectés d'« âmes » provenant de grands modèles de s'y déplacer librement, ils peuvent spontanément présenter des apparences humaines. Les comportements sociaux, comme discuter et dire bonjour, ont une saveur « du monde occidental » (comme indiqué ci-dessous). De plus, l'ouvrage le plus célèbre est le nouvel ouvrage CAMEL [27] de l'auteur de DeepGCN, qui permet à deux agents habilités par de grands modèles de développer des jeux et même de stocker des actions en train de communiquer entre eux sans nécessiter trop d'intervention humaine. . L'auteur met clairement en avant le concept de « Large Model Society » (LLM Society) dans l'article.

Agents Génératifs : Simulacres Interactifs du Comportement Humain, https ://arxiv.org/pdf/2304.03442.pdf

Interagir avec l'environnement

#🎜 🎜 #

Les modèles et environnements linguistiques appartiennent à deux quadrants différents : les modèles linguistiques sont construits sur des symboles textuels abstraits et sont bons pour le raisonnement, la planification et la prise de décision de haut niveau. , etc. tâches ; tandis que l'environnement est basé sur des signaux sensoriels spécifiques (tels que des informations visuelles, des informations auditives, etc.), simulant ou se produisant naturellement certaines tâches de bas niveau, telles que l'observation, la rétroaction et la transition d'état). etc. (par exemple : une pomme tombe au sol dans le monde réel, et un « creeper » apparaît devant vous dans le moteur de simulation). Que peut faire dautre la PNL ? LUniversité Beihang, lETH, lUniversité des sciences et technologies de Hong Kong, lAcadémie chinoise des sciences et dautres institutions ont publié conjointement un article dune centaine de pages pour expliquer systématiquement la chaîne technologique post-ChatGPT.

Par conséquent, pour permettre au modèle de langage d'interagir de manière efficace et efficiente avec l'environnement, il comprend principalement deux aspects d'effort : # 🎜 🎜#

Modality Grounding : permet au modèle de langage de traiter des informations multimodales telles que des images et de l'audio ; Effectuer des actions possibles et appropriées sur des objets possibles et appropriés à l'échelle de la scène spécifique de l'environnement.

Le modèle le plus typique du Modality Grounding est le modèle de langage visuel. D'une manière générale, cela peut être réalisé en utilisant un modèle à tour unique tel que OFA [28], un modèle à deux tours tel que BridgeTower [29], ou l'interaction d'un modèle de langage et d'un modèle visuel tel que BLIP-2 [30]. Aucun détail supplémentaire ne sera donné ici, les lecteurs peuvent se référer à cet article pour plus de détails.
Il y a deux considérations principales pour Affordance Grounding, à savoir : comment effectuer (1) la perception à l'échelle de la scène (perception à l'échelle de la scène) dans les conditions d'une tâche donnée , et (2) les actions possibles. Par exemple :

Par exemple, dans la scène de l'image ci-dessus, les tâches données "Veuillez éteindre les lumières du salon" et "Perception de l'échelle de la scène" nous obligent à trouver toutes les lumières avec des cases rouges au lieu des lumières qui sont pas dans le salon mais dans la cuisine avec des boîtes vertes. Les « actions possibles » nous obligent à déterminer les moyens réalisables pour éteindre les lumières. Par exemple, tirer un cordon lumineux nécessite une action de « tirer » et allumer la lumière. et l'arrêt nécessite une action "interrupteur à bascule".

De manière générale, l'Affordance Grounding peut être résolu en utilisant une fonction de valeur qui dépend de l'environnement, telle que SayCan [31], etc., ou un modèle de mise à la terre spécialisé tel que Grounded Decoding [32] peut être utilisé. Il peut même être résolu en interagissant avec des personnes, des modèles, des outils, etc. (comme indiqué ci-dessous). Dans le chapitre Interface d'interaction, les auteurs discutent systématiquement des différents langages d'interaction, des interactions L'utilisation, les avantages et les inconvénients des médias, notamment :

Le langage naturel : comme des exemples succincts, des instructions de tâches, l'attribution de rôles et même un langage naturel structuré, etc. Ses caractéristiques et fonctions en généralisation et expressivité sont principalement discutées.

Langage formel : tel que le code, la grammaire, les formules mathématiques, etc. Ses caractéristiques et fonctions en termes d’analyse et de capacité de raisonnement sont principalement discutées.

Langage machine : tels que les invites logicielles, les jetons visuels discrétisés, etc. Ses caractéristiques et fonctions en généralisation, théorie des goulots d'étranglement de l'information, efficacité des interactions, etc. sont principalement discutées.

Édition : elle comprend principalement des opérations telles que la suppression, l'insertion, le remplacement et la conservation de texte. Ses principes, son histoire, ses avantages et ses limites actuelles sont discutés. Que peut faire dautre la PNL ? LUniversité Beihang, lETH, lUniversité des sciences et technologies de Hong Kong, lAcadémie chinoise des sciences et dautres institutions ont publié conjointement un article dune centaine de pages pour expliquer systématiquement la chaîne technologique post-ChatGPT.

Mémoire partagée : elle comprend principalement la mémoire dure et la mémoire logicielle. La première enregistre l'état historique dans un journal sous forme de mémoire, et la seconde utilise un module externe de mémoire lisible et inscriptible pour enregistrer les tenseurs. L'article discute des caractéristiques, des fonctions et des limites des deux.

1. Invitation : sans ajuster les paramètres du modèle, le modèle de langage est appelé uniquement via une ingénierie rapide, couvrant l'apprentissage en contexte, la chaîne de pensée, l'utilisation des outils, le niveau. Diverses méthodes telles que le chaînage d'invites sont discutées en détail. Les principes et les fonctions. , diverses astuces et limites de diverses techniques d'invite sont discutées en détail, telles que les considérations de contrôlabilité et de robustesse.
2. Réglage fin : ajustez les paramètres du modèle pour permettre au modèle d'apprendre et de se mettre à jour à partir d'informations interactives. Cette section couvre des méthodes telles que le réglage des instructions supervisé, le réglage fin efficace des paramètres, l'apprentissage continu et le réglage fin semi-supervisé. Les principes, fonctions, avantages, considérations liées à une utilisation spécifique et limites de ces méthodes sont discutés en détail. Il comprend également une partie de l'édition des connaissances (c'est-à-dire l'édition des connaissances à l'intérieur du modèle).
3. Active Learning : cadre d'algorithme d'apprentissage actif interactif.
4. Apprentissage par renforcement : cadre d'algorithme d'apprentissage par renforcement interactif, discute du cadre d'apprentissage par renforcement en ligne, du cadre d'apprentissage par renforcement hors ligne, de l'apprentissage à partir des commentaires humains (RLHF), de l'apprentissage à partir des commentaires sur l'environnement (RLEF), de l'apprentissage à partir des commentaires de l'IA (RLAIF) et bien d'autres. méthodes.
5. Apprentissage par imitation : un cadre d'algorithme d'apprentissage par imitation interactif qui traite de l'apprentissage par imitation en ligne, de l'apprentissage par imitation hors ligne, etc.
6. Fusion des messages d'interaction : fournit un cadre unifié pour toutes les méthodes d'interaction ci-dessus, en même temps, dans ce cadre, il s'étend vers l'extérieur et discute de différents schémas de fusion de connaissances et d'informations, tels que le schéma de fusion d'attention croisée). schéma de fusion de décodage contraint (décodage contraint), etc.
Autres discussions

Limité par l'espace, cet article ne détaille pas les discussions sur d'autres aspects, tels que l'évaluation, l'application, l'éthique, la sécurité et les orientations de développement futures. Cependant, ces contenus occupent toujours 15 pages dans le texte original de l'article, il est donc recommandé aux lecteurs de consulter plus de détails dans le texte original. Voici un aperçu de ces contenus :

Commentaires sur l'interaction.

La discussion sur l'évaluation dans l'article implique principalement les mots-clés suivants :

Principales applications de la PNL interactive
- Génération de texte contrôlable
- Interaction avec personnes : phénomène d'impression de pensée du RLHF, etc.
- Interaction avec les connaissances : réglage fin axé sur les connaissances [34], etc. Avec l'interaction avec l'environnement : mise à la terre des moyens, etc.
- Enrichissement de contenu : riche en contenu
- Co-création de contenu : création de contenu
- IA incorporée
- Observation et manipulation : bases
- Navigation et exploration : avancé ( par exemple, tâches incarnées à long horizon)
- Tâches multi-rôles : avancées

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

for Token 循环接口 Length Interface 对象 transition github 算法 oracle nlp gpt-4 chatgpt https 搜索引擎 ui gpt prompt agi

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Explication détaillée de la structure du transformateur et de ses applications - GPT, BERT, MT-DNN, GPT-2Article suivant：Explication détaillée de la structure du transformateur et de ses applications - GPT, BERT, MT-DNN, GPT-2

Articles Liés

Voir plus

Il existe trois façons d'interagir avec les gens : Utiliser les commentaires pour apprendre 🎜#

Interagir avec des modèles ou des outils

Autres discussions

Articles Liés