Maison >Périphériques technologiques >IA >En 24 heures et 200 $ pour copier le processus RLHF, Stanford a ouvert la « Ferme Alpaca »
Fin février, Meta a open source une grande série de modèles LLaMA (traduit littéralement par alpaga), avec des paramètres allant de 7 milliards à 65 milliards, qui est appelée le prototype de la version Meta de ChatGPT. Par la suite, des institutions telles que l'Université de Stanford et l'Université de Californie à Berkeley ont réalisé des « innovations secondaires » basées sur LLaMA et ont lancé successivement plusieurs grands modèles open source tels que Alpaca et Vicuna. Pendant un certain temps, « Alpaca » est devenu le modèle haut de gamme. dans le cercle de l'IA. Ces modèles de type ChatGPT construits par la communauté open source itèrent très rapidement et sont hautement personnalisables. Ils sont appelés le remplacement open source de ChatGPT.
Cependant, la raison pour laquelle ChatGPT peut montrer de puissantes capacités en matière de compréhension, de génération, de raisonnement, etc. de texte est parce qu'OpenAI utilise un nouveau paradigme de formation pour les grands modèles tels que ChatGPT - RLHF (Reinforcement Learning from Human Feedback). , le modèle de langage est optimisé sur la base des commentaires humains grâce à l'apprentissage par renforcement. Grâce aux méthodes RLHF, les grands modèles de langage peuvent être alignés sur les préférences humaines, suivre l'intention humaine et minimiser les résultats inutiles, déformés ou biaisés. Cependant, la méthode RLHF repose sur une annotation et une évaluation manuelles approfondies, ce qui nécessite souvent des semaines et des milliers de dollars pour collecter des commentaires humains, ce qui est coûteux.
Maintenant, l'Université de Stanford, qui a lancé le modèle open source Alpaca, a proposé un autre simulateur - AlpacaFarm (traduit littéralement par ferme d'alpaga). AlpacaFarm peut reproduire le processus RLHF en 24 heures pour seulement environ 200 $, permettant aux modèles open source d'améliorer rapidement les résultats d'évaluation humaine, que l'on peut appeler l'équivalent du RLHF.
AlpacaFarm tente de développer rapidement et de manière rentable des méthodes d'apprentissage à partir des commentaires humains. Pour ce faire, l’équipe de recherche de Stanford a d’abord identifié trois difficultés principales dans l’étude des méthodes RLHF : le coût élevé des données sur les préférences humaines, le manque d’évaluations fiables et le manque d’implémentations de référence.
Pour résoudre ces trois problèmes, AlpacaFarm a construit des implémentations spécifiques d'annotateurs de simulation, d'évaluation automatique et de méthodes SOTA. Actuellement, le code du projet AlpacaFarm est open source.
Comme le montre la figure ci-dessous, les chercheurs peuvent utiliser le simulateur AlpacaFarm pour développer rapidement de nouvelles méthodes d'apprentissage à partir des données de rétroaction humaine, et peuvent également migrer les méthodes SOTA existantes vers des données de préférences humaines réelles.
AlpacaFarm est construit sur la base de 52 000 instructions de l'ensemble de données Alpaca, dont 10 000 instructions sont utilisées pour affiner l'instruction de base suivant le modèle, et les 42 000 instructions restantes sont utilisées pour apprendre les préférences et l'évaluation humaines, et principalement utilisé pour apprendre à partir d'annotateurs simulés. Cette étude aborde les trois défis majeurs que sont le coût de l'annotation, l'évaluation et la vérification de la mise en œuvre de la méthode RLHF, et propose des solutions une par une.
Tout d'abord, pour réduire les coûts d'annotation, cette étude a créé des invites pour les LLM accessibles par API (tels que GPT-4, ChatGPT), permettant à AlpacaFarm de simuler les commentaires humains pour seulement 1/45 du coût de la collecte de données à l'aide du RLHF. méthode. Cette étude a conçu un schéma d'annotation aléatoire et bruyant utilisant 13 invites différentes pour extraire différentes préférences humaines à partir de plusieurs LLM. Ce schéma d'annotation vise à capturer différents aspects du feedback humain, tels que les jugements de qualité, la variabilité entre les annotateurs et les préférences de style.
Cette étude montre expérimentalement que la simulation d’AlpacaFarm est précise. Lorsque l'équipe de recherche a utilisé AlpacaFarm pour former et développer des méthodes, celles-ci se sont classées de manière très cohérente avec les mêmes méthodes formées et développées à l'aide de commentaires humains réels. La figure ci-dessous montre la forte corrélation dans les classements entre les méthodes résultant du workflow de simulation AlpacaFarm et le workflow de feedback humain. Cette propriété est cruciale car elle montre que les conclusions expérimentales tirées des simulations sont susceptibles de s’avérer vraies dans des situations réelles.
En plus de la corrélation au niveau de la méthode, le simulateur AlpacaFarm peut également reproduire des phénomènes qualitatifs tels que la sur-optimisation du modèle de récompense, mais la formation continue RLHF pour les récompenses de substitution peut nuire aux performances du modèle. La figure ci-dessous montre ce phénomène dans le cas de la rétroaction humaine (à gauche) et d'AlpacaFarm (à droite). Nous pouvons voir qu'AlpacaFarm capture initialement le comportement déterministe correct de l'amélioration des performances du modèle, puis à mesure que la formation RLHF se poursuit, les performances du modèle diminuent.
Pour l'évaluation, l'équipe de recherche a utilisé les interactions des utilisateurs en temps réel avec Alpaca 7B comme guidage et la distribution d'instructions simulées en combinant plusieurs ensembles de données publics existants, y compris l'ensemble de données d'auto-instruction, l'utilité anthropique. ensemble de données et ensemble d'évaluation pour Open Assistant, Koala et Vicuna. À l’aide de ces instructions d’évaluation, l’étude a comparé la réponse du modèle RLHF au modèle Davinci003 et a utilisé un score pour mesurer le nombre de fois où le modèle RLHF a mieux répondu, appelant ce score le taux de victoire. Comme le montre la figure ci-dessous, une évaluation quantitative du classement du système sur la base des données d'évaluation de l'étude montre que le classement du système et les commandes utilisateur en temps réel sont fortement corrélés. Ce résultat montre que l’agrégation de données publiques existantes peut atteindre des performances similaires à de simples instructions réelles.
Pour le troisième défi - manque de mise en œuvre de référence, l'équipe de recherche a mis en œuvre et testé plusieurs algorithmes d'apprentissage populaires (tels que PPO, itération experte, échantillonnage best-of-n) . L'équipe de recherche a constaté que les méthodes plus simples qui fonctionnaient dans d'autres domaines n'étaient pas meilleures que le modèle SFT original de l'étude, ce qui suggère qu'il est important de tester ces algorithmes dans un environnement réel de suivi des instructions.
Basé sur une évaluation manuelle, l'algorithme PPO s'est avéré le plus efficace, augmentant le taux de victoire du modèle de 44 % à 55 % par rapport à Davinci003, dépassant même ChatGPT.
Ces résultats montrent que l'algorithme PPO est très efficace pour optimiser le taux de réussite du modèle. Il est important de noter que ces résultats sont spécifiques aux données d'évaluation et aux annotateurs de cette étude. Bien que les instructions d'évaluation de l'étude représentent des instructions utilisateur en temps réel, elles ne couvrent peut-être pas des problèmes plus complexes, et il n'est pas certain que l'amélioration du taux de victoire provienne de l'exploitation des préférences de style plutôt que de la réalité ou de l'exactitude. Par exemple, l'étude a révélé que le modèle PPO produisait des résultats beaucoup plus longs et fournissait souvent des explications plus détaillées pour les réponses, comme indiqué ci-dessous : les préférences simulées peuvent améliorer considérablement les résultats de l'évaluation humaine du modèle sans nécessiter que le modèle soit recyclé sur les préférences humaines. Bien que ce processus de transfert soit fragile et encore légèrement moins efficace que le recyclage du modèle sur les données de préférences humaines. Cependant, il peut copier le pipeline RLHF en 24 heures pour seulement 200 $, ce qui permet au modèle d'améliorer rapidement les performances d'évaluation humaine. Le simulateur AlpacaFarm est encore trop performant. Il est conçu par la communauté open source pour reproduire les fonctions puissantes de modèles tels que. ChatGPT. Un autre effort.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!