Maison >Périphériques technologiques >IA >Le « RL » dans RLHF est-il obligatoire ? Certaines personnes utilisent l'entropie croisée binaire pour affiner directement le LLM, et l'effet est meilleur.
Récemment, des modèles de langage non supervisés formés sur de grands ensembles de données ont atteint des capacités surprenantes. Cependant, ces modèles sont formés sur des données générées par des humains avec une variété d’objectifs, de priorités et de compétences, dont certains ne sont pas nécessairement imités.
Sélectionner les réponses et les comportements souhaités d'un modèle à partir de ses connaissances et capacités très larges est essentiel pour créer des systèmes d'IA sûrs, performants et contrôlables. De nombreuses méthodes existantes inculquent les comportements souhaités dans les modèles de langage en utilisant des ensembles de préférences humaines soigneusement sélectionnés qui représentent les types de comportements que les humains considèrent comme sûrs et bénéfiques. Cette étape d'apprentissage des préférences se produit sur de grands ensembles de données textuelles après une phase initiale de pré-apprentissage non supervisé à grande échelle. -entraînement.
Bien que la méthode d'apprentissage des préférences la plus simple soit le réglage fin supervisé des réponses de haute qualité démontrées par les humains, une classe de méthodes relativement populaire récemment est l'apprentissage par renforcement à partir du feedback humain (ou de l'intelligence artificielle) (RLHF/RLAIF). L'approche RLHF associe un modèle de récompense à un ensemble de données de préférences humaines, puis utilise RL pour optimiser une politique de modèle de langage afin de produire des réponses qui attribuent des récompenses élevées sans s'écarter excessivement du modèle d'origine.
Alors que RLHF produit des modèles dotés de capacités conversationnelles et de codage impressionnantes, le pipeline RLHF est beaucoup plus complexe que l'apprentissage supervisé, impliquant la formation de plusieurs modèles de langage et l'échantillonnage de politiques de modèles de langage dans une boucle entraînée, ce qui entraîne des coûts de calcul élevés.
Et une étude récente montre que : L'objectif basé sur RL utilisé par les méthodes existantes peut être optimisé avec précision avec un simple objectif d'entropie croisée binaire, simplifiant ainsi considérablement le pipeline d'apprentissage des préférences. C'est-à-dire qu'il est tout à fait possible d'optimiser directement les modèles de langage pour adhérer aux préférences humaines sans avoir besoin de modèles de récompense explicites ou d'apprentissage par renforcement.
Des chercheurs de l'Université de Stanford et d'autres institutions ont proposé l'optimisation des préférences directes (DPO), cet algorithme optimise implicitement le même objectif que l'algorithme RLHF existant (maximisation des récompenses avec KL - contraintes de divergence), mais est simple à mettre en œuvre et directement entraînable.
Les expériences montrent que le DPO est au moins aussi efficace que les méthodes existantes, y compris le RLHF basé sur le PPO, lorsqu'il est utilisé pour des tâches d'apprentissage des préférences telles que la régulation des émotions, la synthèse et le dialogue avec 6 milliards de modèles de langage de paramètres.
Algorithme DPOComme les algorithmes existants, DPO s'appuie également sur des modèles de préférences théoriques (tels que le modèle Bradley-Terry) pour mesurer dans quelle mesure une fonction de récompense donnée correspond aux données de préférence empiriques. Cependant, les méthodes existantes utilisent un modèle de préférence pour définir une perte de préférence afin de former un modèle de récompense, puis former une politique qui optimise le modèle de récompense appris, tandis que DPO utilise des changements de variables pour définir directement la perte de préférence en fonction de la politique. Compte tenu de l'ensemble de données de préférences humaines pour les réponses du modèle, DPO peut donc optimiser la politique en utilisant un simple objectif d'entropie croisée binaire sans avoir besoin d'apprendre explicitement une fonction de récompense ou un échantillon de la politique pendant la formation. La mise à jour de
DPO augmente la probabilité logarithmique relative des réponses préférées par rapport aux réponses non préférées, mais elle inclut un poids d'importance dynamique par échantillon pour éviter la dégradation du modèle, ce que les chercheurs ont découvert sur une cible de rapport de probabilité naïve.
Afin de comprendre le DPO de manière mécaniste, il est utile d'analyser le gradient de la fonction de perte
. Le gradient par rapport au paramètre θ peut s'écrire :où est la récompense implicitement définie par le modèle de langage et le modèle de référence . Intuitivement, le gradient de la fonction de perte augmente la probabilité d'achèvement préféré y_w et diminue la probabilité d'achèvement non préféré y_l. L'important est que le poids de ces échantillons est déterminé par l'évaluation du modèle de récompense implicite du degré d'achèvement détesté, avec β comme échelle, c'est-à-dire le classement du degré d'achèvement du modèle de récompense implicite has Beaucoup sont incorrects. Cela reflète également la force de la contrainte KL. Les expériences démontrent l’importance de cette pondération, car une version naïve de cette méthode sans coefficients de pondération conduit à une dégradation du modèle de langage (tableau 2 en annexe). Dans le chapitre 5 de l'article, le chercheur explique plus en détail la méthode DPO, fournit un soutien théorique et relie les avantages du DPO aux problèmes des algorithmes acteur-critique (tels que PPO) pour RLHF. Des détails spécifiques peuvent être trouvés dans le document original. Dans l'expérience, les chercheurs ont évalué la capacité des DPO à former des politiques directement basées sur les préférences. Tout d'abord, dans un environnement de génération de texte bien contrôlé, ils ont examiné la question : par rapport aux algorithmes d'apprentissage des préférences courants tels que PPO, DPO fait un compromis entre l'efficacité de la maximisation des récompenses et la minimisation de la divergence KL dans la politique de référence, comment ? Nous avons ensuite évalué les performances du DPO sur des modèles plus grands et des tâches RLHF plus difficiles, y compris la synthèse et le dialogue. J'ai finalement découvert qu'avec presque aucun réglage des hyperparamètres, DPO fonctionne souvent aussi bien, voire mieux, que des lignes de base puissantes telles que RLHF avec PPO, tout en renvoyant le meilleur N sous la fonction de récompense apprise. Résultats de la trajectoire d'échantillonnage. En termes de tâches, les chercheurs ont exploré trois tâches différentes de génération de texte ouvertes. Dans toutes les expériences, l'algorithme apprend les politiques à partir de l'ensemble de données de préférences . Expérience
Dans la génération d'émotions contrôlée, x est le préfixe des critiques de films de l'ensemble de données IMDb et la politique doit générer y avec une émotion positive. Pour une évaluation comparative, l'expérience utilise un classificateur de sentiments pré-entraîné pour générer des paires de préférences, où .
Pour SFT, les chercheurs ont affiné GPT-2-large jusqu'à ce qu'il converge vers les commentaires de la division d'entraînement de l'ensemble de données IMDB. En résumé, x est un message de forum de Reddit, et la stratégie doit générer un résumé des points clés du message. S'appuyant sur des travaux antérieurs, les expériences ont utilisé l'ensemble de données récapitulatives Reddit TL; DR et les préférences humaines collectées par Stiennon et al. Les expériences ont également utilisé un modèle SFT affiné basé sur des résumés d’articles de forum écrits par des humains 2 et le cadre TRLX de RLHF. L'ensemble de données sur les préférences humaines est un échantillon collecté à partir d'un modèle SFT différent mais formé de manière similaire par Stiennon et al.
Enfin, dans une conversation à tour de rôle, x est une question humaine qui peut aller de l'astrophysique aux conseils relationnels. Une politique doit fournir une réponse intéressante et utile à la requête de l'utilisateur ; la politique doit fournir une réponse intéressante et utile à la requête de l'utilisateur ; l'expérience utilise l'ensemble de conversations Anthropic utile et inoffensif, qui contient 170 000 conversations entre des assistants humains et automatisés. Chaque texte se termine par une paire de réponses générées par un modèle de langage étendu (bien qu'inconnu) et une étiquette de préférence représentant la réponse préférée de l'homme. Dans ce cas, aucun modèle SFT pré-entraîné n'est disponible. Par conséquent, les expériences affinent les modèles de langage disponibles dans le commerce uniquement sur les complétions préférées pour former des modèles SFT.
Les chercheurs ont utilisé deux méthodes d'évaluation. Pour analyser l'efficacité de chaque algorithme dans l'optimisation de l'objectif contraint de maximisation des récompenses, les expériences évaluent chaque algorithme en fonction de ses limites en termes d'obtention de récompenses et de divergence KL par rapport à une stratégie de référence dans un environnement de génération d'émotions contrôlé. Les expériences peuvent utiliser des fonctions de récompense basées sur la vérité terrain (classificateurs de sentiments), afin que cette limite puisse être calculée. Mais en réalité, la fonction de récompense de la vérité terrain est inconnue. Nous évaluons donc le taux de victoire de l'algorithme en fonction du taux de victoire de la stratégie de base et utilisons GPT-4 comme proxy pour l'évaluation humaine de la qualité du résumé et de l'utilité de la réponse dans les paramètres de résumé et de dialogue à un seul tour. Pour les résumés, l'expérience utilise le résumé de référence dans la machine de test comme limite ; pour le dialogue, la réponse préférée dans l'ensemble de données de test est sélectionnée comme référence. Alors que les recherches existantes suggèrent que les modèles linguistiques peuvent être de meilleurs évaluateurs automatiques que les mesures existantes, les chercheurs ont mené une étude humaine qui a démontré la faisabilité de l'utilisation de GPT-4 pour l'évaluation de la corrélation entre les humains et le GPT-4. est généralement similaire ou supérieur à l’accord entre annotateurs humains.
En plus du DPO, les chercheurs ont également évalué plusieurs modèles de langage de formation existants pour les aligner sur les préférences humaines. Dans leur forme la plus simple, les expériences explorent les invites à tir nul de GPT-J sur la tâche récapitulative et les invites à 2 tirs de Pythia-2.8B sur la tâche de dialogue. De plus, des expériences évaluent le modèle SFT et Preferred-FT. Preferred-FT est un modèle affiné via un apprentissage supervisé lors des achèvements y_w sélectionnés parmi les modèles SFT (sentiment contrôlé et résumé) ou les modèles de langage général (dialogue à un seul tour). Une autre méthode pseudo-supervisée est Improbabilité, qui optimise simplement la politique pour maximiser la probabilité attribuée à y_w et minimiser la probabilité attribuée à y_l. L'expérience utilise un coefficient optionnel α∈[0,1] sur « Improbabilité ». Ils ont également considéré la PPO, en utilisant une fonction de récompense tirée des données de préférence, et la PPO-GT. PPO-GT est un oracle tiré des fonctions de récompense de la vérité terrain disponibles dans des contextes d'émotion contrôlés. Dans les expériences sur les émotions, l’équipe a utilisé deux implémentations de PPO-GT, une version standard et une version modifiée. Ce dernier normalise les récompenses et ajuste davantage les hyperparamètres pour améliorer les performances (les expériences ont également utilisé ces modifications lors de l'exécution d'un PPO « normal » avec des récompenses d'apprentissage). Enfin, nous considérons la meilleure des N lignes de base, échantillonnons N réponses du modèle SFT (ou Preferred-FT en termes conversationnels) et renvoyons la réponse la mieux notée en fonction d'une fonction de récompense apprise de l'ensemble de données de préférence. Cette approche haute performance dissocie la qualité du modèle de récompense de l'optimisation PPO, mais est peu pratique sur le plan informatique, même pour un N modéré, car elle nécessite N achèvements d'échantillons par requête au moment du test.
La figure 2 montre les limites de récompense KL pour divers algorithmes dans le cadre des émotions.
La figure 3 montre que le DPO converge relativement rapidement vers ses performances optimales.
Pour plus de détails sur la recherche, veuillez vous référer à l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!