Maison  >  Article  >  Périphériques technologiques  >  Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

WBOY
WBOYoriginal
2024-06-01 16:41:36523parcourir

Afin d'aligner les grands modèles de langage (LLM) sur les valeurs et les intentions humaines, il est crucial d'apprendre les commentaires humains pour garantir qu'ils sont utiles, honnêtes et inoffensifs. En termes d'alignement des LLM, une approche efficace est l'apprentissage par renforcement basé sur la rétroaction humaine (RLHF). Bien que les résultats de la méthode RLHF soient excellents, certains défis d’optimisation sont impliqués. Cela implique de former un modèle de récompense, puis d'optimiser un modèle politique pour maximiser cette récompense.

Récemment, certains chercheurs ont exploré des algorithmes hors ligne plus simples, dont l'optimisation directe des préférences (DPO). DPO apprend un modèle de politique directement basé sur les données de préférences en paramétrant la fonction de récompense dans RLHF, éliminant ainsi le besoin d'un modèle de récompense explicite. Cette méthode est simple et stable et a été largement utilisée dans la pratique.

Lors de l'utilisation du DPO, le moyen d'obtenir des récompenses implicites consiste à utiliser le logarithme du rapport de vraisemblance de réponse entre le modèle de politique actuel et le modèle de réglage fin supervisé (SFT). Cependant, cette façon de structurer la récompense ne correspond pas directement à la métrique générée par le bootstrap, qui correspond approximativement au logarithme moyen de la réponse générée par le modèle politique. Cette différence entre formation et inférence peut conduire à de mauvaises performances.

À cette fin, Meng Rui, professeur adjoint à l'Université de Virginie, Xia Mengzhou, doctorante à l'Université de Princeton, et Chen Danqi, professeur adjoint, ont proposé conjointement SimPO - un algorithme d'optimisation des préférences hors ligne simple et efficace. . La conception de SimPO est basée sur la modélisation du problème d'optimisation comme un problème de minimisation d'une fonction boîte noire continue. Grâce à une itération continue, SimPO est capable de trouver la meilleure stratégie d'optimisation et d'obtenir une convergence efficace. Par rapport aux algorithmes d'optimisation traditionnels,

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.


  • Titre de l'article : SimPO : Optimisation simple des préférences avec une récompense sans référence
  • Adresse de l'article : https://arxiv.org /pdf /2405.14734
  • Code et modèle : https://github.com/princeton-nlp/SimPO

Le cœur de l'algorithme est de combiner la fonction de récompense dans l'objectif d'optimisation des préférences avec l’alignement des indicateurs de génération. SimPO se compose de deux éléments principaux : (1) une récompense dont la longueur est normalisée, calculée comme la probabilité moyenne du journal de tous les jetons de la récompense à l'aide du modèle politique (2) une différence de récompense cible pour garantir les gains et les pertes. La différence de récompense entre les réponses ; dépasse cette différence.

Pour résumer, SimPO présente les caractéristiques suivantes :

  • Simple : SimPO ne nécessite pas de modèle de référence, il est donc plus léger et plus facile à mettre en œuvre que d'autres méthodes comme le DPO qui s'appuient sur des modèles de référence.
  • Avantages évidents en termes de performances : bien que SimPO soit simple, ses performances sont nettement meilleures que celles de DPO et de ses dernières variantes (telles que la récente cible sans référence ORPO). Comme le montre la figure 1. Et SimPO présente des avantages stables dans différents paramètres d'entraînement et plusieurs tests de conformité des commandes (y compris AlpacaEval 2 et le difficile test Arena-Hard).
  • Utilisation minimale de la longueur : par rapport aux modèles SFT ou DPO, SimPO n'augmente pas de manière significative la longueur de réponse (voir tableau 1), ce qui signifie que son utilisation de la longueur est minimale.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

L'équipe a mené une analyse approfondie et les résultats ont montré que SimPO peut utiliser plus efficacement les données de préférence pour classer plus précisément la probabilité de réponses de haute et de mauvaise qualité sur l'ensemble de validation, ce qui permet en outre de créer une meilleure stratégie. des modèles.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Comme le montre le tableau 1, l'équipe a construit un modèle avec des performances optimales basé sur Llama3-8B-instruct, qui a atteint un taux de victoire contrôlé en longueur de 44,7 sur AlpacaEval 2, dépassant le classement Claude 3 Opus ; de plus, son taux de victoire sur Arena-Hard est de 33,8, ce qui en fait le modèle open source 8B le plus puissant actuellement.

SimPO : Optimisation simple des préférences

Pour faciliter la compréhension, ce qui suit présente d'abord le contexte du DPO, puis explique la différence entre la récompense du DPO et la mesure de probabilité utilisée pour la génération, et propose un modèle sans référence formule de récompense alternative pour atténuer ce problème. Enfin, l'objectif SimPO est dérivé en intégrant le terme de marge de récompense cible dans le modèle Bradley-Terry.

Contexte : Optimisation directe des préférences (DPO)

DPO est l'une des méthodes d'optimisation des préférences hors ligne les plus couramment utilisées. DPO n'apprend pas de modèle de récompense explicite, mais utilise une expression fermée avec une politique optimale pour reparamétrer la fonction de récompense r :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.


où π_θ est le modèle de politique, π_ref est la référence politique (généralement le modèle SFT) et Z (x) est la fonction de partition. En intégrant cette façon de créer des récompenses dans l'objectif de classement Bradley-Terry (BT), Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant., le DPO peut utiliser un modèle de politique au lieu d'un modèle de récompense pour représenter la probabilité des données de préférence, ce qui aboutit à l'objectif suivant :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

où (x, y_w, y_l) est la paire de préférences composée d'une réponse rapide, gagnante et d'une réponse perdante de l'ensemble de données de préférence D.

Une récompense simple sans référence et alignée sur les résultats générés

La différence entre les récompenses DPO et générées. L'utilisation de l'équation (1) comme expression implicite de récompense présente les inconvénients suivants : (1) La phase d'entraînement nécessite un modèle de référence π_ref, ce qui entraînera des coûts de mémoire et de calcul supplémentaires ; (2) La récompense optimisée dans la phase d'entraînement et la génération utilisée ; en inférence Il existe des différences entre les indicateurs. Plus précisément, dans l'étape de génération, le modèle politique π_θ est utilisé pour générer une séquence qui peut approximativement maximiser la log-vraisemblance moyenne, définie comme suit :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Il est très difficile de maximiser directement cet indicateur lors du décodage. processus , diverses stratégies de décodage peuvent être utilisées pour cela, telles que le décodage glouton, la recherche de faisceaux, l'échantillonnage par noyau et l'échantillonnage top-k. De plus, cette métrique est souvent utilisée pour classer les options lorsque les modèles linguistiques effectuent des tâches de sélection multiple. Dans DPO, pour tout triplet (x, y_w, y_l), satisfaire au classement de récompense r (x, y_w) > r (x, y_l) ne signifie pas nécessairement satisfaire au classement de probabilité Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.. En fait, lors de l'entraînement avec DPO, seulement environ 50 % des triplés de l'ensemble d'exclusion remplissent cette condition (voir Figure 4b).

Construisez des récompenses de longueur normalisée. Naturellement, nous envisagerions d'utiliser p_θ dans (3) pour remplacer la construction de récompense dans DPO afin qu'elle s'aligne sur la métrique de vraisemblance générée par le bootstrap. Il en résulte une récompense dont la longueur est normalisée :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

où β est une constante qui contrôle la taille de la différence de récompense. L'équipe a constaté que la normalisation des récompenses en fonction de la longueur de la réponse est essentielle ; la suppression du terme de normalisation de la longueur de la formule de récompense a amené le modèle à avoir tendance à générer des séquences plus longues mais de moindre qualité. Cela élimine le besoin d’un modèle de référence pour créer des récompenses, ce qui se traduit par une mémoire et une efficacité de calcul supérieures à celles des algorithmes qui s’appuient sur des modèles de référence.

SimPO Target

Différence de récompense cible. En outre, l'équipe a également introduit un terme de différence de récompense cible γ > 0 pour l'objectif de Bradley-Terry afin de garantir que la récompense r (x, y_w) de la réponse gagnante dépasse la récompense r (x, y_l) de la réponse échouée. d'au moins γ :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La différence entre deux classes est connue pour affecter la capacité de généralisation du classificateur. Dans les paramètres de formation standard utilisant l'initialisation aléatoire du modèle, l'augmentation de la marge cible améliore généralement les performances de généralisation. Dans l'optimisation des préférences, ces deux catégories gagnent ou perdent des réponses à une seule entrée.

En pratique, l'équipe a observé qu'à mesure que la différence cible augmente, la qualité de la génération s'améliore dans un premier temps, mais que lorsque la différence devient trop importante, la qualité de la génération diminue. Une variante du DPO, l'IPO, construit également une marge de récompense cible similaire à SimPO, mais son objectif global est moins efficace que SimPO.

Objectifs. Enfin, en remplaçant l'équation (4) par l'équation (5), la cible SimPO peut être obtenue :

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

En résumé, SimPO adopte une forme de récompense implicite directement alignée sur l'indicateur généré, éliminant ainsi le besoin d’exigences en matière de modèle de référence. De plus, il introduit une différence de récompense cible γ pour séparer les réponses gagnantes et perdantes.

Configuration expérimentale

Configuration du modèle et de la formation. Les expériences de l'équipe ont utilisé deux types de modèles, Llama3-8B et Mistral-7B, dans les paramètres Base et Instruct.

Benchmark d'évaluation. L'équipe a utilisé trois des benchmarks de conformité ouverts les plus couramment utilisés : MT-Bench, AlpacaEval 2 et Arena-Hard v0.1. Ces benchmarks évaluent les diverses capacités conversationnelles d'un modèle sur une variété de requêtes et ont été largement adoptés par la communauté. Le tableau 2 donne quelques détails.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Méthode de base. Le tableau 3 répertorie d'autres méthodes d'optimisation des préférences hors ligne par rapport à SimPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Résultats expérimentaux

Principaux résultats et études d'ablation

SimPO fonctionne toujours nettement mieux que les méthodes d'optimisation des préférences existantes. Comme le montre le tableau 4, bien que tous les algorithmes d'optimisation des préférences fonctionnent mieux que le modèle SFT, le simple SimPO atteint les meilleures performances sur tous les tests et paramètres. Une avance aussi importante à tous les niveaux démontre la robustesse et l’efficacité de SimPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La qualité des références varie. On peut observer que le taux de victoire sur Arena-Hard est nettement inférieur au taux de victoire sur AlpacaEval 2, ce qui indique qu'Arena-Hard est une référence plus difficile.

Les paramètres d'instruction apporteront des gains de performances significatifs. Comme on peut le voir, la configuration Instruct surpasse la configuration de base dans tous les domaines sur tous les benchmarks. Cela peut être dû à l'utilisation de modèles SFT de meilleure qualité pour l'initialisation par ces modèles et à la meilleure qualité des données de préférence générées par ces modèles.

Deux conceptions clés de SimPO sont importantes. Le tableau 5 montre les résultats des expériences d'ablation pour chaque conception clé de SimPO. (1) Supprimez la normalisation de la longueur dans (4) (c'est-à-dire sans LN) ; (2) Définissez la différence de récompense cible dans (6) sur 0 (c'est-à-dire γ = 0).

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La suppression de la normalisation de la longueur a le plus grand impact sur les résultats. Les recherches de l'équipe ont révélé que le modèle générait des modèles longs et répétitifs, ce qui réduisait considérablement la qualité globale du résultat. Définir γ sur 0 entraîne également une dégradation des performances de SimPO, indiquant que 0 n'est pas la marge de récompense cible optimale.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Voir l'article original pour une analyse plus approfondie de ces deux choix de conception.

Comparaison approfondie de DPO et SimPO

Enfin, l'équipe a également comparé de manière exhaustive DPO et SimPO sous quatre perspectives : (1) corrélation probabilité-longueur, (2) construction de récompense, ( 3 ) Précision des récompenses, (4) Efficacité algorithmique. Les résultats montrent que SimPO surpasse DPO en termes de précision et d’efficacité.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Les récompenses DPO favorisent implicitement la normalisation de la longueur.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.


Bien que l'expression de récompense DPO Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. (sans la fonction de partition) ne dispose pas d'un terme explicite pour la normalisation de la longueur, le rapport logarithmique entre le modèle politique et le modèle de référence peut être implicitement destiné à compenser le biais de longueur. Comme le montrent le tableau 6 et la figure 4a, l'utilisation de DPO réduit le coefficient de corrélation de Spearman entre la log-vraisemblance moyenne et la longueur de réponse par rapport à la méthode sans aucune normalisation de la longueur (notée SimPO sans LN). Cependant, il montre toujours une corrélation positive plus forte que SimPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La récompense DPO ne correspond pas à la probabilité générée.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.


Il existe une différence entre la récompense du DPO et la métrique de log-vraisemblance moyenne, qui affecte directement la génération. Comme le montre la figure 4b, dans l'instance de l'ensemble d'entraînement UltraFeedback, où Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant., près de la moitié des paires de données ont Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.. En revanche, SimPO utilise directement la log-vraisemblance moyenne (mise à l'échelle par β) comme expression de récompense, éliminant ainsi complètement la différence.

DPO n'est pas aussi bon que SimPO en termes de précision des récompenses.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

La figure 4c compare la précision des récompenses de SimPO et DPO, qui évalue dans quelle mesure leurs récompenses finales apprises s'alignent avec les étiquettes de préférence sur l'ensemble d'exclusion. On peut observer que la précision des récompenses de SimPO est supérieure à celle de DPO, ce qui indique que la conception des récompenses de SimPO permet d'obtenir une généralisation plus efficace et une génération de meilleure qualité.

SimPO est plus efficace en termes de mémoire et de calcul que DPO.

Surpassant largement le DPO : léquipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant.

Un autre gros avantage de SimPO est son efficacité, après tout, il n'utilise pas de modèle de référence. La figure 4d présente la durée d'exécution globale et l'utilisation maximale de la mémoire par GPU pour SimPO et DPO lors de l'utilisation de la configuration Llama3-Base sur un GPU 8 × H100. SimPO réduit le temps d'exécution d'environ 20 % et l'utilisation de la mémoire GPU d'environ 10 % par rapport à l'implémentation DPO d'origine, grâce à l'élimination des passes avant à l'aide du modèle de référence.

Pour plus de détails, veuillez lire l'article original.


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn