Maison >Périphériques technologiques >IA >La mise au point de grands modèles doit-elle s'appuyer sur des données humaines ? DeepMind : l'auto-formation avec feedback est préférable

La mise au point de grands modèles doit-elle s'appuyer sur des données humaines ? DeepMind : l'auto-formation avec feedback est préférable

WBOY
WBOYoriginal
2024-08-05 20:48:40929parcourir

Face à la pratique courante actuelle consistant à affiner les grands modèles en s'appuyant principalement sur des données générées par l'homme, Google DeepMind a exploré un moyen plus efficace de réduire cette dépendance.


Comme vous et moi pouvons le constater, les grands modèles linguistiques (LLM) changent le paysage de l'apprentissage profond, démontrant des capacités supérieures à générer du texte de qualité humaine et à résoudre diverses tâches linguistiques. Alors que l’industrie a encore amélioré ses performances sur des tâches spécifiques grâce à un réglage fin supervisé des données collectées par les humains, l’obtention de données humaines de haute qualité se heurte à d’importants goulots d’étranglement. Cela est particulièrement vrai pour les tâches qui impliquent de résoudre des problèmes complexes, nécessitant des ressources et une expertise importantes.

Comment le résoudre ? Les données synthétiques générées par les modèles constituent une alternative prometteuse qui peut être évolutive et rentable tant que la qualité des données est maintenue.

Bien que LLM soit capable d'auto-évaluer les données générées, dans cet article, Google DeepMind explore une configuration plus simple qui utilise un signal de rétroaction scalaire externe comme indicateur de qualité pour chaque échantillon généré.

La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

Adresse papier : https://arxiv.org/pdf/2312.06585.pdf

Afin d'étudier la formation sur des données générées par un modèle, les chercheurs ont envisagé un modèle de langage simple mais puissant d'auto-formation. La méthode ne nécessite que deux fonctions, l'une consiste à générer des échantillons basés sur le modèle et l'autre consiste à utiliser le mécanisme de notation pour évaluer ces échantillons.

Afin de garantir clarté et cohérence, les chercheurs ont adopté une méthode d'auto-entraînement par renforcement ReST^??, et ont prouvé que cette méthode peut utiliser la maximisation des attentes (EM) pour l'apprentissage par renforcement. Plus précisément, ReST^?? alterne entre les étapes d'attente et de maximisation.

  1. Génération (E-step) : le modèle de langage génère plusieurs échantillons de sortie pour chaque contexte d'entrée, puis filtre ces échantillons à l'aide de récompenses binaires pour collecter un ensemble de données d'entraînement.
  2. Amélioration (étape M) : le modèle de langage d'origine est supervisé et affiné sur l'ensemble de données d'entraînement de l'étape E précédente, puis utilisé dans l'étape E suivante.

Les chercheurs ont confirmé que ReST^?? et ses variantes ont réussi à améliorer les modèles linguistiques dans divers domaines, notamment la traduction automatique, l'analyse sémantique, l'alignement des préférences et le raisonnement de base.

De plus, les travaux antérieurs utilisaient principalement ReST^??pour des modèles relativement petits (jusqu'à 7 milliards de paramètres), avec une évolutivité limitée pour les modèles plus grands. Par conséquent, cet article vise à explorer l'efficacité et l'évolutivité des données synthétiques générées par un modèle par rapport aux données générées par l'homme dans deux domaines difficiles mais moins étudiés : la résolution de problèmes mathématiques à des niveaux compétitifs (MATH) et la génération de code (APPS).

Les résultats empiriques montrent que lors de l'utilisation de ReST^?? pour des modèles PaLM 2 de différentes tailles, des améliorations significatives des performances sont obtenues dans les tâches de raisonnement mathématique et de génération de code. Les modèles affinés sur les données synthétiques générées par le modèle ont obtenu des gains de performances supérieurs à ceux formés sur des données écrites par l'homme. Il est intéressant de noter que les performances se dégradent au-delà d’un certain nombre d’itérations ReST^??, indiquant un risque de surajustement sur un petit nombre de problèmes d’entraînement.

De plus, le modèle affiné à l'aide de ReST^?? a amélioré la métrique pass@k et les performances du vote majoritaire. Ces modèles affinés montrent également des améliorations de performances sur des tests de référence pertinents mais retenus, notamment les mathématiques (finales GSM8K et HS hongrois), le codage (HumanEval) et les tâches Big-Bench Hard.

En résumé, les résultats de cet article montrent que l'auto-formation avec feedback est une méthode prometteuse pour réduire la dépendance aux données humaines.

Maximum attendu (EM) pour l'auto-entraînement par renforcement

Premièrement, cette étude est basée sur les recherches antérieures de Dayan et Hinton, utilisant un modèle de langage pour décrire le cadre d'apprentissage par renforcement basé sur l'EM. . Plus précisément, ils ont d’abord défini une variable binaire optimale O telle que ?(?= 1|?,?)∝?(?(?,?)); puis pour la fonction non décroissante ?: ℝ → ℝ+, ils ont atteint la maximisation observation?= 1 (obtention d'une récompense élevée), on obtient la formule suivante :

La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

Cependant, résoudre la somme de la séquence ? dans l’équation ci-dessus est délicat. Par conséquent, cet article envisage de maximiser son ELBO ?( ??, ?) par rapport au paramètre ? et à la distribution variationnelle ?( ?|?) au lieu de maximiser log ?(? = 1; ?). Plus précisément :

La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

L'algorithme EM dans la formule (2) alterne entre l'étape E (attente) et l'étape M (maximisation).

ReST^?? : Inspiré du framework EM, le prochain article discute d'une version simplifiée de la méthode ReST proposée par Gulcehre et al. Pour plus de clarté, cet article appelle cette approche ReST^??, qui dissocie la collecte de données (étape E) et l'optimisation des politiques (étape M) dans le pipeline RL. Comme le montre l'algorithme 1 :

La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

Génération (étape E)  : Dans cette étape, l'étude génère l'ensemble de données La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable en échantillonnant la séquence de sortie de la politique actuelle ?? Ici, l'entrée est rééchantillonnée à partir de l'ensemble de données d'origine La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable. La séquence de sortie dans La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable est ensuite notée à l'aide de la fonction de récompense binaire ?(?, ?). La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

Amélioration (étape M)  : Dans l'itération ?, l'étude utilise le nouvel ensemble de données dans l'étape E pour affiner la stratégie ??. Contrairement à l'étude de Gulcehre, ils affinent un modèle de langage de base pré-entraîné pour minimiser le surajustement spécifique à une tâche et minimiser les écarts par rapport au modèle de base. Pour un réglage précis, l'étude minimise la perte de log-vraisemblance négative pondérée en fonction des récompenses La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable. Une fois la stratégie améliorée, un nouvel ensemble de données avec des échantillons de meilleure qualité peut à nouveau être créé. La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

Expériences et analyses

L'objectif principal des expériences menées dans cet article est de répondre aux questions suivantes :

  1. Quelle est l'efficacité de ReST ^ ?? sur les données générées par l'homme ?
  2. Combien d'itérations sont nécessaires pour obtenir les meilleures performances ? ReST^??Combien de temps faut-il pour que l'ensemble d'entraînement soit surajusté ?
  3. ReST^??Comment cela affecte-t-il pass@k et les performances du vote majoritaire ?
  4. Si un utilisateur utilise les données générées par le modèle pour affiner une tâche spécifique, seront-elles migrées vers d'autres tâches ? Lors de l’évaluation de notre modèle affiné sur un large éventail de tâches, les performances diminuent-elles par rapport au modèle de base ?
  5. Quelle quantité approximative de données d'entrée est nécessaire pour obtenir la plupart des gains de performances de ReST^??? Une itération de ReST^ est-elle suffisante ?

Cette étude a mené des expériences en utilisant le modèle PaLM 2 et des API publiques sur Google Cloud, notamment PaLM 2-S (Bison), PaLM 2-S* (Codey) et PaLM 2-L (Licorne). L'ensemble de données d'entraînement utilise l'ensemble de données MATH et l'ensemble de données APPS.

La figure 2 et la figure 3 montrent les performances de ReST^??
formé respectivement sur les ensembles de données MATH et APPS. On peut conclure que MATH bénéficie de plusieurs itérations de ReST^??, à la fois en termes de performances sur l'ensemble de tests MATH et de migration vers GSM8K. D'un autre côté, on peut voir que la majeure partie du gain pour APPS provient de la première itération, tandis que l'exécution d'un plus grand nombre d'itérations entraîne une dégradation des performances à la fois pour APPS et HumanEval.

La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

L'écart entre l'entraînement et les performances aux tests. La figure 4 montre que si les performances de l'ensemble d'entraînement augmentent linéairement avec le nombre d'itérations ReST^??, ce n'est pas le cas des performances de l'ensemble de test. Pour MATH, peu d’amélioration des performances des tests a été observée après la première itération, tandis que pour APPS, une régression des performances a été observée lors de la deuxième itération. L'étude suppose que la régression des performances pourrait être due à un surapprentissage. Étant donné que l’ensemble de données APPS représente environ un tiers de la taille de l’ensemble de données MATH, il est plus sensible à ce problème.

La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

La figure 5 montre les performances du modèle Palm-2-L sur la métrique pass@K. Les résultats montrent que le modèle ReST^?? obtenu après ajustement fin est plus fort pour toutes les valeurs de K, l'écart de performance étant généralement le plus grand à K=1. La mise au point de grands modèles doit-elle sappuyer sur des données humaines ? DeepMind : lauto-formation avec feedback est préférable

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn