Maison >Périphériques technologiques >IA >Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

DDD
DDDoriginal
2025-02-28 10:37:12870parcourir

Bienvenue dans la partie 2 de ma plongée profonde LLM. Si vous n'avez pas lu la partie 1, je vous encourage fortement à le vérifier en premier.

Auparavant, nous avons couvert les deux premières étapes majeures de la formation d'un LLM:

  1. Pré-formation - Apprendre des ensembles de données massifs pour former un modèle de base.
  2. Affinement fin supervisé (SFT) - affiner le modèle avec des exemples organisés pour le rendre utile.

Maintenant, nous plongeons dans la prochaine étape principale: Apprentissage par renforcement (RL) . Alors que la pré-formation et la SFT sont bien établies, RL évolue toujours mais est devenu un élément essentiel du pipeline d'entraînement.

J'ai pris référence sur YouTube de 3,5 heures largement populaire d'Andrej Karpathy. Andrej est un membre fondateur d'Openai, ses idées sont l'or - vous avez l'idée.

allons-y?

Quel est le but de l'apprentissage du renforcement (RL)?

Les humains et les LLMs traitent les informations différemment. Ce qui est intuitif pour nous - comme l'arithmétique de base - peut ne pas être pour un LLM, qui ne considère que le texte comme des séquences de jetons. Inversement, un LLM peut générer des réponses au niveau des experts sur des sujets complexes simplement parce qu'il a vu suffisamment d'exemples pendant la formation.

Cette différence de cognition rend difficile pour les annotateurs humains de fournir l'ensemble «parfait» d'étiquettes qui guident systématiquement un LLM vers la bonne réponse.

RL comble cette lacune en permettant au modèle de apprendre de sa propre expérience .

Au lieu de compter uniquement sur des étiquettes explicites, le modèle explore différentes séquences de jetons et reçoit des commentaires - des signaux de récompense - sur les sorties les plus utiles. Au fil du temps, il apprend à mieux s'aligner sur l'intention humaine.

intuition derrière Rl

Les LLM

sont stochastiques - ce qui signifie que leurs réponses ne sont pas fixées. Même avec la même invite, la sortie varie car elle est échantillonnée à partir d'une distribution de probabilité.

Nous pouvons exploiter ce hasard en générant des milliers ou même des millions de réponses possibles en parallèle . Considérez-le comme le modèle explorant différents chemins - certains bons, certains mauvais. Notre objectif est de l'encourager à prendre les meilleurs chemins plus souvent.

Pour ce faire, nous formons le modèle sur les séquences de jetons qui conduisent à de meilleurs résultats. Contrairement à un réglage fin supervisé, où les experts humains fournissent des données étiquetées, l'apprentissage du renforcement permet au modèle de apprendre de lui-même.

Le modèle découvre les réponses qui fonctionnent le mieux, et après chaque étape de formation, nous mettons à jour ses paramètres. Au fil du temps, cela rend le modèle plus susceptible de produire des réponses de haute qualité lorsqu'elles ont donné des invites similaires à l'avenir.

Mais comment déterminons-nous quelles réponses sont les meilleures? Et combien RL devrions-nous faire? Les détails sont difficiles, et les faire correctement n'est pas trivial.

RL n'est pas «nouveau» - il peut dépasser l'expertise humaine (Alphago, 2016)

Un excellent exemple de la puissance de RL est l'alphago de Deepmind, la première IA à vaincre un joueur de GO professionnel et à dépasser plus tard le jeu de niveau humain.

Dans l'article de la nature 2016 (graphique ci-dessous), lorsqu'un modèle a été formé uniquement par SFT (donnant au modèle des tonnes de bons exemples à imiter), le modèle a pu atteindre les performances au niveau humain, mais ne le dépasse jamais .

La ligne pointillée représente les performances de Lee Sedol - le meilleur joueur Go au monde.

C'est parce que SFT concerne la réplication, pas l'innovation - elle ne permet pas au modèle de découvrir de nouvelles stratégies au-delà de la connaissance humaine.

Cependant, RL a permis à Alphago de jouer contre lui-même, d'affiner ses stratégies et, finalement, dépasser l'expertise humaine (ligne bleue).

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

RL représente une frontière passionnante dans l'IA - où les modèles peuvent explorer des stratégies au-delà de l'imagination humaine lorsque nous la formons sur un bassin divers et difficile de problèmes pour affiner ses stratégies de réflexion.

RL Recaps Foundations

Recaptons rapidement les composants clés d'une configuration RL typique:

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago
  • agent - l'apprenant ou le décideur. Il observe la situation actuelle ( état ), choisit une action, puis met à jour son comportement en fonction du résultat ( récompense ).
  • Environnement - Le système externe dans lequel l'agent fonctionne.
  • État - Un instantané de l'environnement à une étape donnée t .

À chaque horodatage, l'agent effectue une Action dans l'environnement qui changera l'état de l'environnement en un nouveau. L'agent recevra également des commentaires indiquant à quel point l'action était bonne ou mauvaise.

Cette rétroaction est appelée A Récompense , et est représentée sous une forme numérique. Une récompense positive encourage ce comportement et une récompense négative le décourage.

En utilisant les commentaires de différents états et actions, l'agent apprend progressivement la stratégie optimale pour maximiser la récompense totale au fil du temps.

Politique

La politique est la stratégie de l'agent. Si l'agent suit une bonne politique, il prendra systématiquement de bonnes décisions, conduisant à des récompenses plus élevées sur de nombreuses étapes.

En termes mathématiques, c'est une fonction qui détermine la probabilité de différentes sorties pour un état donné - (πθ (a | s)) .

Fonction de valeur

Une estimation de la qualité de celle-ci d'être dans un certain état, compte tenu de la récompense attendue à long terme. Pour un LLM, la récompense peut provenir d'une rétroaction humaine ou d'un modèle de récompense.

Architecture acteur-critique

Il s'agit d'une configuration RL populaire qui combine deux composants:

  1. acteur - apprend et met à jour la stratégie (πθ), décidant de quelle action prendre dans chaque état.
  2. critique - évalue la fonction de valeur (v (s)) pour donner des commentaires à l'acteur sur la question de savoir si ses actions choisies conduisent à de bons résultats.

comment cela fonctionne:

  • L'acteur choisit une action basée sur sa politique actuelle.
  • le critique évalue le résultat (récompense à l'état suivant) et met à jour son estimation de valeur.
  • Les commentaires du critique aident l'acteur à affiner sa politique afin que les actions futures conduisent à des récompenses plus élevées.

Mettez le tout pour LLMS

L'état peut être le texte actuel (invite ou conversation), et l'action peut être le prochain jeton à générer. Un modèle de récompense (par exemple, la rétroaction humaine), indique au modèle à quel point il est bon ou mauvais.

La politique est la stratégie du modèle pour choisir le token suivant, tandis que la fonction de valeur estime à quel point le contexte de texte actuel est bénéfique, en termes de réception éventuellement de réponses de haute qualité.

Deepseek-R1 (publié le 22 janvier 2025)

Pour mettre en évidence l’importance de RL, explorons Deepseek-R1, un modèle de raisonnement atteignant des performances de haut niveau tout en restant open-source. Le document a introduit deux modèles:

Deepseek-R1-Zero et Deepseek-R1.

    Deepseek-R1-Zero a été formé uniquement via une RL à grande échelle, sautant un réglage fin supervisé (SFT).
  • Deepseek-R1 s'appuie sur elle, relevant des défis rencontrés.
Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago Plongeons dans certains de ces points clés.

1. RL Algo: Optimisation de la politique relative du groupe (GRPO)

Un algorithme RL modifiant le jeu clé est l'optimisation relative de stratégie de groupe (GRPO), une variante de l'optimisation de politique proximale (PPO) largement populaire. GRPO a été introduit dans le papier Deepseekmath en février 2024.

Pourquoi grpo sur PPO?

PPO se débat avec des tâches de raisonnement en raison de:

  1. dépendance à l'égard d'un modèle de critique.
    PPO a besoin d'un modèle de critique distinct, doubler efficacement la mémoire et calculer.
    La formation du critique peut être complexe pour les tâches nuancées ou subjectives.
  2. Coût de calcul élevé car les pipelines RL exigent des ressources substantielles pour évaluer et optimiser les réponses.
  3. Évaluations de récompense absolue
    Lorsque vous comptez sur une récompense absolue - ce qui signifie qu'il existe une seule norme ou une mesure pour juger si une réponse est «bonne» ou «mauvaise» - il peut être difficile de capturer les nuances de tâches ouvertes et diverses dans différents domaines de raisonnement.

Comment GRPO a relevé ces défis:

GRPO élimine le modèle de critique en utilisant Évaluation relative - Les réponses sont comparées au sein d'un groupe plutôt que jugé selon une norme fixe.

Imaginez que les étudiants résolvent un problème. Au lieu qu'un enseignant les classe individuellement, ils comparent les réponses, apprenant les uns des autres. Au fil du temps, les performances convergent vers une meilleure qualité.

Comment GRPO s'intègre-t-il dans l'ensemble du processus de formation?

GRPO modifie la façon dont la perte est calculée tout en gardant les autres étapes de formation inchangées:

  1. Recueillir des données (réponses de requêtes)
    - Pour les LLM, les requêtes sont comme des questions
    - L'ancienne politique (ancien instantané du modèle) génère plusieurs réponses candidates pour chaque requête
  2. Attribuer des récompenses - Chaque réponse du groupe est notée (la «récompense»).
  3. Calculez la perte grpo
    traditionnellement, vous calculerez une perte - qui montre l'écart entre la prédiction du modèle et la véritable étiquette.
    dans le Grpo, cependant, vous mesurez:
    a) La probabilité que la nouvelle politique soit mieux pour produire des réponses passées? Pire?
    c) Appliquer une coupure pour éviter les mises à jour extrêmes.
    Cela donne une perte scalaire.
  4. Document de propagation du gradient de descente
    - La propagation du dos calcule comment chaque paramètre a contribué à la perte
    - La descente de gradient met à jour ces paramètres pour réduire les réponses de la perte
    >
  5. Mettez à jour l'ancienne stratégie à l'occasion pour correspondre à la nouvelle politique
  6. . Cela rafraîchit la ligne de base pour la prochaine série de comparaisons.
  7. 2. Chaîne de pensée (COT)

La formation LLM traditionnelle suit la pré-formation → SFT → RL. Cependant, Deepseek-R1-Zero

a sauté SFT

, permettant au modèle d'explorer directement le raisonnement du COT.

Comme les humains pensant à travers une question difficile, le COT permet aux modèles de diviser les problèmes en étapes intermédiaires, augmentant les capacités de raisonnement complexes. Le modèle O1 d'OpenAI exploite également cela, comme indiqué dans son rapport de septembre 2024: Les performances de l'O1 s'améliorent avec plus de RL (calcul du train) et plus de temps de raisonnement (calcul du temps de test).

Deepseek-R1-Zero a montré des tendances réfléchissantes, affinant de manière autonome son raisonnement.

Un graphique clé (ci-dessous) dans l'article a montré une réflexion accrue pendant la formation, conduisant à des réponses plus longues (plus de jetons), plus détaillées et meilleures.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Sans programmation explicite, il a commencé à revoir les étapes du raisonnement passé, améliorant la précision. Cela met en évidence le raisonnement de la chaîne de réflexion comme une propriété émergente de la formation RL.

Le modèle a également eu un «moment aha» (ci-dessous) - un exemple fascinant de la façon dont RL peut conduire à des résultats inattendus et sophistiqués.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Remarque: Contrairement à Deepseek-R1, OpenAI ne montre pas de réflexion de réflexion complète en O1 car il est préoccupé par un risque de distillation - où quelqu'un entre et essaie d'imiter ces traces de raisonnement et de récupérer une grande partie des performances de raisonnement en imitant simplement. Au lieu de cela, O1 résume juste de ces chaînes de pensées.

Apprentissage du renforcement avec rétroaction humaine (RLHF)

Pour les tâches avec des sorties vérifiables (par exemple, les problèmes mathématiques, les questions et réponses factuelles), les réponses d'IA peuvent être facilement évaluées. Mais qu'en est-il des domaines comme la résumé ou l'écriture créative, où il n'y a pas de réponse «correcte»?

C'est là que la rétroaction humaine entre en jeu - mais les approches RL naïves sont maltraiables.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Regardons l'approche naïve avec quelques nombres arbitraires.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

C'est un milliard d'évaluations humaines nécessaires! C'est trop coûteux, lent et sans écheclable. Par conséquent, une solution plus intelligente consiste à former un «modèle de récompense» de l'IA pour apprendre les préférences humaines, réduisant considérablement l'effort humain.

Les réponses de classement sont également plus faciles et plus intuitives que la notation absolue.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Réflexions de rlhf

  • peut être appliqué à n'importe quel domaine, y compris l'écriture créative, la poésie, la résumé et d'autres tâches ouvertes.
  • Les sorties de classement sont beaucoup plus faciles pour les laboratoires humains que de générer eux-mêmes des sorties créatives.

inconvénients de rlhf

  • Le modèle de récompense est une approximation - elle peut ne pas parfaitement refléter les préférences humaines.
  • RL est bon pour jouer le modèle de récompense - s'il est exécuté trop longtemps, le modèle pourrait exploiter les lacunes, générant des sorties absurdes qui obtiennent toujours des scores élevés.

Notez que RLHF n'est pas le même que Rl traditionnel

Pour les domaines empiriques et vérifiables (par exemple les mathématiques, le codage), RL peut fonctionner indéfiniment et découvrir de nouvelles stratégies. RLHF, en revanche, ressemble plus à une étape de réglage fin pour aligner les modèles avec les préférences humaines.

Conclusion

Et c'est un enveloppe! J'espère que vous avez apprécié la partie 2? Si vous n'avez pas déjà lu la partie 1 - vérifiez-le ici.

Vous avez des questions ou des idées pour ce que je devrais couvrir ensuite? Déposez-les dans les commentaires - j'aimerais entendre vos pensées. Rendez-vous dans le prochain article!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn