Maison >Périphériques technologiques >IA >Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago
Bienvenue dans la partie 2 de ma plongée profonde LLM. Si vous n'avez pas lu la partie 1, je vous encourage fortement à le vérifier en premier.
Auparavant, nous avons couvert les deux premières étapes majeures de la formation d'un LLM:
Maintenant, nous plongeons dans la prochaine étape principale: Apprentissage par renforcement (RL) . Alors que la pré-formation et la SFT sont bien établies, RL évolue toujours mais est devenu un élément essentiel du pipeline d'entraînement.
J'ai pris référence sur YouTube de 3,5 heures largement populaire d'Andrej Karpathy. Andrej est un membre fondateur d'Openai, ses idées sont l'or - vous avez l'idée.
allons-y?
Les humains et les LLMs traitent les informations différemment. Ce qui est intuitif pour nous - comme l'arithmétique de base - peut ne pas être pour un LLM, qui ne considère que le texte comme des séquences de jetons. Inversement, un LLM peut générer des réponses au niveau des experts sur des sujets complexes simplement parce qu'il a vu suffisamment d'exemples pendant la formation.
Cette différence de cognition rend difficile pour les annotateurs humains de fournir l'ensemble «parfait» d'étiquettes qui guident systématiquement un LLM vers la bonne réponse.
RL comble cette lacune en permettant au modèle de apprendre de sa propre expérience .
Au lieu de compter uniquement sur des étiquettes explicites, le modèle explore différentes séquences de jetons et reçoit des commentaires - des signaux de récompense - sur les sorties les plus utiles. Au fil du temps, il apprend à mieux s'aligner sur l'intention humaine.
sont stochastiques - ce qui signifie que leurs réponses ne sont pas fixées. Même avec la même invite, la sortie varie car elle est échantillonnée à partir d'une distribution de probabilité.
Nous pouvons exploiter ce hasard en générant des milliers ou même des millions de réponses possibles en parallèle . Considérez-le comme le modèle explorant différents chemins - certains bons, certains mauvais. Notre objectif est de l'encourager à prendre les meilleurs chemins plus souvent.
Pour ce faire, nous formons le modèle sur les séquences de jetons qui conduisent à de meilleurs résultats. Contrairement à un réglage fin supervisé, où les experts humains fournissent des données étiquetées, l'apprentissage du renforcement permet au modèle de apprendre de lui-même.
Le modèle découvre les réponses qui fonctionnent le mieux, et après chaque étape de formation, nous mettons à jour ses paramètres. Au fil du temps, cela rend le modèle plus susceptible de produire des réponses de haute qualité lorsqu'elles ont donné des invites similaires à l'avenir.
Mais comment déterminons-nous quelles réponses sont les meilleures? Et combien RL devrions-nous faire? Les détails sont difficiles, et les faire correctement n'est pas trivial.
Un excellent exemple de la puissance de RL est l'alphago de Deepmind, la première IA à vaincre un joueur de GO professionnel et à dépasser plus tard le jeu de niveau humain.
Dans l'article de la nature 2016 (graphique ci-dessous), lorsqu'un modèle a été formé uniquement par SFT (donnant au modèle des tonnes de bons exemples à imiter), le modèle a pu atteindre les performances au niveau humain, mais ne le dépasse jamais .
La ligne pointillée représente les performances de Lee Sedol - le meilleur joueur Go au monde.
C'est parce que SFT concerne la réplication, pas l'innovation - elle ne permet pas au modèle de découvrir de nouvelles stratégies au-delà de la connaissance humaine.
Cependant, RL a permis à Alphago de jouer contre lui-même, d'affiner ses stratégies et, finalement, dépasser l'expertise humaine (ligne bleue).
RL représente une frontière passionnante dans l'IA - où les modèles peuvent explorer des stratégies au-delà de l'imagination humaine lorsque nous la formons sur un bassin divers et difficile de problèmes pour affiner ses stratégies de réflexion.
Recaptons rapidement les composants clés d'une configuration RL typique:
À chaque horodatage, l'agent effectue une Action dans l'environnement qui changera l'état de l'environnement en un nouveau. L'agent recevra également des commentaires indiquant à quel point l'action était bonne ou mauvaise.
Cette rétroaction est appelée A Récompense , et est représentée sous une forme numérique. Une récompense positive encourage ce comportement et une récompense négative le décourage.
En utilisant les commentaires de différents états et actions, l'agent apprend progressivement la stratégie optimale pour maximiser la récompense totale au fil du temps.
La politique est la stratégie de l'agent. Si l'agent suit une bonne politique, il prendra systématiquement de bonnes décisions, conduisant à des récompenses plus élevées sur de nombreuses étapes.
En termes mathématiques, c'est une fonction qui détermine la probabilité de différentes sorties pour un état donné - (πθ (a | s)) .
Une estimation de la qualité de celle-ci d'être dans un certain état, compte tenu de la récompense attendue à long terme. Pour un LLM, la récompense peut provenir d'une rétroaction humaine ou d'un modèle de récompense.
Il s'agit d'une configuration RL populaire qui combine deux composants:
comment cela fonctionne:
L'état peut être le texte actuel (invite ou conversation), et l'action peut être le prochain jeton à générer. Un modèle de récompense (par exemple, la rétroaction humaine), indique au modèle à quel point il est bon ou mauvais.
La politique est la stratégie du modèle pour choisir le token suivant, tandis que la fonction de valeur estime à quel point le contexte de texte actuel est bénéfique, en termes de réception éventuellement de réponses de haute qualité.Deepseek-R1 (publié le 22 janvier 2025)
Deepseek-R1-Zero et Deepseek-R1.
1. RL Algo: Optimisation de la politique relative du groupe (GRPO)
Pourquoi grpo sur PPO?
PPO se débat avec des tâches de raisonnement en raison de:Comment GRPO a relevé ces défis:
GRPO élimine le modèle de critique en utilisant Évaluation relative - Les réponses sont comparées au sein d'un groupe plutôt que jugé selon une norme fixe.
Imaginez que les étudiants résolvent un problème. Au lieu qu'un enseignant les classe individuellement, ils comparent les réponses, apprenant les uns des autres. Au fil du temps, les performances convergent vers une meilleure qualité.
GRPO modifie la façon dont la perte est calculée tout en gardant les autres étapes de formation inchangées:
, permettant au modèle d'explorer directement le raisonnement du COT. Comme les humains pensant à travers une question difficile, le COT permet aux modèles de diviser les problèmes en étapes intermédiaires, augmentant les capacités de raisonnement complexes. Le modèle O1 d'OpenAI exploite également cela, comme indiqué dans son rapport de septembre 2024: Les performances de l'O1 s'améliorent avec plus de RL (calcul du train) et plus de temps de raisonnement (calcul du temps de test). Deepseek-R1-Zero a montré des tendances réfléchissantes, affinant de manière autonome son raisonnement. Un graphique clé (ci-dessous) dans l'article a montré une réflexion accrue pendant la formation, conduisant à des réponses plus longues (plus de jetons), plus détaillées et meilleures. Sans programmation explicite, il a commencé à revoir les étapes du raisonnement passé, améliorant la précision. Cela met en évidence le raisonnement de la chaîne de réflexion comme une propriété émergente de la formation RL. Le modèle a également eu un «moment aha» (ci-dessous) - un exemple fascinant de la façon dont RL peut conduire à des résultats inattendus et sophistiqués. Remarque: Contrairement à Deepseek-R1, OpenAI ne montre pas de réflexion de réflexion complète en O1 car il est préoccupé par un risque de distillation - où quelqu'un entre et essaie d'imiter ces traces de raisonnement et de récupérer une grande partie des performances de raisonnement en imitant simplement. Au lieu de cela, O1 résume juste de ces chaînes de pensées. Pour les tâches avec des sorties vérifiables (par exemple, les problèmes mathématiques, les questions et réponses factuelles), les réponses d'IA peuvent être facilement évaluées. Mais qu'en est-il des domaines comme la résumé ou l'écriture créative, où il n'y a pas de réponse «correcte»? C'est là que la rétroaction humaine entre en jeu - mais les approches RL naïves sont maltraiables. Regardons l'approche naïve avec quelques nombres arbitraires. C'est un milliard d'évaluations humaines nécessaires! C'est trop coûteux, lent et sans écheclable. Par conséquent, une solution plus intelligente consiste à former un «modèle de récompense» de l'IA pour apprendre les préférences humaines, réduisant considérablement l'effort humain. Les réponses de classement sont également plus faciles et plus intuitives que la notation absolue. Notez que RLHF n'est pas le même que Rl traditionnel Pour les domaines empiriques et vérifiables (par exemple les mathématiques, le codage), RL peut fonctionner indéfiniment et découvrir de nouvelles stratégies. RLHF, en revanche, ressemble plus à une étape de réglage fin pour aligner les modèles avec les préférences humaines. Et c'est un enveloppe! J'espère que vous avez apprécié la partie 2? Si vous n'avez pas déjà lu la partie 1 - vérifiez-le ici. Vous avez des questions ou des idées pour ce que je devrais couvrir ensuite? Déposez-les dans les commentaires - j'aimerais entendre vos pensées. Rendez-vous dans le prochain article!
Apprentissage du renforcement avec rétroaction humaine (RLHF)
Réflexions de rlhf
inconvénients de rlhf
Conclusion
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!