recherche
MaisonPériphériques technologiquesIAComment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Bienvenue dans la partie 2 de ma plongée profonde LLM. Si vous n'avez pas lu la partie 1, je vous encourage fortement à le vérifier en premier.

Auparavant, nous avons couvert les deux premières étapes majeures de la formation d'un LLM:

  1. Pré-formation - Apprendre des ensembles de données massifs pour former un modèle de base.
  2. Affinement fin supervisé (SFT) - affiner le modèle avec des exemples organisés pour le rendre utile.

Maintenant, nous plongeons dans la prochaine étape principale: Apprentissage par renforcement (RL) . Alors que la pré-formation et la SFT sont bien établies, RL évolue toujours mais est devenu un élément essentiel du pipeline d'entraînement.

J'ai pris référence sur YouTube de 3,5 heures largement populaire d'Andrej Karpathy. Andrej est un membre fondateur d'Openai, ses idées sont l'or - vous avez l'idée.

allons-y?

Quel est le but de l'apprentissage du renforcement (RL)?

Les humains et les LLMs traitent les informations différemment. Ce qui est intuitif pour nous - comme l'arithmétique de base - peut ne pas être pour un LLM, qui ne considère que le texte comme des séquences de jetons. Inversement, un LLM peut générer des réponses au niveau des experts sur des sujets complexes simplement parce qu'il a vu suffisamment d'exemples pendant la formation.

Cette différence de cognition rend difficile pour les annotateurs humains de fournir l'ensemble «parfait» d'étiquettes qui guident systématiquement un LLM vers la bonne réponse.

RL comble cette lacune en permettant au modèle de apprendre de sa propre expérience .

Au lieu de compter uniquement sur des étiquettes explicites, le modèle explore différentes séquences de jetons et reçoit des commentaires - des signaux de récompense - sur les sorties les plus utiles. Au fil du temps, il apprend à mieux s'aligner sur l'intention humaine.

intuition derrière Rl

Les LLM

sont stochastiques - ce qui signifie que leurs réponses ne sont pas fixées. Même avec la même invite, la sortie varie car elle est échantillonnée à partir d'une distribution de probabilité.

Nous pouvons exploiter ce hasard en générant des milliers ou même des millions de réponses possibles en parallèle . Considérez-le comme le modèle explorant différents chemins - certains bons, certains mauvais. Notre objectif est de l'encourager à prendre les meilleurs chemins plus souvent.

Pour ce faire, nous formons le modèle sur les séquences de jetons qui conduisent à de meilleurs résultats. Contrairement à un réglage fin supervisé, où les experts humains fournissent des données étiquetées, l'apprentissage du renforcement permet au modèle de apprendre de lui-même.

Le modèle découvre les réponses qui fonctionnent le mieux, et après chaque étape de formation, nous mettons à jour ses paramètres. Au fil du temps, cela rend le modèle plus susceptible de produire des réponses de haute qualité lorsqu'elles ont donné des invites similaires à l'avenir.

Mais comment déterminons-nous quelles réponses sont les meilleures? Et combien RL devrions-nous faire? Les détails sont difficiles, et les faire correctement n'est pas trivial.

RL n'est pas «nouveau» - il peut dépasser l'expertise humaine (Alphago, 2016)

Un excellent exemple de la puissance de RL est l'alphago de Deepmind, la première IA à vaincre un joueur de GO professionnel et à dépasser plus tard le jeu de niveau humain.

Dans l'article de la nature 2016 (graphique ci-dessous), lorsqu'un modèle a été formé uniquement par SFT (donnant au modèle des tonnes de bons exemples à imiter), le modèle a pu atteindre les performances au niveau humain, mais ne le dépasse jamais .

La ligne pointillée représente les performances de Lee Sedol - le meilleur joueur Go au monde.

C'est parce que SFT concerne la réplication, pas l'innovation - elle ne permet pas au modèle de découvrir de nouvelles stratégies au-delà de la connaissance humaine.

Cependant, RL a permis à Alphago de jouer contre lui-même, d'affiner ses stratégies et, finalement, dépasser l'expertise humaine (ligne bleue).

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

RL représente une frontière passionnante dans l'IA - où les modèles peuvent explorer des stratégies au-delà de l'imagination humaine lorsque nous la formons sur un bassin divers et difficile de problèmes pour affiner ses stratégies de réflexion.

RL Recaps Foundations

Recaptons rapidement les composants clés d'une configuration RL typique:

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago
  • agent - l'apprenant ou le décideur. Il observe la situation actuelle ( état ), choisit une action, puis met à jour son comportement en fonction du résultat ( récompense ).
  • Environnement - Le système externe dans lequel l'agent fonctionne.
  • État - Un instantané de l'environnement à une étape donnée t .

À chaque horodatage, l'agent effectue une Action dans l'environnement qui changera l'état de l'environnement en un nouveau. L'agent recevra également des commentaires indiquant à quel point l'action était bonne ou mauvaise.

Cette rétroaction est appelée A Récompense , et est représentée sous une forme numérique. Une récompense positive encourage ce comportement et une récompense négative le décourage.

En utilisant les commentaires de différents états et actions, l'agent apprend progressivement la stratégie optimale pour maximiser la récompense totale au fil du temps.

Politique

La politique est la stratégie de l'agent. Si l'agent suit une bonne politique, il prendra systématiquement de bonnes décisions, conduisant à des récompenses plus élevées sur de nombreuses étapes.

En termes mathématiques, c'est une fonction qui détermine la probabilité de différentes sorties pour un état donné - (πθ (a | s)) .

Fonction de valeur

Une estimation de la qualité de celle-ci d'être dans un certain état, compte tenu de la récompense attendue à long terme. Pour un LLM, la récompense peut provenir d'une rétroaction humaine ou d'un modèle de récompense.

Architecture acteur-critique

Il s'agit d'une configuration RL populaire qui combine deux composants:

  1. acteur - apprend et met à jour la stratégie (πθ), décidant de quelle action prendre dans chaque état.
  2. critique - évalue la fonction de valeur (v (s)) pour donner des commentaires à l'acteur sur la question de savoir si ses actions choisies conduisent à de bons résultats.

comment cela fonctionne:

  • L'acteur choisit une action basée sur sa politique actuelle.
  • le critique évalue le résultat (récompense à l'état suivant) et met à jour son estimation de valeur.
  • Les commentaires du critique aident l'acteur à affiner sa politique afin que les actions futures conduisent à des récompenses plus élevées.

Mettez le tout pour LLMS

L'état peut être le texte actuel (invite ou conversation), et l'action peut être le prochain jeton à générer. Un modèle de récompense (par exemple, la rétroaction humaine), indique au modèle à quel point il est bon ou mauvais.

La politique est la stratégie du modèle pour choisir le token suivant, tandis que la fonction de valeur estime à quel point le contexte de texte actuel est bénéfique, en termes de réception éventuellement de réponses de haute qualité.

Deepseek-R1 (publié le 22 janvier 2025)

Pour mettre en évidence l’importance de RL, explorons Deepseek-R1, un modèle de raisonnement atteignant des performances de haut niveau tout en restant open-source. Le document a introduit deux modèles:

Deepseek-R1-Zero et Deepseek-R1.

    Deepseek-R1-Zero a été formé uniquement via une RL à grande échelle, sautant un réglage fin supervisé (SFT).
  • Deepseek-R1 s'appuie sur elle, relevant des défis rencontrés.
Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago Plongeons dans certains de ces points clés.

1. RL Algo: Optimisation de la politique relative du groupe (GRPO)

Un algorithme RL modifiant le jeu clé est l'optimisation relative de stratégie de groupe (GRPO), une variante de l'optimisation de politique proximale (PPO) largement populaire. GRPO a été introduit dans le papier Deepseekmath en février 2024.

Pourquoi grpo sur PPO?

PPO se débat avec des tâches de raisonnement en raison de:

  1. dépendance à l'égard d'un modèle de critique.
    PPO a besoin d'un modèle de critique distinct, doubler efficacement la mémoire et calculer.
    La formation du critique peut être complexe pour les tâches nuancées ou subjectives.
  2. Coût de calcul élevé car les pipelines RL exigent des ressources substantielles pour évaluer et optimiser les réponses.
  3. Évaluations de récompense absolue
    Lorsque vous comptez sur une récompense absolue - ce qui signifie qu'il existe une seule norme ou une mesure pour juger si une réponse est «bonne» ou «mauvaise» - il peut être difficile de capturer les nuances de tâches ouvertes et diverses dans différents domaines de raisonnement.

Comment GRPO a relevé ces défis:

GRPO élimine le modèle de critique en utilisant Évaluation relative - Les réponses sont comparées au sein d'un groupe plutôt que jugé selon une norme fixe.

Imaginez que les étudiants résolvent un problème. Au lieu qu'un enseignant les classe individuellement, ils comparent les réponses, apprenant les uns des autres. Au fil du temps, les performances convergent vers une meilleure qualité.

Comment GRPO s'intègre-t-il dans l'ensemble du processus de formation?

GRPO modifie la façon dont la perte est calculée tout en gardant les autres étapes de formation inchangées:

  1. Recueillir des données (réponses de requêtes)
    - Pour les LLM, les requêtes sont comme des questions
    - L'ancienne politique (ancien instantané du modèle) génère plusieurs réponses candidates pour chaque requête
  2. Attribuer des récompenses - Chaque réponse du groupe est notée (la «récompense»).
  3. Calculez la perte grpo
    traditionnellement, vous calculerez une perte - qui montre l'écart entre la prédiction du modèle et la véritable étiquette.
    dans le Grpo, cependant, vous mesurez:
    a) La probabilité que la nouvelle politique soit mieux pour produire des réponses passées? Pire?
    c) Appliquer une coupure pour éviter les mises à jour extrêmes.
    Cela donne une perte scalaire.
  4. Document de propagation du gradient de descente
    - La propagation du dos calcule comment chaque paramètre a contribué à la perte
    - La descente de gradient met à jour ces paramètres pour réduire les réponses de la perte
    >
  5. Mettez à jour l'ancienne stratégie à l'occasion pour correspondre à la nouvelle politique
  6. . Cela rafraîchit la ligne de base pour la prochaine série de comparaisons.
  7. 2. Chaîne de pensée (COT)

La formation LLM traditionnelle suit la pré-formation → SFT → RL. Cependant, Deepseek-R1-Zero

a sauté SFT

, permettant au modèle d'explorer directement le raisonnement du COT.

Comme les humains pensant à travers une question difficile, le COT permet aux modèles de diviser les problèmes en étapes intermédiaires, augmentant les capacités de raisonnement complexes. Le modèle O1 d'OpenAI exploite également cela, comme indiqué dans son rapport de septembre 2024: Les performances de l'O1 s'améliorent avec plus de RL (calcul du train) et plus de temps de raisonnement (calcul du temps de test).

Deepseek-R1-Zero a montré des tendances réfléchissantes, affinant de manière autonome son raisonnement.

Un graphique clé (ci-dessous) dans l'article a montré une réflexion accrue pendant la formation, conduisant à des réponses plus longues (plus de jetons), plus détaillées et meilleures.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Sans programmation explicite, il a commencé à revoir les étapes du raisonnement passé, améliorant la précision. Cela met en évidence le raisonnement de la chaîne de réflexion comme une propriété émergente de la formation RL.

Le modèle a également eu un «moment aha» (ci-dessous) - un exemple fascinant de la façon dont RL peut conduire à des résultats inattendus et sophistiqués.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Remarque: Contrairement à Deepseek-R1, OpenAI ne montre pas de réflexion de réflexion complète en O1 car il est préoccupé par un risque de distillation - où quelqu'un entre et essaie d'imiter ces traces de raisonnement et de récupérer une grande partie des performances de raisonnement en imitant simplement. Au lieu de cela, O1 résume juste de ces chaînes de pensées.

Apprentissage du renforcement avec rétroaction humaine (RLHF)

Pour les tâches avec des sorties vérifiables (par exemple, les problèmes mathématiques, les questions et réponses factuelles), les réponses d'IA peuvent être facilement évaluées. Mais qu'en est-il des domaines comme la résumé ou l'écriture créative, où il n'y a pas de réponse «correcte»?

C'est là que la rétroaction humaine entre en jeu - mais les approches RL naïves sont maltraiables.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Regardons l'approche naïve avec quelques nombres arbitraires.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

C'est un milliard d'évaluations humaines nécessaires! C'est trop coûteux, lent et sans écheclable. Par conséquent, une solution plus intelligente consiste à former un «modèle de récompense» de l'IA pour apprendre les préférences humaines, réduisant considérablement l'effort humain.

Les réponses de classement sont également plus faciles et plus intuitives que la notation absolue.

Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago

Réflexions de rlhf

  • peut être appliqué à n'importe quel domaine, y compris l'écriture créative, la poésie, la résumé et d'autres tâches ouvertes.
  • Les sorties de classement sont beaucoup plus faciles pour les laboratoires humains que de générer eux-mêmes des sorties créatives.

inconvénients de rlhf

  • Le modèle de récompense est une approximation - elle peut ne pas parfaitement refléter les préférences humaines.
  • RL est bon pour jouer le modèle de récompense - s'il est exécuté trop longtemps, le modèle pourrait exploiter les lacunes, générant des sorties absurdes qui obtiennent toujours des scores élevés.

Notez que RLHF n'est pas le même que Rl traditionnel

Pour les domaines empiriques et vérifiables (par exemple les mathématiques, le codage), RL peut fonctionner indéfiniment et découvrir de nouvelles stratégies. RLHF, en revanche, ressemble plus à une étape de réglage fin pour aligner les modèles avec les préférences humaines.

Conclusion

Et c'est un enveloppe! J'espère que vous avez apprécié la partie 2? Si vous n'avez pas déjà lu la partie 1 - vérifiez-le ici.

Vous avez des questions ou des idées pour ce que je devrais couvrir ensuite? Déposez-les dans les commentaires - j'aimerais entendre vos pensées. Rendez-vous dans le prochain article!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable!J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable!Mar 20, 2025 pm 03:34 PM

Le codage des ambiances est de remodeler le monde du développement de logiciels en nous permettant de créer des applications en utilisant le langage naturel au lieu de lignes de code sans fin. Inspirée par des visionnaires comme Andrej Karpathy, cette approche innovante permet de dev

Comment utiliser Dall-E 3: Conseils, exemples et fonctionnalitésComment utiliser Dall-E 3: Conseils, exemples et fonctionnalitésMar 09, 2025 pm 01:00 PM

Dall-E 3: Un outil de création d'images génératifs AI L'IA générative révolutionne la création de contenu, et Dall-E 3, le dernier modèle de génération d'images d'Openai, est à l'avant. Sorti en octobre 2023, il s'appuie sur ses prédécesseurs, Dall-E et Dall-E 2

Top 5 Genai Lunets de février 2025: GPT-4.5, Grok-3 et plus!Top 5 Genai Lunets de février 2025: GPT-4.5, Grok-3 et plus!Mar 22, 2025 am 10:58 AM

Février 2025 a été un autre mois qui change la donne pour une IA générative, nous apportant certaines des mises à niveau des modèles les plus attendues et de nouvelles fonctionnalités révolutionnaires. De Xai's Grok 3 et Anthropic's Claude 3.7 Sonnet, à Openai's G

Comment utiliser YOLO V12 pour la détection d'objets?Comment utiliser YOLO V12 pour la détection d'objets?Mar 22, 2025 am 11:07 AM

Yolo (vous ne regardez qu'une seule fois) a été un cadre de détection d'objets en temps réel de premier plan, chaque itération améliorant les versions précédentes. La dernière version Yolo V12 introduit des progrès qui améliorent considérablement la précision

Sora vs Veo 2: Laquelle crée des vidéos plus réalistes?Sora vs Veo 2: Laquelle crée des vidéos plus réalistes?Mar 10, 2025 pm 12:22 PM

Veo 2 de Google et Sora d'Openai: Quel générateur de vidéos AI règne en suprême? Les deux plates-formes génèrent des vidéos d'IA impressionnantes, mais leurs forces se trouvent dans différents domaines. Cette comparaison, en utilisant diverses invites, révèle quel outil répond le mieux à vos besoins. T

Google & # 039; s Gencast: Prévision météorologique avec Mini démo GencastGoogle & # 039; s Gencast: Prévision météorologique avec Mini démo GencastMar 16, 2025 pm 01:46 PM

Gencast de Google Deepmind: une IA révolutionnaire pour les prévisions météorologiques Les prévisions météorologiques ont subi une transformation spectaculaire, passant des observations rudimentaires aux prédictions sophistiquées alimentées par l'IA. Gencast de Google Deepmind, un terreau

Chatgpt 4 o est-il disponible?Chatgpt 4 o est-il disponible?Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Quelle IA est la meilleure que Chatgpt?Quelle IA est la meilleure que Chatgpt?Mar 18, 2025 pm 06:05 PM

L'article traite des modèles d'IA dépassant Chatgpt, comme Lamda, Llama et Grok, mettant en évidence leurs avantages en matière de précision, de compréhension et d'impact de l'industrie. (159 caractères)

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code