


Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago
Bienvenue dans la partie 2 de ma plongée profonde LLM. Si vous n'avez pas lu la partie 1, je vous encourage fortement à le vérifier en premier.
Auparavant, nous avons couvert les deux premières étapes majeures de la formation d'un LLM:
- Pré-formation - Apprendre des ensembles de données massifs pour former un modèle de base.
- Affinement fin supervisé (SFT) - affiner le modèle avec des exemples organisés pour le rendre utile.
Maintenant, nous plongeons dans la prochaine étape principale: Apprentissage par renforcement (RL) . Alors que la pré-formation et la SFT sont bien établies, RL évolue toujours mais est devenu un élément essentiel du pipeline d'entraînement.
J'ai pris référence sur YouTube de 3,5 heures largement populaire d'Andrej Karpathy. Andrej est un membre fondateur d'Openai, ses idées sont l'or - vous avez l'idée.
allons-y?
Quel est le but de l'apprentissage du renforcement (RL)?
Les humains et les LLMs traitent les informations différemment. Ce qui est intuitif pour nous - comme l'arithmétique de base - peut ne pas être pour un LLM, qui ne considère que le texte comme des séquences de jetons. Inversement, un LLM peut générer des réponses au niveau des experts sur des sujets complexes simplement parce qu'il a vu suffisamment d'exemples pendant la formation.
Cette différence de cognition rend difficile pour les annotateurs humains de fournir l'ensemble «parfait» d'étiquettes qui guident systématiquement un LLM vers la bonne réponse.
RL comble cette lacune en permettant au modèle de apprendre de sa propre expérience .
Au lieu de compter uniquement sur des étiquettes explicites, le modèle explore différentes séquences de jetons et reçoit des commentaires - des signaux de récompense - sur les sorties les plus utiles. Au fil du temps, il apprend à mieux s'aligner sur l'intention humaine.
intuition derrière Rl
Les LLMsont stochastiques - ce qui signifie que leurs réponses ne sont pas fixées. Même avec la même invite, la sortie varie car elle est échantillonnée à partir d'une distribution de probabilité.
Nous pouvons exploiter ce hasard en générant des milliers ou même des millions de réponses possibles en parallèle . Considérez-le comme le modèle explorant différents chemins - certains bons, certains mauvais. Notre objectif est de l'encourager à prendre les meilleurs chemins plus souvent.
Pour ce faire, nous formons le modèle sur les séquences de jetons qui conduisent à de meilleurs résultats. Contrairement à un réglage fin supervisé, où les experts humains fournissent des données étiquetées, l'apprentissage du renforcement permet au modèle de apprendre de lui-même.
Le modèle découvre les réponses qui fonctionnent le mieux, et après chaque étape de formation, nous mettons à jour ses paramètres. Au fil du temps, cela rend le modèle plus susceptible de produire des réponses de haute qualité lorsqu'elles ont donné des invites similaires à l'avenir.
Mais comment déterminons-nous quelles réponses sont les meilleures? Et combien RL devrions-nous faire? Les détails sont difficiles, et les faire correctement n'est pas trivial.
RL n'est pas «nouveau» - il peut dépasser l'expertise humaine (Alphago, 2016)
Un excellent exemple de la puissance de RL est l'alphago de Deepmind, la première IA à vaincre un joueur de GO professionnel et à dépasser plus tard le jeu de niveau humain.
Dans l'article de la nature 2016 (graphique ci-dessous), lorsqu'un modèle a été formé uniquement par SFT (donnant au modèle des tonnes de bons exemples à imiter), le modèle a pu atteindre les performances au niveau humain, mais ne le dépasse jamais .
La ligne pointillée représente les performances de Lee Sedol - le meilleur joueur Go au monde.
C'est parce que SFT concerne la réplication, pas l'innovation - elle ne permet pas au modèle de découvrir de nouvelles stratégies au-delà de la connaissance humaine.
Cependant, RL a permis à Alphago de jouer contre lui-même, d'affiner ses stratégies et, finalement, dépasser l'expertise humaine (ligne bleue).

RL représente une frontière passionnante dans l'IA - où les modèles peuvent explorer des stratégies au-delà de l'imagination humaine lorsque nous la formons sur un bassin divers et difficile de problèmes pour affiner ses stratégies de réflexion.
RL Recaps Foundations
Recaptons rapidement les composants clés d'une configuration RL typique:

- agent - l'apprenant ou le décideur. Il observe la situation actuelle ( état ), choisit une action, puis met à jour son comportement en fonction du résultat ( récompense ).
- Environnement - Le système externe dans lequel l'agent fonctionne.
- État - Un instantané de l'environnement à une étape donnée t .
À chaque horodatage, l'agent effectue une Action dans l'environnement qui changera l'état de l'environnement en un nouveau. L'agent recevra également des commentaires indiquant à quel point l'action était bonne ou mauvaise.
Cette rétroaction est appelée A Récompense , et est représentée sous une forme numérique. Une récompense positive encourage ce comportement et une récompense négative le décourage.
En utilisant les commentaires de différents états et actions, l'agent apprend progressivement la stratégie optimale pour maximiser la récompense totale au fil du temps.
Politique
La politique est la stratégie de l'agent. Si l'agent suit une bonne politique, il prendra systématiquement de bonnes décisions, conduisant à des récompenses plus élevées sur de nombreuses étapes.
En termes mathématiques, c'est une fonction qui détermine la probabilité de différentes sorties pour un état donné - (πθ (a | s)) .
Fonction de valeur
Une estimation de la qualité de celle-ci d'être dans un certain état, compte tenu de la récompense attendue à long terme. Pour un LLM, la récompense peut provenir d'une rétroaction humaine ou d'un modèle de récompense.
Architecture acteur-critique
Il s'agit d'une configuration RL populaire qui combine deux composants:
- acteur - apprend et met à jour la stratégie (πθ), décidant de quelle action prendre dans chaque état.
- critique - évalue la fonction de valeur (v (s)) pour donner des commentaires à l'acteur sur la question de savoir si ses actions choisies conduisent à de bons résultats.
comment cela fonctionne:
- L'acteur choisit une action basée sur sa politique actuelle.
- le critique évalue le résultat (récompense à l'état suivant) et met à jour son estimation de valeur.
- Les commentaires du critique aident l'acteur à affiner sa politique afin que les actions futures conduisent à des récompenses plus élevées.
Mettez le tout pour LLMS
L'état peut être le texte actuel (invite ou conversation), et l'action peut être le prochain jeton à générer. Un modèle de récompense (par exemple, la rétroaction humaine), indique au modèle à quel point il est bon ou mauvais.
La politique est la stratégie du modèle pour choisir le token suivant, tandis que la fonction de valeur estime à quel point le contexte de texte actuel est bénéfique, en termes de réception éventuellement de réponses de haute qualité.Deepseek-R1 (publié le 22 janvier 2025)
Pour mettre en évidence l’importance de RL, explorons Deepseek-R1, un modèle de raisonnement atteignant des performances de haut niveau tout en restant open-source. Le document a introduit deux modèles:
Deepseek-R1-Zero et Deepseek-R1.
- Deepseek-R1-Zero a été formé uniquement via une RL à grande échelle, sautant un réglage fin supervisé (SFT).
- Deepseek-R1 s'appuie sur elle, relevant des défis rencontrés.

1. RL Algo: Optimisation de la politique relative du groupe (GRPO)
Un algorithme RL modifiant le jeu clé est l'optimisation relative de stratégie de groupe (GRPO), une variante de l'optimisation de politique proximale (PPO) largement populaire. GRPO a été introduit dans le papier Deepseekmath en février 2024.
Pourquoi grpo sur PPO?
PPO se débat avec des tâches de raisonnement en raison de:- dépendance à l'égard d'un modèle de critique.
PPO a besoin d'un modèle de critique distinct, doubler efficacement la mémoire et calculer.
La formation du critique peut être complexe pour les tâches nuancées ou subjectives. - Coût de calcul élevé car les pipelines RL exigent des ressources substantielles pour évaluer et optimiser les réponses.
- Évaluations de récompense absolue
Lorsque vous comptez sur une récompense absolue - ce qui signifie qu'il existe une seule norme ou une mesure pour juger si une réponse est «bonne» ou «mauvaise» - il peut être difficile de capturer les nuances de tâches ouvertes et diverses dans différents domaines de raisonnement.
Comment GRPO a relevé ces défis:
GRPO élimine le modèle de critique en utilisant Évaluation relative - Les réponses sont comparées au sein d'un groupe plutôt que jugé selon une norme fixe.
Imaginez que les étudiants résolvent un problème. Au lieu qu'un enseignant les classe individuellement, ils comparent les réponses, apprenant les uns des autres. Au fil du temps, les performances convergent vers une meilleure qualité.
Comment GRPO s'intègre-t-il dans l'ensemble du processus de formation?
GRPO modifie la façon dont la perte est calculée tout en gardant les autres étapes de formation inchangées:
- Recueillir des données (réponses de requêtes)
- Pour les LLM, les requêtes sont comme des questions
- L'ancienne politique (ancien instantané du modèle) génère plusieurs réponses candidates pour chaque requête - Attribuer des récompenses - Chaque réponse du groupe est notée (la «récompense»).
- Calculez la perte grpo
traditionnellement, vous calculerez une perte - qui montre l'écart entre la prédiction du modèle et la véritable étiquette.
dans le Grpo, cependant, vous mesurez:
a) La probabilité que la nouvelle politique soit mieux pour produire des réponses passées? Pire?
c) Appliquer une coupure pour éviter les mises à jour extrêmes.
Cela donne une perte scalaire.
- Document de propagation du gradient de descente
- La propagation du dos calcule comment chaque paramètre a contribué à la perte - La descente de gradient met à jour ces paramètres pour réduire les réponses de la perte
>
Mettez à jour l'ancienne stratégie à l'occasion pour correspondre à la nouvelle politique - . Cela rafraîchit la ligne de base pour la prochaine série de comparaisons.
2. Chaîne de pensée (COT)
La formation LLM traditionnelle suit la pré-formation → SFT → RL. Cependant, Deepseek-R1-Zero
a sauté SFT, permettant au modèle d'explorer directement le raisonnement du COT. Comme les humains pensant à travers une question difficile, le COT permet aux modèles de diviser les problèmes en étapes intermédiaires, augmentant les capacités de raisonnement complexes. Le modèle O1 d'OpenAI exploite également cela, comme indiqué dans son rapport de septembre 2024: Les performances de l'O1 s'améliorent avec plus de RL (calcul du train) et plus de temps de raisonnement (calcul du temps de test). Deepseek-R1-Zero a montré des tendances réfléchissantes, affinant de manière autonome son raisonnement. Un graphique clé (ci-dessous) dans l'article a montré une réflexion accrue pendant la formation, conduisant à des réponses plus longues (plus de jetons), plus détaillées et meilleures. Sans programmation explicite, il a commencé à revoir les étapes du raisonnement passé, améliorant la précision. Cela met en évidence le raisonnement de la chaîne de réflexion comme une propriété émergente de la formation RL. Le modèle a également eu un «moment aha» (ci-dessous) - un exemple fascinant de la façon dont RL peut conduire à des résultats inattendus et sophistiqués. Remarque: Contrairement à Deepseek-R1, OpenAI ne montre pas de réflexion de réflexion complète en O1 car il est préoccupé par un risque de distillation - où quelqu'un entre et essaie d'imiter ces traces de raisonnement et de récupérer une grande partie des performances de raisonnement en imitant simplement. Au lieu de cela, O1 résume juste de ces chaînes de pensées. Pour les tâches avec des sorties vérifiables (par exemple, les problèmes mathématiques, les questions et réponses factuelles), les réponses d'IA peuvent être facilement évaluées. Mais qu'en est-il des domaines comme la résumé ou l'écriture créative, où il n'y a pas de réponse «correcte»? C'est là que la rétroaction humaine entre en jeu - mais les approches RL naïves sont maltraiables. Regardons l'approche naïve avec quelques nombres arbitraires. C'est un milliard d'évaluations humaines nécessaires! C'est trop coûteux, lent et sans écheclable. Par conséquent, une solution plus intelligente consiste à former un «modèle de récompense» de l'IA pour apprendre les préférences humaines, réduisant considérablement l'effort humain. Les réponses de classement sont également plus faciles et plus intuitives que la notation absolue. Notez que RLHF n'est pas le même que Rl traditionnel Pour les domaines empiriques et vérifiables (par exemple les mathématiques, le codage), RL peut fonctionner indéfiniment et découvrir de nouvelles stratégies. RLHF, en revanche, ressemble plus à une étape de réglage fin pour aligner les modèles avec les préférences humaines. Et c'est un enveloppe! J'espère que vous avez apprécié la partie 2? Si vous n'avez pas déjà lu la partie 1 - vérifiez-le ici. Vous avez des questions ou des idées pour ce que je devrais couvrir ensuite? Déposez-les dans les commentaires - j'aimerais entendre vos pensées. Rendez-vous dans le prochain article!
Apprentissage du renforcement avec rétroaction humaine (RLHF)
Réflexions de rlhf
inconvénients de rlhf
Conclusion
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!
![[Images de style Ghibli-avec AI] Introduisez comment créer des images gratuites avec Chatgpt et Copyright](https://img.php.cn/upload/article/001/242/473/174707263295098.jpg?x-oss-process=image/resize,p_40)
Le dernier modèle GPT-4O publié par OpenAI peut non seulement générer du texte, mais a également des fonctions de génération d'images, ce qui a attiré une attention généralisée. La caractéristique la plus accrocheuse est la génération d'illustrations de style ghibli-". Téléchargez simplement la photo sur Chatgpt et donnez des instructions simples pour générer une image de rêve comme une œuvre en studio Ghibli. Cet article expliquera en détail le processus de fonctionnement réel, l'expérience d'effet, ainsi que les erreurs et les problèmes de droit d'auteur qui doivent être prêts attention. Pour plus de détails sur le dernier modèle "O3" publié par Openai, veuillez cliquer ici⬇️ Explication détaillée de l'Openai O3 (Chatgpt O3): fonctionnalités, système de tarification et introduction O4-MinI Veuillez cliquer ici pour la version anglaise de l'article de style ghibli- Créer Ji avec Chatgpt

En tant que nouvelle méthode de communication, l'utilisation et l'introduction de Chatgpt dans les gouvernements locaux attirent l'attention. Alors que cette tendance progresse dans un large éventail de domaines, certains gouvernements locaux ont refusé d'utiliser Chatgpt. Dans cet article, nous présenterons des exemples de mise en œuvre de Chatgpt dans les gouvernements locaux. Nous explorerons comment nous réalisons des améliorations de la qualité et de l'efficacité dans les services gouvernementaux locaux grâce à une variété d'exemples de réforme, notamment en soutenant la création de documents et le dialogue avec les citoyens. Non seulement les représentants du gouvernement local qui visent à réduire la charge de travail du personnel et à améliorer la commodité des citoyens, mais aussi tous les cas d'utilisation avancés.

Avez-vous entendu parler d'un cadre appelé "Fukatsu Invite System"? Les modèles linguistiques tels que Chatgpt sont extrêmement excellents, mais les invites appropriées sont essentielles pour maximiser leur potentiel. Les invites Fukatsu sont l'une des techniques rapides les plus populaires conçues pour améliorer la précision de la sortie. Cet article explique les principes et les caractéristiques des invites de style Fukatsu, y compris des méthodes d'utilisation et des exemples spécifiques. De plus, nous avons introduit d'autres modèles rapides bien connus et des techniques utiles pour la conception rapide, donc sur la base de ces derniers, nous présenterons C.

Recherche de chatppt: obtenez les dernières informations efficacement avec un moteur de recherche AI innovant! Dans cet article, nous expliquerons soigneusement la nouvelle fonctionnalité de chatppt "Chatgpt Search", fournie par Openai. Examinons de plus près les fonctionnalités, l'utilisation et comment cet outil peut vous aider à améliorer votre efficacité de collecte d'informations avec des réponses fiables en fonction des informations Web en temps réel et une facilité d'utilisation intuitive. Chatgpt Search offre une expérience de recherche interactive conversationnelle qui répond aux questions des utilisateurs dans un environnement confortable et caché qui cache des publicités

Dans une société moderne avec une explosion d'information, il n'est pas facile de créer des articles convaincants. Comment utiliser la créativité pour écrire des articles qui attirent les lecteurs dans un temps limité et une énergie nécessite de superbes compétences et une expérience riche. À l'heure actuelle, en tant qu'aide révolutionnaire en écriture, Chatgpt a attiré beaucoup d'attention. Chatgpt utilise d'énormes données pour former des modèles de génération de langage pour générer des articles naturels, lisses et raffinés. Cet article présentera comment utiliser efficacement le chatppt et créera efficacement des articles de haute qualité. Nous expliquerons progressivement le processus d'écriture de l'utilisation de Chatgpt et combinerons des cas spécifiques pour élaborer ses avantages et ses inconvénients, ses scénarios applicables et ses précautions d'utilisation sûre. Chatgpt sera un écrivain pour surmonter toutes sortes d'obstacles,

Un guide efficace pour créer des graphiques à l'aide de l'IA Les matériaux visuels sont essentiels pour transmettre efficacement des informations, mais la création prend beaucoup de temps et d'efforts. Cependant, le processus de création de graphiques change considérablement en raison de la montée en puissance des technologies de l'IA telles que Chatgpt et Dall-E 3. Cet article fournit des explications détaillées sur des méthodes de création de diagrammes efficaces et attrayantes à l'aide de ces outils de pointe. Il couvre tout, des idées à l'achèvement et comprend une multitude d'informations utiles pour créer des diagrammes, à partir d'étapes spécifiques, de conseils, de plugins et d'API qui peuvent être utilisés, et comment utiliser la génération d'images AI "Dall-E 3."

Déverrouiller Chatgpt Plus: frais, méthodes de paiement et guide de mise à niveau Chatgpt, une IA générative de renommée mondiale, a été largement utilisée dans les domaines quotidiens de la vie et des affaires. Bien que Chatgpt soit essentiellement gratuit, la version payante de Chatgpt Plus fournit une variété de services à valeur ajoutée, tels que les plug-ins, la reconnaissance d'image, etc., ce qui améliore considérablement l'efficacité du travail. Cet article expliquera en détail les normes de charge, les méthodes de paiement et les processus de mise à niveau de ChatGpt Plus. Pour plus de détails sur la dernière technologie de génération d'images d'Openai "GPT-4O Génération d'images", veuillez cliquer: Explication détaillée de la génération d'images GPT-4O: méthodes d'utilisation, exemples de mots rapides, applications commerciales et différences par rapport aux autres IA Table des matières Chatgpt plus frais Ch

Comment utiliser Chatgpt pour rationaliser votre travail de conception et augmenter la créativité Cet article expliquera en détail comment créer une conception à l'aide de Chatgpt. Nous introduirons des exemples d'utilisation de Chatgpt dans divers domaines de conception, tels que des idées, la génération de texte et la conception Web. Nous présenterons également des points qui vous aideront à améliorer l'efficacité et la qualité d'une variété de travaux créatifs, tels que la conception graphique, l'illustration et la conception du logo. Veuillez jeter un œil à la façon dont l'IA peut élargir considérablement vos possibilités de conception. table des matières Chatgpt: un outil puissant pour la création de conception


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

DVWA
Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

Dreamweaver CS6
Outils de développement Web visuel

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

Dreamweaver Mac
Outils de développement Web visuel
