recherche
MaisonPériphériques technologiquesIASystème de chiffon pour le raisonnement de l'IA avec un modèle distillé Deepseek R1

Deepseek R1: un modèle de langue open source révolutionnaire

Deepseek, une startup de l'IA chinoise, a lancé Deepseek R1 en janvier 2025, un modèle de langue open-source révolutionnaire contestant les principaux modèles comme O1 d'Openai. Son mélange unique d'architecture de mélange de mélange (MOE), d'apprentissage par renforcement et de l'accent mis sur le raisonnement le distingue. Bénéficiant de 671 milliards de paramètres, il n'active intelligemment que 37 milliards par demande, optimisant l'efficacité informatique. Le raisonnement avancé de Deepseek R1 est distillé en modèles open-source plus petits et accessibles tels que LLAMA et QWEN, affinés en utilisant des données générées par le modèle R1 Deepseek primaire.

Ce tutoriel détaille la construction d'un système de génération augmentée (RAG) de récupération utilisant le modèle Deepseek-R1-Distill-Llama-8b - un modèle LLAMA 3.1 8B affiné avec des données générées par des R1 profondes.

Objectifs d'apprentissage clés:

  • saisir l'architecture, les innovations et les techniques d'apprentissage du renforcement de Deepseek.
  • Comprendre le rôle de l'optimisation relative de la politique du groupe (GRPO) dans l'amélioration du raisonnement.
  • Analyser les performances et l'efficacité de référence de Deepseek R1 par rapport aux concurrents.
  • Implémentez un système de chiffon à l'aide de modèles distillés et Qwen de Deepseek R1.

(Cet article fait partie du blogathon de la science des données.)

Table des matières:

    Présentation de Deepseek R1
  • caractéristiques distinctives de Deepseek R1
  • Apprentissage du renforcement dans Deepseek R1
  • grpo dans Deepseek R1
  • Performance de référence de Deepseek R1
  • Modèles distillés R1 Deepseek
  • Construire un système de chiffon avec Deepseek-R1-Distill-QWEN-1.5B
  • Conclusion
  • Les questions fréquemment posées

Présentation de Deepseek R1:

Deepseek R1 et son prédécesseur, Deepseek R1-Zero, sont des modèles de raisonnement pionnier. Deepseek R1-Zero, formé uniquement par l'apprentissage par renforcement à grande échelle (RL) sans réglage fin supervisé (SFT), a présenté des capacités de raisonnement impressionnantes. Cependant, il a souffert de problèmes de lisibilité et de mélange de langues. Deepseek R1 aborde ces limites en incorporant les données "de démarrage à froid" avant RL, fournissant une base robuste pour les tâches de raisonnement et de non-renforcement.

Caractéristiques distinctives de Deepseek R1:

L'architecture avancée et l'efficacité de Deepseek R1 redéfinissent les performances de l'IA.

RAG System for AI Reasoning with DeepSeek R1 Distilled Model

Les innovations clés incluent:

  • Architecture MOE: Contrairement aux modèles de transformateurs standard, l'architecture MOE de Deepseek R1 active seulement 37 milliards de ses 671 milliards de paramètres par demande, augmentant l'efficacité et réduisant les coûts.
  • Apprentissage du renforcement: RL améliore les capacités de raisonnement, éliminant le besoin d'un modèle de fonction de valeur séparé, rationalisant le réglage fin.
  • Effectif: Formé en utilisant moins de ressources (2 000 GPU NVIDIA, ~ 5,6 millions de dollars) que les projets comparables, il offre des coûts d'API considérablement inférieurs.
  • Performance de référence supérieure: Deepseek R1 surpasse constamment les concurrents sur les tests de précision et de centile (par exemple, 79,8% sur AIME 2024, 96,3% sur les forces de code).
  • Évolutivité: versions "distillées" (paramètres de 1,5b à 70b) Assurent l'accessibilité sur divers matériel.
  • Manipulation du contexte long: prend en charge efficacement les jetons de 128K, gérant efficacement les tâches complexes et riches en contexte.

Apprentissage du renforcement dans Deepseek R1:

L'utilisation innovante de RL par Deepseek R1 représente un changement de paradigme par rapport aux méthodes traditionnelles. Il exploite:

  • rl pur: repose principalement sur RL, en contournant le réglage fin supervisé habituel.
  • Auto-évolution: affine les performances par des essais et erreurs itératifs.
  • Récompense de précision et de format: Récompense des prédictions précises et des réponses bien structurées.
  • Raisonnement de la chaîne de réflexion (COT): articule son processus de raisonnement étape par étape.
  • Efficacité: Préorise la qualité des données sur la quantité pure.
  • RL et SFT combinés: combine des données "de démarrage à froid de haute qualité avec RL et SFT pour les sorties cohérentes.

Grpo dans Deepseek R1:

GRPO (optimisation de la politique relative du groupe) améliore le raisonnement LLM. Il améliore PPO en éliminant le besoin d'un modèle de fonction de valeur.

RAG System for AI Reasoning with DeepSeek R1 Distilled Model

Les étapes de GRPO comprennent: les sorties d'échantillonnage, la notation des récompenses, le calcul de l'avantage (par rapport à la moyenne du groupe) et l'optimisation des politiques.

Performance de référence de Deepseek R1:

Les résultats de référence impressionnants de Deepseek R1 incluent:

  • MATH-500: 97,3% (dépassant O1-1217 d'OpenAI).
  • SWE-BENCH Vérifié: 49,2%.
  • AIME 2024: comparable à l'Openai-O1-1217 d'Openai.

Modèles distillés profonds R1:

Les connaissances de Deepseek R1 sont distillées en modèles plus petits à l'aide d'un ensemble de données de 800 000 exemples générés par R1 Deepseek. Cela permet un transfert efficace des capacités de raisonnement à des modèles comme Llama et Qwen.

Construire un système de chiffon avec Deepseek-R1-Distill-Qwen-1.5b:

(Cette section contiendrait des exemples de code détaillés pour configurer le système de chiffon à l'aide du modèle et des bibliothèques spécifiés. En raison des contraintes de longueur, cette partie est omise mais inclurait des étapes pour installer des bibliothèques, le chargement du PDF, la création de l'intégration, la définition du Retriever, le chargement du modèle, la création du pipeline de rag et le modèle avec des exemples de questions et de sorties.)

Conclusion:

Deepseek R1 signifie une progression significative du raisonnement du modèle linguistique, en utilisant un RL pur et des techniques innovantes pour les performances et l'efficacité supérieures. Ses modèles distillés rendent le raisonnement avancé accessible à une gamme plus large d'applications.

Questions fréquemment posées:

(Cette section contiendrait des réponses aux questions fréquemment posées sur Deepseek R1, similaire au texte d'origine.)

(Remarque: Les URL de l'image restent inchangées.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Dançon: mouvement structuré pour affiner nos filets neuronaux humainsDançon: mouvement structuré pour affiner nos filets neuronaux humainsApr 27, 2025 am 11:09 AM

Les scientifiques ont largement étudié les réseaux de neurones humains et plus simples (comme ceux de C. elegans) pour comprendre leur fonctionnalité. Cependant, une question cruciale se pose: comment adapter nos propres réseaux de neurones pour travailler efficacement aux côtés de nouvelles IA

La nouvelle fuite de Google révèle des modifications d'abonnement pour Gemini AILa nouvelle fuite de Google révèle des modifications d'abonnement pour Gemini AIApr 27, 2025 am 11:08 AM

Gémeaux de Google Avancé: nouveaux niveaux d'abonnement à l'horizon Actuellement, l'accès à Gemini Advanced nécessite un plan premium de 19,99 $ / mois / mois. Cependant, un rapport Android Authority fait allusion aux changements à venir. Code dans le dernier Google P

Comment l'accélération de l'analyse des données résout le goulot d'étranglement caché de l'IAComment l'accélération de l'analyse des données résout le goulot d'étranglement caché de l'IAApr 27, 2025 am 11:07 AM

Malgré le battage médiatique entourant les capacités avancées de l'IA, un défi important se cache dans les déploiements d'IA d'entreprise: les goulots d'étranglement du traitement des données. Alors que les PDG célèbrent les progrès de l'IA, les ingénieurs se débattent avec des temps de requête lents, des pipelines surchargés, un

Markitdown MCP peut convertir n'importe quel document en Markdowns!Markitdown MCP peut convertir n'importe quel document en Markdowns!Apr 27, 2025 am 09:47 AM

La gestion des documents ne consiste plus à ouvrir des fichiers dans vos projets d'IA, il s'agit de transformer le chaos en clarté. Des documents tels que les PDF, les PowerPoints et les mots inondent nos workflows sous toutes les formes et taille. Récupération structurée

Comment utiliser Google ADK pour la construction d'agents? - Analytique VidhyaComment utiliser Google ADK pour la construction d'agents? - Analytique VidhyaApr 27, 2025 am 09:42 AM

Exploitez la puissance du kit de développement d'agent de Google (ADK) pour créer des agents intelligents avec des capacités du monde réel! Ce tutoriel vous guide à travers la construction d'agents conversationnels en utilisant ADK, soutenant divers modèles de langue comme Gemini et GPT. W

Utilisation de SLM sur LLM pour une résolution de problèmes efficace - Analytics VidhyaUtilisation de SLM sur LLM pour une résolution de problèmes efficace - Analytics VidhyaApr 27, 2025 am 09:27 AM

résumé: Le modèle de petit langage (SLM) est conçu pour l'efficacité. Ils sont meilleurs que le modèle de grande langue (LLM) dans des environnements déficientes en ressources, en temps réel et sensibles à la confidentialité. Le meilleur pour les tâches basées sur la mise au point, en particulier lorsque la spécificité du domaine, la contrôlabilité et l'interprétabilité sont plus importantes que les connaissances générales ou la créativité. Les SLM ne remplacent pas les LLM, mais ils sont idéaux lorsque la précision, la vitesse et la rentabilité sont essentielles. La technologie nous aide à réaliser plus avec moins de ressources. Il a toujours été un promoteur, pas un chauffeur. De l'ère de la machine à vapeur à l'ère des bulles Internet, la puissance de la technologie se situe dans la mesure où elle nous aide à résoudre des problèmes. L'intelligence artificielle (IA) et plus récemment l'IA génératrice ne font pas exception

Comment utiliser les modèles Google Gemini pour les tâches de vision par ordinateur? - Analytique VidhyaComment utiliser les modèles Google Gemini pour les tâches de vision par ordinateur? - Analytique VidhyaApr 27, 2025 am 09:26 AM

Exploiter la puissance de Google Gemini pour la vision par ordinateur: un guide complet Google Gemini, un chatbot d'IA de premier plan, étend ses capacités au-delà de la conversation pour englober de puissantes fonctionnalités de vision informatique. Ce guide détaille comment utiliser

Gemini 2.0 Flash vs O4-Mini: Google peut-il faire mieux qu'Openai?Gemini 2.0 Flash vs O4-Mini: Google peut-il faire mieux qu'Openai?Apr 27, 2025 am 09:20 AM

Le paysage de l'IA de 2025 est électrisant avec l'arrivée de Gemini 2.0 Flash de Google et O4-Mini d'OpenAI. Ces modèles de pointe, lancés à quelques semaines, offrent des fonctionnalités avancées comparables et des scores de référence impressionnants. Cette comparaison approfondie

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit