Maison >Périphériques technologiques >IA >PHI-4: Redéfinir les modèles de langue avec des données synthétiques

PHI-4: Redéfinir les modèles de langue avec des données synthétiques

尊渡假赌尊渡假赌尊渡假赌original: 2025-03-14 09:27:10475parcourir

Le paysage de l'IA évolue rapidement, et les modèles de langue, en particulier ceux conçus pour le raisonnement et les tâches de résolution de problèmes, sont au cœur de cette révolution. Une telle percée dans l'IA est PHI-4, un modèle de paramètres de 14 milliards développé par Microsoft Research. Ce qui distingue PHI-4 de ses prédécesseurs et autres modèles, c'est son approche innovante de la formation, en particulier son utilisation de données synthétiques. En priorisant la qualité des données par rapport à la quantité, PHI-4 démontre des améliorations remarquables des capacités de raisonnement, des questions de questions axées sur les STEM et des tâches de codage.

Dans ce blog, nous explorerons en détail PHI-4, en analysant chaque composante de son architecture, de son processus de formation et de ses innovations post-formation. Nous décomposerons ses principaux points forts, discuterons des domaines d'amélioration et expliquerons comment il surpasse de nombreux autres modèles de langage, même ceux qui sont beaucoup plus grands. À la fin de cette plongée profonde, vous comprendrez pourquoi PHI-4 n'est pas seulement un autre modèle, mais un vrai bond en avant dans le domaine du traitement du langage naturel (PNL).

Objectifs d'apprentissage

Découvrez pourquoi les données synthétiques sont cruciales pour le développement de PHI-4 et comment elles augmentent les performances dans les tâches à long contexte.
Découvrez comment l'équipe forme PHI-4 en utilisant diverses sources de données, y compris les données synthétiques et non synthétiques, sur trois étapes de formation.
Découvrez comment la longueur du contexte de PHI-4 passe de 4K à 16K jetons en milieu de trans fait et son impact sur les performances.
Découvrez comment PHI-4 subit une évaluation sur des tâches du monde réel comme la réponse aux questions, le résumé et la génération de la récupération et comparez ses performances.
Obtenez un guide sur l'exécution de PHI-4 localement, couvrant la configuration technique, les exigences du système et les défis tels que le sur-ajustement et la contamination des données.

Cet article a été publié dans le cadre du Blogathon de la science des données.

Table des matières

Pourquoi les données synthétiques sont importantes?
Pourquoi les données synthétiques sont essentielles pour PHI-4?
Comment PHI-4 a-t-il été formé?
Insignes de la phase de formation moyenne
Résultats et réflexions du post-formation
Performance sur les références clés
Comment exécuter PHI-4 localement
Défis: faire face à un sur-ajustement et à la contamination des données
Conclusion
Questions fréquemment posées

Pourquoi les données synthétiques sont importantes?

À la base, PHI-4 est un modèle de langage de paramètres de 14 milliards développé par Microsoft Research. Le modèle s'appuie sur les succès des itérations précédentes dans la famille PHI, comme PHI-3, mais introduit plusieurs innovations clés qui améliorent considérablement ses performances sur les tâches de raisonnement. Contrairement à de nombreux autres modèles de langues importants (LLM) qui reposent principalement sur des quantités massives de données organiques (comme le contenu Web, les livres et les référentiels de code), PHI-4 intègre stratégiquement une grande quantité de données synthétiques dans son pipeline de formation. Cette concentration sur les données synthétiques, combinées à d'autres innovations de formation, permet à PHI-4 de réaliser de meilleures performances dans des domaines clés, en particulier la réponse aux questions liées aux STEM et la résolution de problèmes complexes.

Pourquoi les données synthétiques sont essentielles pour PHI-4?

Dans la communauté de l'IA, les données sont l'élément vital des modèles de formation. En règle générale, les LLM sont formées à l'aide d'ensembles de données massifs grattés du Web ou organisés à partir de livres et d'articles. Bien que ces données organiques soient utiles, elle contient souvent des incohérences, des informations non pertinentes ou un manque de défis structurés qui pousseraient les capacités de raisonnement du modèle. C'est là que les données synthétiques entrent en jeu.

Rôle des données synthétiques dans PHI-4

L'équipe génère artificiellement des données synthétiques pour atteindre des objectifs de formation spécifiques, ce qui en fait un outil très efficace pour guider le processus d'apprentissage du modèle. Pour PHI-4, les données synthétiques aident à construire des ensembles de données de haute qualité qui encouragent les solides capacités de raisonnement et de résolution de problèmes.

Apprentissage structuré: Contrairement aux données organiques, qui nécessite souvent des modèles pour déchiffrer les relations complexes et indirectes entre les jetons, les données synthétiques permettent à PHI-4 d'apprendre plus systématiquement. Par exemple, dans les tâches mathématiques ou codantes, les données synthétiques fournissent un raisonnement étape par étape clair, ce qui permet au modèle de suivre plus facilement les progressions logiques.
Diversité dans les défis: des données synthétiques peuvent être générées pour couvrir un large éventail de sujets et de compétences, garantissant que le modèle rencontre divers défis. Par exemple, les ensembles de données synthétiques de PHI-4 comprennent des problèmes mathématiques complexes, des défis de codage et des tâches de raisonnement scientifique - chacun conçu pour étirer les capacités cognitives du modèle.
Alignement avec les contextes d'inférence: Un avantage clé des données synthétiques est qu'il peut être généré dans des formats qui s'alignent étroitement sur les types de sorties que le modèle devrait produire lors d'interactions réelles. Cela aide PHI-4 à générer des réponses contextuellement appropriées et plus alignées sur les requêtes utilisateur.

Techniques de données synthétiques dans PHI-4

Les données synthétiques de PHI-4 ne sont pas seulement générées au hasard - elles sont soigneusement conçues en utilisant une combinaison de techniques avancées:

Invitation multi-agents: plusieurs agents (modèles) génèrent différentes solutions au même problème, qui sont ensuite filtrées pour la qualité et la cohérence. Cela génère des exemples divers et nuancés qui remettent en question les capacités de résolution de problèmes du modèle.
Flux de travail d'auto-révision: le modèle génère initialement des réponses, puis les critique et les affine à travers des boucles de rétroaction itératives. Cela permet d'améliorer la précision et le raisonnement dans les réponses générées.
Inversion des instructions: Pour les tâches de codage, PHI-4 utilise des techniques d'inversion d'instructions. Il transforme les extraits de code existants en descriptions de problèmes, aidant le modèle à générer efficacement des solutions.

En priorisant de telles techniques, PHI-4 apprend à résoudre les problèmes plus intelligemment, tout en réduisant les biais qui peuvent résulter de ensembles de données purement organiques.

Comment PHI-4 a-t-il été formé?

Les performances impressionnantes de PHI-4 ne proviennent pas uniquement de l'utilisation de données synthétiques. Le programme de formation du modèle est également crucial pour son succès. Les créateurs de PHI-4 ont conçu un processus de formation sophistiqué qui intègre un mélange équilibré de types de données, y compris des sources organiques et des données synthétiques.

Pré-entraînement avec un mélange de sources de données

Le modèle PHI-4 utilise une architecture de transformateur uniquement au décodeur avec 14 milliards de paramètres et fonctionne initialement avec une longueur de contexte de 4096 jetons. Cette longueur de contexte est plus tard augmentée à 16k jetons au cours d'une phase de milieu de milieu ultérieure. L'architecture partage de nombreuses similitudes avec le modèle PHI-3-Medium mais introduit plusieurs améliorations. Notamment, PHI-4 adopte le Tiktoken Tokenizer, qui améliore le support multilingue et a une taille de vocabulaire de 100 352 jetons, y compris des jetons inutilisés. De plus, PHI-4 attire toute l'attention sur la longueur du contexte 4K, un écart par rapport à l'approche de la fenêtre coulissante 2K utilisée dans PHI-3-Medium.

L'équipe a prétraité le modèle à l'aide d'environ 10 billions de jetons, à la suite d'un programme d'échauffement et de désintégration linéaire. Ils ont réglé le taux d'apprentissage de pointe à 0,0003, ont appliqué une décroissance de poids constante de 0,1 et ont utilisé une taille globale de lots de 5760. Ils ont affiné les hyperparamètres en interpolant des courses plus courtes et en testant le stress de la phase d'échauffement du taux d'apprentissage pour assurer la stabilité du modèle. Après pré-formation, le modèle a subi une brève étape de milieu de transition pour étendre la longueur de contexte 4K d'origine à des jetons 16K.

Étant donné que les modèles pré-formés ne fonctionnent généralement pas bien sur les tâches de suivi des instructions, les chercheurs ont choisi de ne pas s'appuyer sur des évaluations 0-Shot, telles que des exigences simples, qui nécessitent des réponses dans un format particulier. Au lieu de cela, ils ont développé une approche d'évaluation personnalisée pour la pré-formation, qui combine des évaluations de log-vraisemblance et des invites à quelques coups pour diverses tâches. Par exemple, l'équipe a utilisé des évaluations de log-likelihhood pour des tâches comme MMLU (5-Shot), MMLU-PRO et ARCC (1-Shot). De plus, ils ont formé le modèle en utilisant 1, 3, 4 et 8 exemples à quelques coups pour des tâches telles que Triviaqa (TQA), MBPP, mathématiques et GSM8K, l'aidant à suivre les formats de réponse requis et à extraire des solutions correctes.

Insignes de la phase de formation moyenne

Dans la phase de milieu de transition de PHI-4, la longueur de contexte est étendue des jetons 4K d'origine aux jetons 16K. Au cours de cette étape, les chercheurs mènent une série d'études d'ablation pour étudier comment les différents types de données ont un impact sur les performances du modèle avec de longs contextes. Ils comparent les sources de données qui ont naturellement des contextes plus longs avec des données synthétiques, où les séquences plus courtes sont rembourrées pour en créer des plus longues. Les résultats montrent que le modèle fonctionne mieux lorsqu'il est formé sur des données qui ont intrinsèquement des contextes longs.

L'équipe affine son ensemble de données en filtrant des données non synthétiques de haute qualité comme les articles académiques, les livres et le code. Ils isolent des échantillons de plus de 8 000 jetons et donnent plus de poids à ces jetons 16K ou plus. De nouveaux ensembles de données synthétiques sont créés avec des séquences supérieures à 4K Tokens. Le mélange d'ensemble de données final contient 30% de données de contexte long et 70% de jetons de rappel de la pré-formation. Pour s'adapter à l'augmentation de la longueur du contexte, l'équipe définit la fréquence de base de codage de position rotative (corde) à 250k. Ils réduisent le taux d'apprentissage maximal d'un facteur 10 et forment le modèle avec 250 milliards de jetons.

Pour évaluer la capacité de la PHI-4 à gérer de longs contextes, les chercheurs mettent l'accent sur un ensemble diversifié de tâches du monde réel, plutôt que de s'appuyer uniquement sur des références synthétiques comme l'aiguille dans un haystack ou la règle, qui sont plus simples mais moins reflétées des scénarios pratiques. L'équipe sélectionne ces tâches dans la suite d'évaluation du casque [YGH 24] et fait en moyenne les résultats sur cinq séries pour chaque catégorie.

Cadre d'évaluation

Le cadre d'évaluation comprend les tâches suivantes:

Rappel: Le modèle récupère une valeur spécifique à partir d'un long fichier JSON généré de manière aléatoire basée sur une clé donnée, mesurée à l'aide de la métrique sous-unm.
RAG (Génération auprès de la récupération): Le modèle répond aux questions basées sur plusieurs documents Wikipedia récupérés et mélangés, avec des ensembles de données tels que NaturalQuestions, Hotpotqa et Popqa. Les résultats finaux sont moyennés sur tous les ensembles de données, évalués avec la métrique sous-unm.
Re-Rank: Dans cette tâche, le modèle ranque les 10 meilleurs documents récupérés pour une requête donnée, en utilisant le jeu de données MSMARCO. Les performances sont mesurées avec NDCG @ 10.
ICL (apprentissage dans le contexte): Cette tâche teste la capacité du modèle à effectuer un apprentissage dans le contexte de plusieurs coups sur des ensembles de données comme TREC COARSE, TREC FINE, BANKING77, NLU et CLINC150. Les résultats sont moyennés sur tous les ensembles de données, avec des performances mesurées par le score F1.
QA (Question Répondre): Le modèle répond aux questions basées sur de longs documents de l'ensemble de données NarrativeQav2, avec des performances évaluées à l'aide de la notation GPT-4O.
Summer (résumé): La tâche consiste à résumer les longs documents juridiques de l'ensemble de données multi-licenciements, avec des résultats évalués à l'aide de la notation GPT-4O.

Cette stratégie d'évaluation complète teste en profondeur les capacités de contexte à long terme de PHI-4 dans diverses tâches pratiques. Il reflète l'applicabilité du monde réel du modèle.

Résultats et réflexions du post-formation

Le post-formation vise à transformer le modèle de langue pré-entraînée en un assistant d'IA que les utilisateurs peuvent
interagir en toute sécurité avec. PHI-4 aligne le modèle pré-entraîné avec un tour de SFT, une ronde de données DPOON de notre méthode de recherche pivot et une ronde de DPO sur des paires de préférences complètes. Le modèle subit un réglage fin de chat à l'aide du format ChatML standard. Un exemple de modèle d'utilisation pour deux cycles de conversation est le suivant:

PHI-4: Redéfinir les modèles de langue avec des données synthétiques

Techniques de post-formation innovantes

Une fois que la pré-formation est terminée, PHI-4 entre dans une phase post-entraînement où un autre réglage fin a lieu. Cette étape se concentre sur le raffinement des capacités de raisonnement du modèle et l'amélioration de la qualité de ses résultats. Plusieurs innovations post-formation contribuent aux performances impressionnantes de PHI-4:

Affinement fin supervisé: Dans cette éphase, les chercheurs diminuent le modèle pré-entraîné avec un taux d'apprentissage de 10−6onavaries de datagation à partir de données de haute qualité. Ils ont également ajouté des données multilingues pour 40 langues.
Optimisation directe des préférences: les chercheurs utilisent le DPO pour aligner le modèle avec les préférences humaines, et également pour éloigner le modèle du comportement indésirable à travers des paires de sorties souhaitées et indésirables. Les données DPO couvrent les données du format de chat, le raisonnement et les données responsables de l'IA (RAI) et améliore le modèle en mathématiques, codage, raisonnement, robustesse et sécurité. Ils ont fait deux cycles de DPO sur le modèle SFT.
Pivotal Token Search (PTS): Une nouvelle technique développée pour PHI-4, PTS identifie les jetons clés dans une réponse qui a un impact significatif sur le succès global de la sortie du modèle. Cela permet au modèle de se concentrer sur l'amélioration des jetons critiques spécifiques dans ses réponses, garantissant une plus grande précision et robustesse.

PHI-4: Redéfinir les modèles de langue avec des données synthétiques

Performance sur les références clés

Pour évaluer les capacités de PHI-4, il est essentiel d'examiner ses performances sur des références standard. PHI-4 surpasse constamment ses prédécesseurs et de nombreux modèles plus grands sur plusieurs tâches critiques.

PHI-4: Redéfinir les modèles de langue avec des données synthétiques

Tâches de tige et de raisonnement

PHI-4 brille en particulier dans la réponse aux questions axée sur les STEM (comme le GPQA pour les questions de niveau supérieur) et les compétitions de mathématiques (mathématiques). Bien qu'il soit plus petit que des modèles comme LLAMA-3, PHI-4 obtient des résultats comparables ou supérieurs sur ces tâches lourdes de raisonnement. Ceci témoigne de l'utilisation efficace des données synthétiques par le modèle et son accent sur la résolution de problèmes structurés et logiques.

Par exemple, PHI-4 surpasse son modèle de professeur, GPT-4, sur de nombreux références de raisonnement telles que GPQA et MATH, bien qu'il s'agisse d'un modèle plus petit. L'incorporation de données synthétiques de haute qualité et de techniques de formation innovantes a permis à PHI-4 de dépasser les capacités de modèles beaucoup plus importants dans ces domaines.

Codage et tâches techniques

Dans les tâches de codage, PHI-4 excelle également, surperformant des modèles tels que GPT-4 Mini et Qwen 2.5. Qu'il s'agisse de résoudre des problèmes algorithmiques dans Humaneval ou de relever des défis de programmation plus complexes, la capacité de PHI-4 à raisonner et à appliquer la logique en fait l'une des plus performantes de l'espace de codage.

Sécurité

PHI-4 démontre des garanties robustes contre la génération de contenu nocif ou biaisé, garantissant des interactions éthiques et responsables de l'IA pendant l'analyse comparative.

PHI-4: Redéfinir les modèles de langue avec des données synthétiques

Comment exécuter PHI-4 localement

L'exécution de PHI-4 vous permet d'interagir avec ce modèle AI avancé directement à partir de votre système, offrant une commodité et une flexibilité pour les tests ou le développement d'applications. Suivez les étapes ci-dessous pour le configurer:

Installer Olllama

Olllama est un outil qui facilite la course et l'interaction avec des modèles d'IA comme PHI-4. Commencez par installer Olllama sur votre système. Vous pouvez trouver des instructions d'installation détaillées sur le site officiel d'Olllama.

Exécutez PHI-4 dans la ligne de commande

Une fois Olllama installé, vous pouvez exécuter le modèle PHI-4 avec une seule commande dans votre terminal ou PowerShell:

 Olllama Run Vanilj / Phi-4

Cette commande initialise le modèle PHI-4 et vous permet d'interagir directement avec elle dans votre CLI. Vous pouvez commencer à discuter ou à poser des questions immédiatement.

Intégrer PHI-4 à Langchain

Pour des cas d'utilisation plus avancés, tels que l'intégration de PHI-4 dans un workflow ou une application, vous pouvez utiliser Langchain avec Olllama. Langchain fournit des outils pour travailler avec des modèles de langage par programme.

Installez la bibliothèque de Langchain-Ellay:

 % pip install -u Langchain-eLlama

Utilisez le script Python suivant pour exécuter PHI-4 via Langchain:

 de Langchain_core.prompts Importer ChatpromptTemplate
de Langchain_ollama.llms Import Ollamallm
template = "" "Question: {question}
Réponse: Réfléchissons pas à pas. "" "
inside = chatPromptTemplate.from_template (modèle)
modèle = ollamallm (modèle = "Vanilj / phi-4")
chaîne = invite | modèle
Print (chain.invoke ({"Question": "Écrivez un poème sur AI?"}))

PHI-4: Redéfinir les modèles de langue avec des données synthétiques

Défis: faire face à un sur-ajustement et à la contamination des données

Aucun modèle n'est parfait et PHI-4 a son propre ensemble de défis. Le sur-ajustement est une préoccupation commune dans le développement de l'IA. Cela se produit lorsqu'un modèle devient trop spécialisé pour la formation des données, blessant la généralisation. PHI-4 s'attaque à cela en utilisant un processus de décontamination des données. Cela garantit qu'aucune donnée de test n'est incluse dans la formation, en réduisant le risque de sur-ajustement.

Sur-atténuation de l'atténuation

En utilisant de nouveaux ensembles de données, tels que les compétitions de mathématiques AMC-10 et AMC-12 de novembre 2024, PHI-4 a montré qu'elle peut généraliser bien au-delà de son ensemble de formation et se produire parfaitement sur de nouvelles tâches. Ceci est crucial pour garantir que PHI-4 reste un outil robuste et fiable pour les applications du monde réel.

Faiblesse

Instruction SUIVANT: Bien que PHI-4 fonctionne bien dans les tâches de raisonnement, il se débat avec un suivi strict des instructions. Les tâches nécessitant un formatage spécifique ou des instructions stylistiques complexes peuvent parfois faire circuler le modèle.
Hallucinations factuelles: PHI-4 lutte toujours avec la précision factuelle dans certains cas, en particulier dans la génération d'informations sur des individus inexistants ou hypothétiques.

Conclusion

PHI-4 change la donne dans le monde des modèles de langue. Sa combinaison de génération innovante de données synthétiques, de techniques de formation de pointe et de raffinements post-entraînement le distingue de nombreux autres modèles. Le PHI-4 démontre qu'avec la bonne approche de la formation, la qualité peut l'emporter sur la quantité, ce qui représente des performances supérieures dans les tâches lourdes du raisonnement, les questions et réponses de codage des STEM et le codage, bien qu'il soit plus petit que de nombreux modèles contemporains.

PHI-4 n'est pas sans défis, en particulier autour de la suivi des instructions et de la précision factuelle. Cependant, ses capacités remarquables dans le raisonnement logique et la résolution de problèmes en font un pas en avant significatif dans l'espace de l'IA. À mesure que l'IA évolue, l'utilisation par PHI-4 de données synthétiques définit un modèle pour les développements futurs dans le domaine. Il aide à repousser les limites de ce qui est possible avec les modèles de langue.

Principaux à retenir

PHI-4 exploite les données synthétiques pour hiérarchiser la qualité par rapport à la quantité, améliorer son raisonnement, la réponse aux questions STEM et les capacités de codage.
Les données synthétiques dans PHI-4 introduisent l'apprentissage structuré, divers défis et un meilleur alignement sur les contextes d'inférence du monde réel.
La formation de PHI-4 comprend la pré-formation, le milieu de l'entreprise avec des longueurs de contexte étendues et les techniques innovantes post-formation pour le réglage fin.
Le milieu de la transformation étend la longueur de contexte de PHI-4 de 4K à 16K jetons, l'optimisant pour les tâches à long contexte.
L'évaluation du PHI-4 met l'accent sur les tâches du monde réel comme le chiffon, le résumé et l'apprentissage en contexte pour les informations pratiques.
Les innovations post-entraînement, y compris le réglage fin supervisé et l'optimisation directe des préférences, affinement le raisonnement et la sécurité de PHI-4.
L'architecture de PHI-4, associée à des ensembles de données avancés et aux techniques de formation, établit une nouvelle référence dans la PNL pour gérer des tâches complexes de résolution de problèmes.

Questions fréquemment posées

Q1. Qu'est-ce que PHI-4 et en quoi est-il différent des modèles précédents?

A. PHI-4 est un modèle AI à grande échelle et à la pointe de la technologie basé sur une architecture de transformateur uniquement au décodeur. PHI-4 s'appuie sur des modèles comme PHI-3-Medium en augmentant la longueur du contexte à 16K jetons. Il introduit également l'amélioration des techniques de prétraitement des données, y compris TikToken, pour un meilleur support multilingue.

Q2. Pourquoi les données synthétiques sont-elles importantes pour la formation de PHI-4?

A. Les données synthétiques jouent un rôle clé dans la formation de PHI-4, car il aide le modèle à gérer plus efficacement les tâches de contexte à long terme. En combinant des données du monde réel avec des séquences générées par synthèse, PHI-4 généralise mieux dans divers scénarios. Cela améliore ses performances sur les tâches nécessitant un raisonnement sur de grands ensembles de données.

Q3. Quelles sont les étapes clés du processus de formation de PHI-4?

La formation de A. PHI-4 implique trois étapes. La pré-formation utilise diverses sources de données. Le milieu de la transformation étend la longueur du contexte de 4K à 16K jetons. Le post-formation comprend des techniques de réglage fin comme la SFT, l'apprentissage du renforcement avec DPO et l'échantillonnage de jetons (PT) à partir de l'étape de pré-formation.

Q4. Comment PHI-4 fonctionne-t-il sur les tâches du monde réel?

A. PHI-4 excelle sur un large éventail de repères du monde réel, y compris la réponse aux questions, le résumé et la génération auprès de la récupération. PHI-4 excelle dans les tâches de raisonnement sur de longs documents, évalués à l'aide de divers ensembles de données de la suite d'évaluation Helm.

Les médias présentés dans cet article ne sont pas détenus par l'analytique vidhya et sont utilisés à la discrétion de l'auteur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python batch json less edge for while format include require math Token break using Length this position table transformer nlp microsoft gpt llama langchain Papers Novel Game Other

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Construisez des applications à base de LLM de qualité avec PyndanticaiArticle suivant：Construisez des applications à base de LLM de qualité avec Pyndanticai

Articles Liés

Voir plus