Maison >Périphériques technologiques >IA >PHI-4: Redéfinir les modèles de langue avec des données synthétiques
Le paysage de l'IA évolue rapidement, et les modèles de langue, en particulier ceux conçus pour le raisonnement et les tâches de résolution de problèmes, sont au cœur de cette révolution. Une telle percée dans l'IA est PHI-4, un modèle de paramètres de 14 milliards développé par Microsoft Research. Ce qui distingue PHI-4 de ses prédécesseurs et autres modèles, c'est son approche innovante de la formation, en particulier son utilisation de données synthétiques. En priorisant la qualité des données par rapport à la quantité, PHI-4 démontre des améliorations remarquables des capacités de raisonnement, des questions de questions axées sur les STEM et des tâches de codage.
Dans ce blog, nous explorerons en détail PHI-4, en analysant chaque composante de son architecture, de son processus de formation et de ses innovations post-formation. Nous décomposerons ses principaux points forts, discuterons des domaines d'amélioration et expliquerons comment il surpasse de nombreux autres modèles de langage, même ceux qui sont beaucoup plus grands. À la fin de cette plongée profonde, vous comprendrez pourquoi PHI-4 n'est pas seulement un autre modèle, mais un vrai bond en avant dans le domaine du traitement du langage naturel (PNL).
Cet article a été publié dans le cadre du Blogathon de la science des données.
À la base, PHI-4 est un modèle de langage de paramètres de 14 milliards développé par Microsoft Research. Le modèle s'appuie sur les succès des itérations précédentes dans la famille PHI, comme PHI-3, mais introduit plusieurs innovations clés qui améliorent considérablement ses performances sur les tâches de raisonnement. Contrairement à de nombreux autres modèles de langues importants (LLM) qui reposent principalement sur des quantités massives de données organiques (comme le contenu Web, les livres et les référentiels de code), PHI-4 intègre stratégiquement une grande quantité de données synthétiques dans son pipeline de formation. Cette concentration sur les données synthétiques, combinées à d'autres innovations de formation, permet à PHI-4 de réaliser de meilleures performances dans des domaines clés, en particulier la réponse aux questions liées aux STEM et la résolution de problèmes complexes.
Dans la communauté de l'IA, les données sont l'élément vital des modèles de formation. En règle générale, les LLM sont formées à l'aide d'ensembles de données massifs grattés du Web ou organisés à partir de livres et d'articles. Bien que ces données organiques soient utiles, elle contient souvent des incohérences, des informations non pertinentes ou un manque de défis structurés qui pousseraient les capacités de raisonnement du modèle. C'est là que les données synthétiques entrent en jeu.
L'équipe génère artificiellement des données synthétiques pour atteindre des objectifs de formation spécifiques, ce qui en fait un outil très efficace pour guider le processus d'apprentissage du modèle. Pour PHI-4, les données synthétiques aident à construire des ensembles de données de haute qualité qui encouragent les solides capacités de raisonnement et de résolution de problèmes.
Les données synthétiques de PHI-4 ne sont pas seulement générées au hasard - elles sont soigneusement conçues en utilisant une combinaison de techniques avancées:
En priorisant de telles techniques, PHI-4 apprend à résoudre les problèmes plus intelligemment, tout en réduisant les biais qui peuvent résulter de ensembles de données purement organiques.
Les performances impressionnantes de PHI-4 ne proviennent pas uniquement de l'utilisation de données synthétiques. Le programme de formation du modèle est également crucial pour son succès. Les créateurs de PHI-4 ont conçu un processus de formation sophistiqué qui intègre un mélange équilibré de types de données, y compris des sources organiques et des données synthétiques.
Le modèle PHI-4 utilise une architecture de transformateur uniquement au décodeur avec 14 milliards de paramètres et fonctionne initialement avec une longueur de contexte de 4096 jetons. Cette longueur de contexte est plus tard augmentée à 16k jetons au cours d'une phase de milieu de milieu ultérieure. L'architecture partage de nombreuses similitudes avec le modèle PHI-3-Medium mais introduit plusieurs améliorations. Notamment, PHI-4 adopte le Tiktoken Tokenizer, qui améliore le support multilingue et a une taille de vocabulaire de 100 352 jetons, y compris des jetons inutilisés. De plus, PHI-4 attire toute l'attention sur la longueur du contexte 4K, un écart par rapport à l'approche de la fenêtre coulissante 2K utilisée dans PHI-3-Medium.
L'équipe a prétraité le modèle à l'aide d'environ 10 billions de jetons, à la suite d'un programme d'échauffement et de désintégration linéaire. Ils ont réglé le taux d'apprentissage de pointe à 0,0003, ont appliqué une décroissance de poids constante de 0,1 et ont utilisé une taille globale de lots de 5760. Ils ont affiné les hyperparamètres en interpolant des courses plus courtes et en testant le stress de la phase d'échauffement du taux d'apprentissage pour assurer la stabilité du modèle. Après pré-formation, le modèle a subi une brève étape de milieu de transition pour étendre la longueur de contexte 4K d'origine à des jetons 16K.
Étant donné que les modèles pré-formés ne fonctionnent généralement pas bien sur les tâches de suivi des instructions, les chercheurs ont choisi de ne pas s'appuyer sur des évaluations 0-Shot, telles que des exigences simples, qui nécessitent des réponses dans un format particulier. Au lieu de cela, ils ont développé une approche d'évaluation personnalisée pour la pré-formation, qui combine des évaluations de log-vraisemblance et des invites à quelques coups pour diverses tâches. Par exemple, l'équipe a utilisé des évaluations de log-likelihhood pour des tâches comme MMLU (5-Shot), MMLU-PRO et ARCC (1-Shot). De plus, ils ont formé le modèle en utilisant 1, 3, 4 et 8 exemples à quelques coups pour des tâches telles que Triviaqa (TQA), MBPP, mathématiques et GSM8K, l'aidant à suivre les formats de réponse requis et à extraire des solutions correctes.
Dans la phase de milieu de transition de PHI-4, la longueur de contexte est étendue des jetons 4K d'origine aux jetons 16K. Au cours de cette étape, les chercheurs mènent une série d'études d'ablation pour étudier comment les différents types de données ont un impact sur les performances du modèle avec de longs contextes. Ils comparent les sources de données qui ont naturellement des contextes plus longs avec des données synthétiques, où les séquences plus courtes sont rembourrées pour en créer des plus longues. Les résultats montrent que le modèle fonctionne mieux lorsqu'il est formé sur des données qui ont intrinsèquement des contextes longs.
L'équipe affine son ensemble de données en filtrant des données non synthétiques de haute qualité comme les articles académiques, les livres et le code. Ils isolent des échantillons de plus de 8 000 jetons et donnent plus de poids à ces jetons 16K ou plus. De nouveaux ensembles de données synthétiques sont créés avec des séquences supérieures à 4K Tokens. Le mélange d'ensemble de données final contient 30% de données de contexte long et 70% de jetons de rappel de la pré-formation. Pour s'adapter à l'augmentation de la longueur du contexte, l'équipe définit la fréquence de base de codage de position rotative (corde) à 250k. Ils réduisent le taux d'apprentissage maximal d'un facteur 10 et forment le modèle avec 250 milliards de jetons.
Pour évaluer la capacité de la PHI-4 à gérer de longs contextes, les chercheurs mettent l'accent sur un ensemble diversifié de tâches du monde réel, plutôt que de s'appuyer uniquement sur des références synthétiques comme l'aiguille dans un haystack ou la règle, qui sont plus simples mais moins reflétées des scénarios pratiques. L'équipe sélectionne ces tâches dans la suite d'évaluation du casque [YGH 24] et fait en moyenne les résultats sur cinq séries pour chaque catégorie.
Le cadre d'évaluation comprend les tâches suivantes:
Cette stratégie d'évaluation complète teste en profondeur les capacités de contexte à long terme de PHI-4 dans diverses tâches pratiques. Il reflète l'applicabilité du monde réel du modèle.
Le post-formation vise à transformer le modèle de langue pré-entraînée en un assistant d'IA que les utilisateurs peuvent
interagir en toute sécurité avec. PHI-4 aligne le modèle pré-entraîné avec un tour de SFT, une ronde de données DPOON de notre méthode de recherche pivot et une ronde de DPO sur des paires de préférences complètes. Le modèle subit un réglage fin de chat à l'aide du format ChatML standard. Un exemple de modèle d'utilisation pour deux cycles de conversation est le suivant:
Une fois que la pré-formation est terminée, PHI-4 entre dans une phase post-entraînement où un autre réglage fin a lieu. Cette étape se concentre sur le raffinement des capacités de raisonnement du modèle et l'amélioration de la qualité de ses résultats. Plusieurs innovations post-formation contribuent aux performances impressionnantes de PHI-4:
Pour évaluer les capacités de PHI-4, il est essentiel d'examiner ses performances sur des références standard. PHI-4 surpasse constamment ses prédécesseurs et de nombreux modèles plus grands sur plusieurs tâches critiques.
PHI-4 brille en particulier dans la réponse aux questions axée sur les STEM (comme le GPQA pour les questions de niveau supérieur) et les compétitions de mathématiques (mathématiques). Bien qu'il soit plus petit que des modèles comme LLAMA-3, PHI-4 obtient des résultats comparables ou supérieurs sur ces tâches lourdes de raisonnement. Ceci témoigne de l'utilisation efficace des données synthétiques par le modèle et son accent sur la résolution de problèmes structurés et logiques.
Par exemple, PHI-4 surpasse son modèle de professeur, GPT-4, sur de nombreux références de raisonnement telles que GPQA et MATH, bien qu'il s'agisse d'un modèle plus petit. L'incorporation de données synthétiques de haute qualité et de techniques de formation innovantes a permis à PHI-4 de dépasser les capacités de modèles beaucoup plus importants dans ces domaines.
Dans les tâches de codage, PHI-4 excelle également, surperformant des modèles tels que GPT-4 Mini et Qwen 2.5. Qu'il s'agisse de résoudre des problèmes algorithmiques dans Humaneval ou de relever des défis de programmation plus complexes, la capacité de PHI-4 à raisonner et à appliquer la logique en fait l'une des plus performantes de l'espace de codage.
PHI-4 démontre des garanties robustes contre la génération de contenu nocif ou biaisé, garantissant des interactions éthiques et responsables de l'IA pendant l'analyse comparative.
L'exécution de PHI-4 vous permet d'interagir avec ce modèle AI avancé directement à partir de votre système, offrant une commodité et une flexibilité pour les tests ou le développement d'applications. Suivez les étapes ci-dessous pour le configurer:
Olllama est un outil qui facilite la course et l'interaction avec des modèles d'IA comme PHI-4. Commencez par installer Olllama sur votre système. Vous pouvez trouver des instructions d'installation détaillées sur le site officiel d'Olllama.
Une fois Olllama installé, vous pouvez exécuter le modèle PHI-4 avec une seule commande dans votre terminal ou PowerShell:
Olllama Run Vanilj / Phi-4
Cette commande initialise le modèle PHI-4 et vous permet d'interagir directement avec elle dans votre CLI. Vous pouvez commencer à discuter ou à poser des questions immédiatement.
Pour des cas d'utilisation plus avancés, tels que l'intégration de PHI-4 dans un workflow ou une application, vous pouvez utiliser Langchain avec Olllama. Langchain fournit des outils pour travailler avec des modèles de langage par programme.
% pip install -u Langchain-eLlama
de Langchain_core.prompts Importer ChatpromptTemplate de Langchain_ollama.llms Import Ollamallm template = "" "Question: {question} Réponse: Réfléchissons pas à pas. "" " inside = chatPromptTemplate.from_template (modèle) modèle = ollamallm (modèle = "Vanilj / phi-4") chaîne = invite | modèle Print (chain.invoke ({"Question": "Écrivez un poème sur AI?"}))
Aucun modèle n'est parfait et PHI-4 a son propre ensemble de défis. Le sur-ajustement est une préoccupation commune dans le développement de l'IA. Cela se produit lorsqu'un modèle devient trop spécialisé pour la formation des données, blessant la généralisation. PHI-4 s'attaque à cela en utilisant un processus de décontamination des données. Cela garantit qu'aucune donnée de test n'est incluse dans la formation, en réduisant le risque de sur-ajustement.
En utilisant de nouveaux ensembles de données, tels que les compétitions de mathématiques AMC-10 et AMC-12 de novembre 2024, PHI-4 a montré qu'elle peut généraliser bien au-delà de son ensemble de formation et se produire parfaitement sur de nouvelles tâches. Ceci est crucial pour garantir que PHI-4 reste un outil robuste et fiable pour les applications du monde réel.
PHI-4 change la donne dans le monde des modèles de langue. Sa combinaison de génération innovante de données synthétiques, de techniques de formation de pointe et de raffinements post-entraînement le distingue de nombreux autres modèles. Le PHI-4 démontre qu'avec la bonne approche de la formation, la qualité peut l'emporter sur la quantité, ce qui représente des performances supérieures dans les tâches lourdes du raisonnement, les questions et réponses de codage des STEM et le codage, bien qu'il soit plus petit que de nombreux modèles contemporains.
PHI-4 n'est pas sans défis, en particulier autour de la suivi des instructions et de la précision factuelle. Cependant, ses capacités remarquables dans le raisonnement logique et la résolution de problèmes en font un pas en avant significatif dans l'espace de l'IA. À mesure que l'IA évolue, l'utilisation par PHI-4 de données synthétiques définit un modèle pour les développements futurs dans le domaine. Il aide à repousser les limites de ce qui est possible avec les modèles de langue.
A. PHI-4 est un modèle AI à grande échelle et à la pointe de la technologie basé sur une architecture de transformateur uniquement au décodeur. PHI-4 s'appuie sur des modèles comme PHI-3-Medium en augmentant la longueur du contexte à 16K jetons. Il introduit également l'amélioration des techniques de prétraitement des données, y compris TikToken, pour un meilleur support multilingue.
Q2. Pourquoi les données synthétiques sont-elles importantes pour la formation de PHI-4?A. Les données synthétiques jouent un rôle clé dans la formation de PHI-4, car il aide le modèle à gérer plus efficacement les tâches de contexte à long terme. En combinant des données du monde réel avec des séquences générées par synthèse, PHI-4 généralise mieux dans divers scénarios. Cela améliore ses performances sur les tâches nécessitant un raisonnement sur de grands ensembles de données.
Q3. Quelles sont les étapes clés du processus de formation de PHI-4?La formation de A. PHI-4 implique trois étapes. La pré-formation utilise diverses sources de données. Le milieu de la transformation étend la longueur du contexte de 4K à 16K jetons. Le post-formation comprend des techniques de réglage fin comme la SFT, l'apprentissage du renforcement avec DPO et l'échantillonnage de jetons (PT) à partir de l'étape de pré-formation.
Q4. Comment PHI-4 fonctionne-t-il sur les tâches du monde réel?A. PHI-4 excelle sur un large éventail de repères du monde réel, y compris la réponse aux questions, le résumé et la génération auprès de la récupération. PHI-4 excelle dans les tâches de raisonnement sur de longs documents, évalués à l'aide de divers ensembles de données de la suite d'évaluation Helm.
Les médias présentés dans cet article ne sont pas détenus par l'analytique vidhya et sont utilisés à la discrétion de l'auteur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!