Maison >Périphériques technologiques >IA >Les poids, les codes et les ensembles de données sont tous open source et les performances dépassent le petit modèle d'Apple.
Les petits modèles deviennent une tendance ?
Cette semaine, OpenAI a lancé le petit modèle GPT-4o-mini, et la petite piste modèle a été officiellement lancée. Apple a récemment rejoint cette piste.
Récemment, Apple, en tant que l'un des instituts de recherche du projet DataComp-LM (DCLM), a publié le modèle open source DCLM-7B sur Hugging Face. Les performances du modèle ont dépassé celles du Mistral-7B et se rapprochent d'autres modèles open source de premier plan, notamment Llama 3 et Gemma.
Lien papier : https://arxiv.org/pdf/2406.11794
Lien du projet : https://huggingface.co/apple/DCLM-7B
Auteur du papier L'un d'eux, Vaishaal Shankar de l'équipe d'apprentissage automatique d'Apple, a décrit le modèle DCLM comme « le meilleur modèle véritablement open source » car DCLM a non seulement ouvert les poids du modèle, mais également ouvert le code de formation et l'ensemble de données de pré-formation.
Introduction à la recherche
L'un des défis d'évaluation actuels auxquels sont confrontés les grands modèles de langage (LLM) est le manque de comparaisons contrôlées. Les études LLM comparent souvent des modèles avec des architectures, des calculs ou des hyperparamètres différents, ce qui rend difficile la démêlage des facteurs qui influencent la qualité des modèles de langage.
Sur cette base, l'équipe de recherche a proposé un nouveau benchmark pour la comparaison des données des modèles de langage - DCLM. Il s'agit du premier benchmark pour la conservation des données de formation des modèles de langage, visant à permettre à LLM d'améliorer les performances du modèle en concevant notamment des ensembles de données de haute qualité. dans le domaine multimodal.
L'équipe de recherche a découvert que le filtrage basé sur un modèle, dans lequel les modèles d'apprentissage automatique (ML) filtrent et sélectionnent automatiquement des données de haute qualité à partir d'ensembles de données plus vastes, peut être la clé pour créer des ensembles de formation de haute qualité.
L'idée générale de DCLM est simple : utiliser un cadre standardisé pour mener des expériences, y compris une architecture de modèle fixe, un code de formation, des hyperparamètres et une évaluation, et enfin découvrir quelle stratégie de tri de données est la plus adaptée pour former un modèle haute performance .
À l'aide de DCLM, l'équipe de recherche a construit un ensemble de données de haute qualité DCLM-BASELINE et a utilisé cet ensemble de données pour former un modèle de paramètres 7B à partir de zéro - DCLM-7B. Détail du modèle DCLM-7B.
DCLM-7B utilise une solution de pré-entraînement basée sur le framework OpenLM, et la précision de 5 tirs atteint 64 % sur le benchmark MMLU, ce qui est comparable à Mistral-7B-v0.3 (63%) et Llama 3 8B (66 %) Il est comparable à Mistral-7B-v0.3 et Llama 3 8B, et la performance moyenne sur 53 tâches de compréhension du langage naturel est également comparable à Mistral-7B-v0.3 et Llama 3 8B, tandis que le le montant de calcul requis n’est que de 1/6 de Llama 3 8B.Voici les résultats d'évaluation du DCLM-7B sur diverses tâches (pièces) :
Les résultats de comparaison du DCLM-7B avec d'autres modèles de même taille sont présentés dans le tableau ci-dessous :
Remarquable Oui, la plupart des autres modèles ont des poids ouverts mais des données fermées. C'est pourquoi Vaishaal Shankar décrit le modèle DCLM comme « véritablement open source ».
Lien de référence : https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!