Maison >Périphériques technologiques >IA >Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur l'efficacité et l'économie !

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur l'efficacité et l'économie !

WBOY
WBOYoriginal
2024-06-29 00:59:211013parcourir

Gemma 2 avec deux fois plus de performances, comment jouer à Llama 3 avec le même niveau ?


Sur la piste de l'IA, les géants de la technologie rivalisent férocement. Le GPT-4o est sorti sur le pied avant, et le Claude 3.5 Sonnet est apparu sur le pied arrière. Dans une bataille aussi féroce, bien que Google ait lancé ses efforts tardivement, il a une capacité significative à donner suite dans un court laps de temps, ce qui montre son potentiel de développement technologique et d'innovation.

En plus du modèle Gemini, Gemma, une série de modèles ouverts SOTA légers, semble être plus proche de nous. Il s’appuie sur les mêmes recherches et technologies que le modèle Gemini et vise à donner à chacun les outils nécessaires pour construire l’IA. Google continue d'élargir la famille Gemma pour inclure CodeGemma, RecurrentGemma et PaliGemma : chaque modèle offre des fonctionnalités uniques pour différentes tâches d'IA et est facilement accessible via des partenaires tels que Hugging Face, NVIDIA et Ollama.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Maintenant, la famille Gemma accueille un nouveau membre - Gemma 2, poursuivant la tradition d'être court et concis. Les deux versions de paramètres 9 milliards (9B) et 27 milliards (27B) fournies par Gemma 2 ont cette fois de meilleures performances et efficacité d'inférence que la première génération, et présentent des améliorations de sécurité significatives. En fait, la version à 27 milliards de paramètres peut rivaliser au même niveau avec des modèles plus de deux fois plus grands et offrir des performances auparavant uniquement obtenues par des modèles propriétaires qui peuvent désormais être obtenues sur un seul GPU ou TPU NVIDIA H100 Tensor Core. hôte, réduisant ainsi considérablement les coûts de déploiement.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

L'équipe Google a construit Gemma 2 sur une architecture repensée, permettant à ce nouveau membre de la famille Gemma de fournir à la fois d'excellentes performances et des capacités d'inférence efficaces. Pour résumer brièvement, performances, coût, inférence sont ses caractéristiques exceptionnelles :

  • Excellentes performances : Le modèle Gemma 2 27B offre les meilleures performances dans sa catégorie de volume, rivalisant même avec des modèles plus de deux fois plus grands que ses concurrents. Le modèle 9B Gemma 2 a également obtenu de bons résultats dans sa catégorie de taille et a surpassé le Llama 3 8B et d'autres modèles ouverts comparables.
  • Haute efficacité, faible coût : le modèle 27B Gemma 2 est conçu pour exécuter efficacement des inférences avec une précision maximale sur un seul hôte Google Cloud TPU, un GPU NVIDIA A100 Tensor Core de 80 Go ou un GPU NVIDIA H100 Tensor Core, tout en conservant des performances élevées. Réduisez considérablement les coûts. Cela rend le déploiement de l’IA plus pratique et plus abordable.
  • Inférence ultra-rapide : Gemma 2 est optimisé pour fonctionner à des vitesses fulgurantes sur une variété de matériels, qu'il s'agisse d'un ordinateur portable de jeu puissant, d'un ordinateur de bureau haut de gamme ou d'une configuration basée sur le cloud. Les utilisateurs peuvent essayer d'exécuter Gemma 2 avec une précision totale sur Google AI Studio, ou utiliser une version quantifiée de Gemma.cpp sur le processeur pour débloquer les performances locales, ou l'essayer sur un ordinateur personnel en utilisant NVIDIA RTX ou GeForce RTX via Hugging Face Transformers.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Ce qui précède est la comparaison des données de score entre Gemma2, Llama3 et Grok-1.

En fait, à en juger par diverses données de score, les avantages du grand modèle open source 9B ne sont pas particulièrement évidents. Le grand modèle domestique GLM-4-9B, qui a été open source par Zhipu AI il y a près d'un mois, présente encore plus d'avantages.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

De plus, Gemma 2 est non seulement plus puissant, mais également conçu pour être plus facile à intégrer dans les flux de travail. Google offre aux développeurs davantage de possibilités pour créer et déployer plus facilement des solutions d'IA.

  • Ouvert et accessible : comme le modèle Gemma original, Gemma 2 permet aux développeurs et aux chercheurs de partager et de commercialiser des innovations.
  • Compatibilité étendue du framework : Gemma 2 est compatible avec les principaux frameworks d'IA tels que Hugging Face Transformers, ainsi que JAX, PyTorch et TensorFlow pris en charge nativement via Keras 3.0, vLLM, Gemma.cpp, Llama.cpp et Ollama, ce qui en fait Intégrez facilement les outils et flux de travail préférés des utilisateurs. De plus, Gemma a été optimisé avec NVIDIA TensorRT-LLM et peut fonctionner sur l'infrastructure accélérée NVIDIA ou en tant que microservice d'inférence NVIDIA NIM. Il sera également optimisé pour NeMo de NVIDIA à l'avenir et pourra être affiné à l'aide de Keras et Hugging Face. De plus, Google améliore activement ses capacités de réglage.
  • Déploiement facile : à partir du mois prochain, les clients Google Cloud pourront facilement déployer et gérer Gemma 2 sur Vertex AI.

Google propose également un nouveau Gemma Cookbook, une série d'exemples pratiques et de guides conçus pour aider les utilisateurs à créer leurs propres applications et à affiner les modèles Gemma 2 pour des tâches spécifiques.

Lien Gemma Cookbook : https://github.com/google-gemini/gemma-cookbook

Dans le même temps, Google a également fourni aux développeurs le produit officiel annoncé lors de la conférence I/O. Il y a quelque temps, les 2 millions d'accès aux fenêtres contextuelles de Gemini 1.5 Pro, les capacités d'exécution de code pour l'API Gemini et l'ajout de Gemma 2 dans Google AI Studio.

  • Dans le dernier blog, Google a annoncé avoir ouvert l'accès à la fenêtre contextuelle de 2 millions de jetons de Gemini 1.5 Pro à tous les développeurs. Cependant, à mesure que la fenêtre contextuelle augmente, le coût des intrants peut également augmenter. Afin d'aider les développeurs à réduire le coût de plusieurs tâches d'invite utilisant le même jeton, Google a judicieusement lancé la fonction de mise en cache contextuelle dans l'API Gemini pour Gemini 1.5 Pro et 1.5 Flash.
  • Pour résoudre le problème selon lequel les grands modèles de langage doivent générer et exécuter du code pour améliorer la précision lors du traitement des mathématiques ou du raisonnement des données, Google a activé l'exécution de code dans Gemini 1.5 Pro et 1.5 Flash. Lorsqu'il est activé, le modèle peut générer et exécuter dynamiquement du code Python et apprendre de manière itérative des résultats jusqu'à ce que le résultat final souhaité soit obtenu. Le sandbox d'exécution ne se connecte pas à Internet et est fourni en standard avec certaines bibliothèques numériques. Les développeurs doivent uniquement être facturés en fonction du jeton de sortie du modèle. C'est la première fois que Google introduit l'exécution de code comme étape de la fonctionnalité du modèle, disponible aujourd'hui via l'API Gemini et les paramètres avancés de Google AI Studio.
  • Google souhaite rendre l'IA accessible à tous les développeurs, qu'il s'agisse d'intégrer des modèles Gemini via des clés API ou d'utiliser le modèle ouvert Gemma 2. Pour aider les développeurs à mettre la main sur le modèle Gemma 2, l'équipe Google le rendra disponible pour expérimentation dans Google AI Studio.

Ce qui suit est le rapport d'expérience technique de Gemma2. Nous pouvons analyser les détails techniques en profondeur sous plusieurs angles.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

  • Adresse papier : https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
  • Adresse du blog : https://blog.google/ technology/developers/google-gemma-2/

Détails techniques

Semblable au modèle Gemma précédent, le modèle Gemma 2 est également basé sur une architecture de transformateur uniquement décodeur. Le tableau 1 résume les principaux paramètres et choix architecturaux du modèle.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Certains éléments structurels sont similaires à la première version du modèle Gemma, à savoir la longueur du contexte est de 8192 jetons, l'utilisation de l'intégration de position pivotée (RoPE) et la non-linéarité approximative de GeGLU. Gemma 1 et Gemma 2 présentent quelques différences, notamment l'utilisation de réseaux plus profonds. Les principales différences se résument ainsi :

  • Fenêtre coulissante locale et attention globale. L’équipe de recherche a utilisé en alternance l’attention locale par fenêtre glissante et l’attention globale dans toutes les autres couches. La taille de la fenêtre mobile de la couche d'attention locale est définie sur 4 096 jetons, tandis que la durée de la couche d'attention globale est définie sur 8 192 jetons.
  • Casquette souple Logit. Selon la méthode de Gemini 1.5, l'équipe de recherche limite le logit à chaque couche d'attention et à la couche finale afin que la valeur du logit reste entre −soft_cap et +soft_cap.
  • Pour les modèles 9B et 27B, l'équipe de recherche a fixé le plafond logarithmique d'attention à 50,0 et le plafond logarithmique final à 30,0. Au moment de la publication, le plafonnement logiciel de l'attention logit est incompatible avec les implémentations courantes de FlashAttention, ils ont donc supprimé cette fonctionnalité des bibliothèques qui utilisent FlashAttention. L'équipe de recherche a mené des expériences d'ablation sur la génération de modèles avec et sans capping doux du logit d'attention, et a constaté que la qualité de la génération n'était presque pas affectée dans la plupart des pré-formations et des post-évaluations. Toutes les évaluations présentées dans cet article utilisent l'architecture complète du modèle, y compris le plafonnement logiciel Attention Logit. Toutefois, certaines performances en aval peuvent encore être légèrement affectées par cette suppression.
  • Utilisez RMSNorm pour la post-norme et la pré-norme. Afin de stabiliser la formation, l’équipe de recherche a utilisé RMSNorm pour normaliser les entrées et sorties de chaque sous-couche de transformation, couche d’attention et couche de rétroaction.
  • Requérez l'attention en groupe. Les modèles 27B et 9B utilisent GQA, num_groups = 2, et les expériences basées sur l'ablation montrent une vitesse d'inférence améliorée tout en maintenant les performances en aval.

Google propose un bref aperçu de la partie pré-formation qui est différente de Gemma 1.

Ils ont entraîné Gemma 2 27B sur 13 000 milliards de jetons, principalement des données anglaises, ont entraîné le modèle 9B sur 8 000 milliards de jetons et ont entraîné le modèle 2,6B sur un train de 2 000 milliards de jetons. Ces jetons proviennent de diverses sources de données, notamment des documents Web, du code et des articles scientifiques. Le modèle n’est pas multimodal et n’est pas non plus spécifiquement conçu pour les capacités multilingues de pointe. Le mélange final de données est déterminé par une étude d'ablation similaire à Gemini 1.0.

L'équipe de recherche utilise TPUv4, TPUv5e et TPUv5p pour la formation des modèles. Les détails sont présentés dans le tableau 3 ci-dessous.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

En post-formation, Google affine le modèle pré-entraîné en un modèle adapté aux instructions.

  • Tout d'abord, appliquez un réglage fin supervisé (SFT) sur un mélange de texte brut, de synthèse anglaise pure et de paires invite-réponse générées artificiellement.
  • Ensuite, un apprentissage par renforcement basé sur le modèle de récompense (RLHF) est appliqué sur ces modèles. Le modèle de récompense est formé sur des données de préférence en anglais pur basées sur des jetons, et la stratégie utilise la même invite que l'étape SFT.
  • Enfin, améliorez les performances globales en faisant la moyenne des modèles obtenus à chaque étape. Les méthodes finales de mélange de données et de post-formation, y compris les hyperparamètres réglés, sont choisies en fonction de la minimisation des dangers du modèle liés à la sécurité et aux hallucinations tout en augmentant l'utilité du modèle.

Le réglage fin du modèle Gemma 2 utilise un mode de format différent du modèle Gemma 1. Google utilise le même jeton de contrôle que celui décrit dans le tableau 4, et un exemple de conversation est fourni dans le tableau 5.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Expériences et évaluation

Dans le tableau 6, on peut voir que l'affinage des résultats à partir d'un modèle plus grand améliore les performances par rapport à un entraînement à partir de zéro. Il convient de noter que 500 milliards de jetons représentent 10 fois le nombre optimal de jetons calculés pour le modèle 2,6 milliards. L'équipe de recherche a effectué une distillation à partir du modèle 7B pour maintenir un rapport similaire à celui de la distillation du modèle 27B vers le modèle 9B.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Dans le tableau 7, l'équipe Google mesure l'impact de la distillation à mesure que la taille du modèle augmente. On peut observer que ce gain persiste à mesure que la taille du modèle augmente. Dans cette expérience d'ablation, l'équipe de recherche a maintenu la taille du modèle d'enseignant à 7B et a formé des modèles plus petits pour simuler l'écart entre les tailles finales du modèle d'enseignant et d'élève.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

De plus, Google a pris en compte l'impact des changements de format d'invite/évaluation et a mesuré la variance des performances sur MMLU, comme le montre le tableau 11. Le modèle Gemma 2B est légèrement inférieur aux modèles plus grands en termes de robustesse de format. Il est à noter que le Mistral 7B est nettement inférieur aux modèles de la série Gemma en termes de robustesse.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

L'équipe de recherche a également évalué les performances du modèle 27B (non distillé) formé sur 13 000 milliards de jetons et l'a comparé au modèle Qwen1.5 34B de taille similaire et au LLaMA-3 70B 2,5 fois plus grand. des modèles de la suite d'évaluation HuggingFace ont été comparés et les résultats de l'évaluation sont répertoriés dans le tableau 12. Les modèles ont été sélectionnés en fonction de leur classement dans le classement HuggingFace. Dans l’ensemble, le modèle Gemma-2 27B est plus performant dans sa catégorie de taille et peut même rivaliser avec des modèles plus grands qui prennent plus de temps à s’entraîner.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Les modèles de réglage fin des instructions Gemma-2 27B et 9B ont été évalués aveuglément dans Chatbot Arena par des évaluateurs humains par rapport à d'autres modèles SOTA. L’équipe de recherche rapporte les scores ELO dans la figure 1.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

De plus, l'équipe de recherche a évalué les capacités de dialogue multi-tours des modèles Gemma 1.1 7B, Gemma 2 9B et 27B en demandant à des évaluateurs humains de parler aux modèles et de suivre des scénarios de test spécifiés.

Google utilise un ensemble diversifié de 500 scénarios, chacun décrivant une série de demandes pour le modèle, notamment le brainstorming, l'élaboration d'un plan ou l'apprentissage de quelque chose de nouveau. Le nombre moyen d’interactions utilisateur est de 8,4. Il a finalement été constaté que par rapport à Gemma 1.1, les utilisateurs ont évalué la satisfaction du dialogue et le taux de réalisation des objectifs de dialogue du modèle Gemma 2 comme étant significativement plus élevés (voir tableau 15). De plus, le modèle Gemma 2 est mieux à même de maintenir des réponses de haute qualité que le modèle Gemma 1.1 7B du début de la conversation aux tours suivants.

Le « travail sincère » de Google, versions open source 9B et 27B de Gemma2, axées sur lefficacité et léconomie !

Pour plus de détails, veuillez lire l'article original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn