Maison >Périphériques technologiques >IA >Qu'est-ce que Google Gemini? Tout ce que vous devez savoir sur le rival de Google de Google
Google a récemment publié son nouveau modèle d'IA génératif, Gemini. Il résulte d'un effort de collaboration par une gamme d'équipes de Google, y compris des membres de Google Research.
Le modèle, que Google appelle l’IA la plus capable et le plus à usage général qu’ils ont développé jusqu'à présent, a été conçu pour être multimodal. Cela signifie que Gemini peut comprendre divers types de données tels que le texte, l'audio, les images, la vidéo et le code.
Pour le reste de cet article, nous allons couvrir:
Le 6 décembre 2023, Google Deepmind a annoncé Gemini 1.0. À la sortie, Google l'a décrit comme leur ensemble le plus avancé de modèles de grands langues (LLMS), remplaçant ainsi le modèle de Langauge Pathways (Palm 2), qui a fait ses débuts en mai de la même année.
Gemini définit une famille de LLM multimodales capables de comprendre les textes, les images, les vidéos et l'audio. Il est également capable d'effectuer des tâches complexes en mathématiques et en physique, tout en étant capable de générer du code de haute qualité dans plusieurs langages de programmation.
Fait amusant: Sergey Brin, le co-fondateur de Google, est crédité comme l'un des contributeurs du modèle Gemini.
Jusqu'à récemment, la procédure standard pour développer des modèles multimodaux consistait à former des composants individuels pour diverses modalités, puis à les assembler pour imiter une partie de la fonctionnalité. De tels modèles excellent occasionnellement à effectuer certaines tâches, comme décrire les images, mais elles ont des problèmes avec un raisonnement plus sophistiqué et complexe.
Gemini a été conçu pour être multimodal nativement; Ainsi, il a été formé sur plusieurs modalités depuis le début. Pour affiner davantage son efficacité, Google l'a affinée avec des données multimodales supplémentaires.
Par conséquent, les Gémeaux sont beaucoup plus capables que les modèles multimodaux existants dans la compréhension et le raisonnement sur un large éventail d'intrants de zéro, selon Sundar Pichai, PDG de Google et Alphabet, et Demis Hassabis, PDG et co-fond de Google DeepMind. Ils déclarent également que les capacités des Gémeaux sont «l'état de l'art dans presque tous les domaines».
Les caractéristiques clés du modèle Gemini comprennent:
L'IA multimodale est un nouveau paradigme d'IA gagnant du terrain dans lequel différents types de données sont fusionnés avec plusieurs algorithmes pour obtenir des performances plus élevées. Gemini exploite ce paradigme, ce qui signifie qu'il s'intègre bien à divers types de données. Vous pouvez saisir des images, des audio, du texte et d'autres types de données, résultant en des interactions IA plus naturelles.
Gemini exploite les puces TPUV5 de Google, ce qui la rendait ainsi cinq fois plus forte que GPT-4. Un traitement plus rapide rend les Gémeaux capables de s'attaquer aux tâches complexes relativement facilement et à gérer plusieurs demandes simultanément.
Gemini a été formé sur un énorme ensemble de données de texte et de code. Cela garantit que le modèle peut accéder aux informations les plus à jour et fournir des réponses précises et fiables à vos requêtes. Selon Google, le modèle surpasse les humains du GPT-4 et du «niveau expert» d'OpenAI dans divers tests d'intelligence (par exemple, Benchmark MMLU).
Gemini 1.0 peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus utilisés, tels que Python, Java, C et GO - cela en fait l'un des principaux modèles de base pour le codage mondial.
Le modèle excelle également dans plusieurs repères de codage, notamment Humaneval, une norme de l'industrie très considérée pour évaluer les performances sur les tâches de codage; Il a également bien fonctionné sur l'ensemble de données interne et détenu de Google, qui exploite le code généré par l'auteur au lieu des informations du Web.
De nouvelles protections ont été ajoutées aux principes et politiques de l'IA de Google pour tenir compte des capacités multimodales de Gemini. Google dit: "Gemini a les évaluations de sécurité les plus complètes de tout modèle Google IA à ce jour, y compris pour les biais et la toxicité." Ils ont également déclaré qu'ils avaient "effectué de nouvelles recherches sur des domaines de risque potentiels tels que la cyber-oblichance, la persuasion et l'autonomie, et ont appliqué les meilleures techniques de tests adversaires de Google Research pour aider à identifier les problèmes de sécurité critiques avant le déploiement des Gémeaux."
Google dit que Gemini, le successeur de Lamda et Palm 2, est leur «modèle le plus flexible à ce jour - capable d'exécuter efficacement sur tout, des centres de données aux appareils mobiles». Ils croient également que les capacités de pointe des Gémeaux amélioreront la façon dont les développeurs et les clients commerciaux construisent et évoluent avec l'IA.
La première version de Gemini, sans surprise nommée Gemini 1.0, a été publiée en trois tailles différentes:
Remarque Google AI Studio est un IDE basé sur un navigateur disponible librement que les développeurs peuvent utiliser pour prototyper les modèles génératifs et lancer facilement des applications à l'aide d'une clé API. Google Cloud Vertex, en revanche, est une plate-forme AI entièrement gérée qui propose tous les outils nécessaires pour créer et utiliser une IA générative. Selon Google, "Vertex AI permet la personnalisation des Gémeaux avec le contrôle complet des données et les avantages des fonctionnalités supplémentaires de Google Cloud pour la sécurité, la sécurité, la confidentialité et la gouvernance des données."
via AICORE, une nouvelle fonctionnalité système avec Android 14, les développeurs Android, à partir des appareils Pixel 8 Pro, peuvent construire avec Gemini Nano, le modèle le plus efficace pour les tâches à disque.
Benchmarks Gemini exploré
Dans un article de blog d'introduction aux Gémeaux, Google affirme que Gemini Ultra est le tout premier modèle à surpasser les experts humains sur une compréhension massive du langage multitâche (MMLU) avec un score de 90,0%. Notez que MMLU intègre 57 matières différentes, y compris les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique, pour évaluer sa capacité à résoudre les problèmes et une compréhension générale du monde.
La nouvelle méthode de référence MMLU à MMLU permet aux Gemini de faire des améliorations significatives au lieu de simplement tirer parti de ses premières impressions en utilisant son pouvoir de raisonnement pour délibérer plus en détail avant de répondre à des questions difficiles.
Voici comment Gemini a fonctionné sur les tâches de texte:
Les résultats révèlent que Gemini dépasse les performances de pointe sur un large éventail de repères, y compris le texte et le codage. [Source]
Le modèle Gemini Ultra a également réalisé de la pointe de la nouvelle art de la nouvelle compréhension multimodale (MMMU) massive avec un score de 59,4%. Cette évaluation se compose de tâches multimodales dans divers domaines nécessitant un raisonnement délibéré.
Google a déclaré, "Avec les repères d'image que nous avons testés, Gemini Ultra a surpassé les modèles antérieurs de pointe sans assistance de systèmes de reconnaissance de caractères optiques (OCR) qui extraient du texte des images pour un traitement ultérieur."
Les résultats révèlent que les Gémeaux dépassent également les performances de pointe sur une large gamme de repères multimodaux. [Source]
Les repères définis par les Gémeaux démontrent la multimodalité innée du modèle et montrent des preuves précoces de sa capacité à un raisonnement plus sophistiqué.
La question évidente qui se pose généralement ensuite est: «Comment les Gémeaux se comparent-ils à GPT-4?»
Les deux modèles ont des ensembles de fonctionnalités similaires et peuvent interagir et interpréter des données de texte, d'image, de vidéo, d'audio et de code, permettant aux utilisateurs de les appliquer à diverses tâches.
Les utilisateurs des deux outils ont la possibilité de vérifier les faits, mais la façon dont ils procèdent à la fourniture de cette fonctionnalité est différente. Lorsque le GPT-4 d'OpenAI fournit des liens source pour les affirmations qu'il fait, Gemini permet aux utilisateurs d'effectuer une recherche Google pour confirmer la réponse en cliquant sur un bouton.
Il est également possible d'augmenter les deux modèles avec des extensions supplémentaires, bien que, au moment de la rédaction, le modèle Gemini de Google soit beaucoup plus limité.
Par exemple, il est possible d'utiliser des outils Google tels que les vols, les cartes, YouTube et leur gamme d'applications d'espace de travail avec Gemini. En revanche, il existe une sélection beaucoup plus grande de plug-ins et d'extensions disponibles pour le GPT-4 d'OpenAI, dont la plupart sont créés par des tiers. La création d'images à la volée est également possible avec GPT-4; Les Gémeaux sont conçus pour être capables de telles fonctionnalités, mais, au moment de la rédaction, il ne peut pas.
En revanche, les temps de réponse des Gémeaux sont plus rapides que celui de GPT-4, qui peut parfois être ralenti ou entièrement interrompu en raison du volume des utilisateurs sur la plate-forme.
Les modèles Gemini de Google peuvent effectuer diverses tâches sur plusieurs modalités, telles que la compréhension du texte, de l'audio, de l'image et de la vidéo.
combiner différentes modalités pour comprendre et générer une sortie est également possible en raison de la nature multimodale des Gémeaux.
Des exemples de cas d'utilisation pour les Gémeaux comprennent:
Les modèles Gemini peuvent résumer le contenu à partir de divers types de données. Selon un document de recherche intitulé Gemini: contrôler le style de résumé au niveau de la phrase en résumé de texte abstrait, le modèle Gemini «intègre respectivement les réécritures et un générateur pour imiter les techniques de réécriture et de résumé, respectivement.»
à savoir, Gemini sélectionne de manière adaptative s'il faut réécrire une phrase de document spécifique ou générer une phrase sommaire entièrement à partir de zéro. Les résultats des expériences ont révélé que l'approche utilisée par les Gémeaux a surpassé les bases abstractifs et réécrites pures sur trois ensembles de données de référence, obtenant les meilleurs résultats sur WikiHow.
GEMINI peut générer une entrée de texte en réponse à une invite utilisateur - ce texte peut également être conduit par une interface de chatbot de style Q&A. Ainsi, les Gémeaux peuvent être déployés pour gérer les demandes des clients et offrir de l'aide de manière naturelle mais engageante, ce qui peut libérer les responsabilités des agents humains de s'appliquer davantage aux tâches complexes et d'améliorer la satisfaction des clients.
Il peut également être utilisé pour l'écriture créative, tel que la co-autorisation d'un roman, l'écriture de poésie dans divers styles ou la génération de scripts pour les films et les pièces de théâtre. Cela peut augmenter considérablement la productivité des écrivains créatifs et réduire la tension causée par le bloc de l'écrivain.
Avec leurs larges capacités multilingues, les modèles Gemini peuvent comprendre et traduire sur 100 langues différentes. Selon Google, Gemini dépasse les performances de pointe de GPT-4V «sur une gamme de références multimodales», telles que la reconnaissance vocale automatique (ASR) et la traduction automatique de la parole.
Gemini peut comprendre et interpréter des images, ce qui le rend adapté au sous-titrage d'image et aux cas d'utilisation visuels. Le modèle peut également analyser les visuels complexes, y compris les diagrammes, les figures et les graphiques, sans nécessiter d'outils OCR externes.
Les développeurs peuvent utiliser des Gemini pour résoudre des tâches de codage complexes et déboguer leur code. Le modèle est capable de comprendre, d'expliquer et de générer dans les langages de programmation les plus utilisés, tels que Python, Java, C et Go.
Le nouvel ensemble de modèles (LLM) de LLMS (LLMS) de Google, Gemini, est le successeur de Lamda et Palm 2. Ils le décrivent comme leur ensemble de LLMS le plus avancé capable de comprendre les textes, les images, les vidéos, l'audio et les tâches complexes comme les mathématiques et la physique. Les Gémeaux sont également capables de générer du code de haute qualité dans bon nombre des langages de programmation les plus populaires.
Le modèle a atteint la capacité de pointe dans diverses tâches, et beaucoup chez Google, croient qu'elle représente un bond en avant dans la façon dont l'IA peut aider à améliorer notre vie quotidienne.
Continuez votre apprentissage avec les ressources suivantes:
Et avant de partir, n'oubliez pas de vous abonner à notre chaîne YouTube. Nous avons un excellent contenu pour tous les sujets les plus pertinents et les plus tendances, y compris un tutoriel sur la façon de créer des applications multimodales avec des Gémeaux, alors jetez un œil.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!