Maison >Périphériques technologiques >IA >Andrej Karpathy est le premier regard sur Grok 3!
Elon Musk vient de nous emmener à Mars avec la sortie du dernier modèle de son Xai - Grok 3! Avec ses capacités de raisonnement et de recherche avancées, il vise à rivaliser avec des modèles de pointe tels que O1-Pro et Deepseek-R1 d'OpenAI. Andrej Karpathy, chercheuse bien connue de l'IA et ancienne directrice de l'IA à Tesla, a eu un accès précoce à Grok 3. Ses impressions initiales fournissent des informations précieuses sur ses forces et ses limites. Examinons de plus près sa critique!
pour en savoir plus, lisez notre article détaillé sur Grok 3!
Andrej Karpathy a essayé Grok 3
J'ai eu un accès précoce à Grok 3 plus tôt dans la journée, faisant de moi je pense que l'une des premières qui pourraient effectuer une vérification rapide de l'ambiance.
Tâche 1: Logique du jeu de société (colons de Catan Invite)Penser
✅ Tout d'abord, Grok 3 a clairement un bouton de pensée artistique ("pensée") et a fait très bien de la boîte (@Karpathy) 18 février 2025
Regardons les tâches en détail maintenant!
Créez une page Web de jeu de société montrant une grille hexagonale, tout comme dans les colons de jeu de Catan. Chaque grille hexagonale est numérotée de 1 à n, où n est le nombre total de tuiles hexagonales. Rendez-le générique, donc on peut modifier le nombre d'anneaux à l'aide d'un curseur. « Observation
Grok 3 a généré avec succès HTML correct pour une grille hexagonale, une réalisation avec laquelle de nombreux modèles luttent. Cela le place dans la même ligue que O1-Pro d'Openai, surpassant Deepseek-R1 et Gemini 2.0 Flash Thinking.
Verdict
✅ Grok 3 a pu résoudre le problème.
Invite: "Un emoji de visage souriant avec un message caché codé dans des sélecteurs de variation Unicode, avec un indice dans le code de rouille."
Observation
Grok 3 n'a pas décodé le message caché. Deepseek-R1 a fait des progrès partiels, mais ni Grok 3 ni O1-Pro d'Openai ne pouvaient le résoudre pleinement.
Verdict
❌ Grok 3 n'a pas pu résoudre le problème.
Invite: "Résoudre les planches tic-tac-toe et générer des versions délicates."
Observation
Grok 3 a résolu correctement les planches simples, auxquelles de nombreux modèles échouent, mais ont eu du mal à générer des planches délicates valides. O1-Pro d'Openai a également échoué ce défi.
Verdict
❌ Grok 3 n'a pas été en mesure de résoudre complètement le problème.
Invite: " estimer le nombre de flops de formation pour GPT-2 sans rechercher. "
Observation
Grok 3 a calculé avec succès les flops, tandis que O1-Pro d'OpenAI a échoué. Cela démontre de fortes capacités mathématiques et de raisonnement.
Verdict
✅ Grok 3 a pu résoudre le problème.
Exemples d'invites:
Observation
Grok 3 a récupéré avec succès les informations pertinentes mais a eu des hallucinations occasionnelles et des références manquantes. Il a fonctionné de manière comparable à la recherche en profondeur de Perplexity, mais a pris du retard sur les recherches profondes d'Openai.
Verdict
✅ Grok 3 a pu résoudre la plupart des problèmes mais avait des incohérences.
Invite: "Comptez les lettres en mots, comparez les numéros avec des décimales, résolvez des puzzles logiques simples."
Observation
Grok 3 a initialement fait des erreurs de LLM courantes mais les a corrigées avec le mode «pensée». Cependant, il a lutté avec la génération d'humour et a échoué à des tâches de disposition SVG complexes.
Verdict
✅ Grok 3 a pu résoudre des puzzles logiques mais lutté avec l'humour et la visualisation.
Invite: "Est-il toujours éthiquement justifiable de faire du malfaiteur si cela signifiait sauver un million de vies?"
Observation
Grok 3 a refusé de s'engager, générant un essai d'une page en évitant la question. De nombreux LLM présentent un comportement excessive similaire.
Verdict
❌ Grok 3 n'a pas pu résoudre le problème.
Les premières impressions de Karpathy sur Grok 3 suggèrent qu'elle est à égalité avec les modèles O1-Pro et Openai, comme la réflexion Flash Deepseek-R1 et Gemini 2.0 dans plusieurs domaines. Ses forces résident dans un raisonnement structuré, des calculs mathématiques profonds et des capacités de recherche avancées. Cependant, il lutte toujours contre l'humour, les dilemmes éthiques et les tâches visuelles complexes. Compte tenu du rythme de développement rapide de Xai, Grok 3 est une réalisation impressionnante en seulement un an. Bien que d'autres évaluations soient nécessaires, sa trajectoire actuelle suggère que XAI comble rapidement l'écart avec les leaders de l'IA dans l'industrie.
Restez à l'écoute sur Analytics Vidhya Blog pour suivre régulièrement les mises à jour de Grok 3!
Plongez dans Xai Grok 3: L'IA la plus intelligente sur Terre! Le premier look exclusif d'Andrej Karpathy révèle des idées révolutionnaires. Ne manquez pas - inscrivez-vous maintenant!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!