Maison >Périphériques technologiques >IA >Grok 3 en action: développement de jeux, raisonnement et plus
Au cours de la phase d'accès précoce du GROK-3 de XAI, les amateurs de l'IA, les développeurs et les chercheurs n'ont pas perdu de temps à repousser ses limites et à explorer ses capacités. Du développement du jeu aux tests de raisonnement, les premières impressions suggèrent que Grok-3 est un concurrent sérieux dans l'espace de l'IA, rivalisant avec les modèles de premier niveau d'Openai, Deepseek-R1, et les Gémeaux de Google.
Mais qu'est-ce qui rend Grok différent des autres modèles d'IA? Et pourquoi at-il tant attirer l'attention?
, cette vision devient maintenant une réalité.
Les origines de Grok: d'Openai à Xai Pour comprendre pourquoi Grok existe, nous devons revenir sur les premiers jours d'Openai. Peu de gens réalisent qu'Openai a été initialement façonné par Elon Musk, qui était l'un de ses co-fondateurs aux côtés de Sam Altman, Greg Brockman et d'autres.
Cependant, alors qu'OpenAI est passé à une entreprise à but lucratif à but lucratif, Musk était en désaccord avec ce changement et s'est séparé de l'organisation.
Avec ces incroyables percées, Grok-3 est maintenant devenu l'un des modèles d'IA les plus puissants jamais créés.
De nombreux modèles d'IA existants - tels que Chatgpt et Claude - sont souvent critiqués pour être «réveillés» ou trop politiquement corrects. Certains soutiennent que leurs biais intégrés peuvent conduire à des conclusions dangereuses ou trompeuses.
La vision d'Elon Musk pour Grok est différente.
Cette approche non filtrée et basée sur la réalité pourrait distinguer Grok en tant que changeur de jeu en éthique de l'IA et en diffusion de l'information.
Voyons ce que les experts disent:
Grok 3 vient d'être libéré. Vous ne le croirez pas, j'ai déjà créé un jeu.
— Penny2x (@ Impenny2x) 18 février 2025
(J'ai eu un accès anticipé ce matin).
Ce jeu a été créé à 100% par Grok, je viens de lui dire ce que je voulais et j'ai mis le code au bon endroit.
Je continue de demander des ajustements, et il continue de cracher… pic.twitter.com/bmtie3u4kf
"Je viens de lui dire ce que je voulais, et il a construit le jeu."
L'un des cas d'utilisation précoce les plus révélateurs provient de Penny2x, qui a construit un jeu entier à partir de zéro en utilisant uniquement Grok-3 dans les heures suivant l'accès.
«Ce jeu a été créé à 100% par Grok. Je viens de lui dire ce que je voulais et de mettre le code au bon endroit. Je continue de demander des ajustements, et il continue de cracher le jeu dans un seul fichier que je peux exécuter. »
C'est énorme pour les développeurs. Le code de jeu généré par l'IA n'est pas nouveau, mais le fait que Grok-3 le fasse si parfaitement, sans intégration d'API, et se sent à égalité avec des modèles comme GPT-4O et SONET est remarquable. Si Grok-3 peut mieux s'intégrer dans les flux de travail des développeurs, cela pourrait changer la façon dont les développeurs et les studios indépendants créent des jeux.
Il s'agit d'une étape excitante. Les ajustements en temps réel de GROK-3 et la capacité de générer du code de jeu coulant peuvent signifier un prototypage plus rapide pour les développeurs. Si XAI optimise son API pour une utilisation en production, nous pourrions voir un changement majeur dans le développement de jeux assisté par l'IA.
"VIBE CHECK" d'Andrej Karpathy: Grok-3 peut-il penser?J'ai eu un accès précoce à Grok 3 plus tôt dans la journée, faisant de moi je pense que l'une des premières qui pourraient effectuer une vérification rapide de l'ambiance.
Penser
✅ Tout d'abord, Grok 3 a clairement un bouton de pensée artistique ("pensée") et a fait très bien de la boîte (@Karpathy) 18 février 2025
"Grok 3 a clairement un modèle de pensée de pointe (bouton" Pensez "), et a fait très bien de la boîte sur la question de mon colon de Catan. Peu de modèles obtiennent ce droit de manière fiable. Les meilleurs modèles OpenAI (O1-Pro, 200 $ / mois) le font, mais Deepseek-R1, Gemini 2.0 Flash Thinking, et Claude ne le font pas. »
Il a également testé des énigmes logiques, une génération de planches TIC-TAC-TOE et des estimations mathématiques (comme le calcul des flops d'entraînement de GPT-2). Dans les tâches nécessitant un raisonnement approfondi, Grok-3 a surpassé GPT-4O et O1-Pro, qui ont échoué la tâche d'estimation même avec leurs propres caractéristiques de raisonnement.
"L'impression que j'ai obtenue est que Grok-3 est quelque part autour de la capacité O1-Pro et en avance sur Deepseek-R1."
Cependant, Grok-3 n'est pas parfait. Il a lutté avec certaines tâches de génération de puzzle, les émoji codant pour les défis et présente encore des hallucinations occasionnelles dans la récupération de l'information.ma prise
Lisez également: le premier regard d'Andrej Karpathy sur Grok 3!
GROK-3 Vs autres modèles d'IA: comment est-il en train de s'accumuler?
Recherche profonde: AI pour la recherche et les requêtes du monde réel
Cependant, il a montré quelques faiblesses, comme les URL hallucinantes, en évitant X (Twitter) comme source, et des citations manquantes pour certaines affirmations.
Grok-3 successfully tackled:
✅ Estimating GPT-2’s training FLOPs (which GPT-4o & o1-pro failed!)
✅ Solving tic-tac-toe puzzles (which many SOTA models struggle avec!)
✅ Tenter de résoudre l'hypothèse Riemann , plutôt que d'abandonner carrément (contrairement à Gemini & Claude!)
Cependant, il a quand même fait des erreurs:
❌ Génération de jeux de plateau délicate (Configuration du complexe Tic-Toe échoué!)
❌ emoji Encodage de puzzle mystery (Deepseek-R1 a fait emoji. Mieux!)
❌ Comprendre l'humour (les blagues se sentent génériques, manquant d'esprit!)
GROK-3 semble être à égalité avec les meilleurs modèles d'Openai (O1-Pro, 200 $ / mois) tout en dépassant les Gémeaux et Deepseek-R1 dans certaines tâches de raisonnement. Cependant, il a encore besoin de raffinement dans l'humour, la précision de la recherche en temps réel et la génération de puzzle.
Yuchen JinGrok 3 pourrait être le meilleur LLM de base pour la physique du monde réel!
AI CHEARGER
Invite: "Écrivez un script python d'une balle rebondissant dans un mode Tesseract". Je suis très intéressé à essayer leurs modèles de raisonnement. pic.twitter.com/fv2rfebb4j
— Yuchen Jin (@yuchenj_uw) 18 février 2025
a testé Grok-3 sur défis de codage basés sur la physique et a été impressionné.
«Grok 3 pourrait être le meilleur LLM de base pour la physique du monde réel! Invite: «Écrivez un script python d'une balle rebondissant à l'intérieur d'un Tesseract. Je suis très intéressé à essayer leurs modèles de raisonnement. "ma prise
Grok-3 est-il réveillé?
- ⚡️Dezmond Oliver⚡️ (@dezmondoliver) 18 février 2025
Cela soulève une discussion intéressante sur le biais d'IA dans les modèles visuels. Alors que Grok-3 semble très avancé, les modèles d'IA ont toujours du mal avec les représentations de l'identité nuancés. Ce n'est pas unique à Grok - de nombreux systèmes d'IA, y compris MidJourney, Dall · E et diffusion stable, sont confrontés à des défis similaires dans une représentation impartiale.
✅ Le mode de raisonnement de pointe («Pensez» est en concurrence avec les meilleurs)
✅ EXCELS dans les puzzles logiques, la recherche profonde et la recherche en temps réel
✅ Le développement de jeux avec l'IA est maintenant plus fluide et plus rapide
✅ Le codage physique montre des résultats prometteurs
❌ Hallucine toujours les informations et génère de fausses URL
❌ Lux se débat avec l'humour et la créativité dans la génération de blagues
❌ La génération de jeux de puzzle et de jeu de société a besoin de travail
GROK-3 est également le tout premier modèle à dépasser un score de 1400, établissant une nouvelle référence pour les modèles de grande langue (LLM). Cependant, actuellement, il ne montre pas Grok-3 dans la Chabot Arena - version Web!
Lire aussi: Grok-3 (nom de code «chocolat») est maintenant n ° 1 dans Chatbot Arena
Les performances de Grok-3 sont indéniablement impressionnantes. En seulement un an, Xai a construit un modèle qui rivalise avec les LLM les plus forts d'Openai et surpasse Deepseek-R1 et Gemini dans le raisonnement.
Cependant, ce n'est pas parfait. Alors que le mode «pensée» améliore le raisonnement, il y a encore de la place à l'amélioration dans la vérification des faits, l'humour et les tâches créatives complexes.
Avec des raffinements dans la recherche en profondeur, l'intégration des développeurs et le raisonnement réel, Grok-3 a le potentiel d'être une IA révolutionnaire qui défie Openai et Google au sommet. Grok-3 est officiellement dans le jeu. Maintenant, voyons comment il évolue.
Faites-moi savoir vos réflexions sur Grok-3 dans la section des commentaires ci-dessous!
Déverrouiller l'avenir avec Xai Grok 3: L'IA la plus intelligente sur Terre! Plongez dans le développement de jeux, le raisonnement avancé et les tâches du monde réel. Inscrivez-vous maintenant et maîtrise l'innovation AI! »
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!