Maison  >  Article  >  Périphériques technologiques  >  Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

王林
王林avant
2024-04-15 16:01:01848parcourir

Le modèle multimodal de première génération de Musk, Grok-1.5V, est enfin là !

Grok 1.5V, prétend pouvoir connecter le monde numérique et le monde physique.

En plus des fonctions de texte, il peut également gérer diverses informations visuelles telles que des documents, des icônes, des captures d'écran et des photos.

Bientôt, Grok 1.5V sera disponible pour tous les premiers testeurs et tous les utilisateurs de Grok.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Jim Fan, scientifique principal chez NVIDIA, a découvert le « plus grand point fort » du Grok-1.5V : à son avis, la chose la plus intéressante à propos du Grok-1.5V est son potentiel à résoudre les cas extrêmes de conduite autonome .

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

En utilisant la « chaîne de réflexion », il peut aider la voiture à résoudre des scénarios complexes, à raisonner avec des règles et des contrefactuels, et à expliquer ses décisions. Grok-1.5V peut améliorer la perception au niveau du pixel, favorisant ainsi le fonctionnement. mappage en tant que Pixel-> Action.

Ainsi, Tesla FSD V13 est susceptible de comprendre le jeton de langage !

L'avantage de Tesla est qu'elle dispose d'une ligne de gestion de données très mature, il n'est donc pas difficile d'étiqueter un grand nombre de cas extrêmes avec des traces d'interprétation humaine de haute qualité. Dans le raisonnement FSD multimodal, le réglage fin des performances de Grok sera probablement bien meilleur que celui de GPT-4V et Gemini.

Vous pourriez vous demander, le LINGO-1 de Wayve n'avait-il pas des idées similaires auparavant ? Mais n’oubliez pas que Tesla fait tourner un volant de données sans précédent, bien plus grand qu’auparavant.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Musk est également apparu dans la zone de message au bon moment, expliquant plus en détail :

Il existe deux sources de données qui peuvent être étendues à l'infini : les données synthétiques et la vidéo du monde réel. Il y a une question d’authenticité dans le premier cas, mais pas dans le second.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Certains internautes ont dit, bien les gars, cela semble être la voie la plus réalisable vers l'AGI ! Modèles multimodaux avec raisonnement linguistique explicite pour déduire de manière cohérente des modèles mondiaux.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Capacités du modèle

Sur le site officiel de xAI, Grok-1.5V est présenté comme ceci.

Il peut rivaliser avec les meilleurs modèles multimodaux tels que GPT-4V, Claude 3 Sonnet, Claude 3 Opus, etc.

Qu'il s'agisse de raisonnement multidisciplinaire, ou de compréhension de documents, de diagrammes scientifiques, de tableaux, de captures d'écran et de photos, Grok-1.5V peut rivaliser avec eux.

Ce qui est particulièrement surprenant, c'est sa capacité exceptionnelle à comprendre le monde physique.

Dans le test de référence RealWorldQA, sans invites de chaîne de pensée et paramètres d'échantillonnage nul, Grok a été évalué avec l'ensemble de données suivant. On peut voir que Grok a mieux fonctionné que des modèles similaires.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Les 7 exemples représentatifs suivants illustrent les bonnes performances du Grok 1,5V dans différents scénarios.

1. Écrivez du code basé sur le graphique

La figure suivante montre l'organigramme d'un simple jeu de devinettes. Grok peut utiliser du code python pour implémenter le processus en fonction du contenu spécifique de l'organigramme.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Utilisateur :

Pouvez-vous le traduire en code Python ?

Grok :

Bien sûr ! Cet organigramme représente un jeu de devinettes simple dans lequel l'ordinateur génère un nombre aléatoire et l'utilisateur doit deviner de quoi il s'agit. Voici le code Python qui représente la logique dans l'organigramme :

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()

Ce code exécutera le jeu de devinettes décrit dans l'organigramme. L'utilisateur est invité à saisir le numéro deviné jusqu'à ce qu'il devine le numéro correct.

2. Calculer les calories

Selon la liste des ingrédients nutritionnels de l'aliment, Grok peut savoir que l'aliment contient 3 morceaux par portion et contient 60 calories. nourriture Le nombre total de calories est de 100.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Utilisateur :

Combien de calories y a-t-il dans 5 comprimés ?

Grok :

Si une portion contient 3 tranches et que les calories totales sont de 60 calories, alors 5 tranches contiennent environ 100 calories.

Tout d'abord, déterminez les calories par tranche : 60 calories ÷ 3 tranches = 20 calories/tranche.

Ensuite, multipliez les calories par tranche par le nombre de tranches : 20 calories x 5 tranches = 100 calories.

3. De la peinture à l'histoire du coucher

Grok peut raconter une courte histoire au coucher basée sur le contenu de la peinture.

Par exemple, le doodle suivant :

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Utilisateur :

C'est ce que mon fils a dessiné Pouvez-vous raconter une histoire au coucher basée sur son dessin ?

Grok :

Il y a longtemps, dans un pays plein d'aventures et d'émerveillements, vivait un courageux petit garçon nommé Timmy. Il vit dans une cabane chaleureuse avec sa famille et n'aime rien de plus que d'explorer le monde qui l'entoure.

Par une journée ensoleillée, Timmy a décidé d'explorer la forêt voisine. Il emmène ses collations préférées, une boussole et son fidèle carnet pour noter toutes les choses étonnantes qu'il s'apprête à voir.

Après s'être enfoncé dans la forêt, Timmy a découvert une rivière magique qui scintillait au soleil. Le charmant paysage de la rivière l'a incité à décider de fabriquer un petit bateau en papier et de le placer sur l'eau en guise de salutation spéciale aux esprits de la forêt.

Timmy a soigneusement plié le bateau en papier et a dessiné dessus un visage souriant, exprimant son amour et sa bénédiction pour les elfes de la forêt. Puis il plaça doucement le bateau en papier dans la rivière et le regarda dériver avec l'eau.

Au coucher du soleil, Timmy savait qu'il était temps de rentrer chez lui. Il repensa à sa journée dans la forêt, sachant que ce merveilleux souvenir resterait avec lui pour toujours.

Lorsqu'il est rentré à la maison, Timmy a raconté son aventure à sa famille. La famille était très heureuse après avoir entendu cela et pensait qu'il vivrait des aventures plus excitantes à l'avenir.

Alors, le cœur plein d'amour et de rêves, Timmy s'est lentement endormi, impatient d'explorer de nouvelles aventures dans son monde imaginaire.

4. Comprendre le mème

Le mème suivant montre une start-up à gauche et une grande entreprise à droite. Qu'est-ce que cela signifie ?

L'éditeur ne l'a pas compris au premier coup d'œil. Après avoir lu l’explication de Grok, cela m’est soudain venu à l’esprit.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Utilisateur :

Je ne comprends pas très bien cette image, veuillez l'expliquer.

Grok :

这幅图幽默地展示了初创企业和大公司在工作方式上的差异。

在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。

而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。

这幅图的幽默之处在于夸大了两种组织形态的不同。

初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。

5. 将表格转换为CSV

Grok可以将表格内容转换成CSV格式。

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

用户:

请将这个表转换为CSV格式。

Grok:

图像中的表格可以转换成CSV格式,如下所示:

medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。

6. 地板上的腐烂木头,都能给出建议

地板上的木材腐烂了怎么办?

照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

用户:

我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?

Grok:

这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。

为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。

如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。

7. 解决编码问题

编码问题,Grok-1.5V也是不在话下。

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

用户:

你能写出解决这个问题的Python代码吗?

Grok:

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left 

Compréhension du monde réel

Développer des assistants d'IA utiles du monde réel qui améliorent la compréhension des modèles du monde physique est crucial.

Pour atteindre cet objectif, l'équipe de recherche a également lancé un nouveau benchmark - RealWorldQA.

Ce benchmark peut être utilisé pour évaluer la capacité des modèles multimodaux à comprendre les espaces de base du monde réel.

Bien que de nombreux exemples des benchmarks actuels soient relativement faciles à comprendre pour les humains, ils restent un défi pour les modèles de pointe.

La version initiale de RealWorldQA contient plus de 700 images, chacune avec une question et une réponse facile à vérifier.

Par exemple, si on lui demande : quel objet est le plus gros, le coupe-pizza ou les ciseaux sur la photo ?

La réponse donnée par Grok est : ils ont à peu près la même taille.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Où puis-je aller depuis la voie actuelle ? A. Tournez à gauche B. Allez tout droit C. Tournez à gauche et allez tout droit D. Tournez à droite

Grok choisira A.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

À en juger par la caméra devant la voiture, y a-t-il suffisamment d'espace pour contourner la voiture grise devant ?

La réponse de Grok est : oui.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

D'après cette image, dans quelle direction le dinosaure fait-il face ?

Grok a répondu : Est.

Le nouveau travail de Musk ! Sortie choc du modèle multimodal Grok-1,5V : intégration parfaite des mondes numérique et physique

Cet ensemble de données comprend des images anonymisées prises à partir de véhicules en plus d'autres images du monde réel.

L'équipe de recherche a rendu cet ensemble de données open source et espère continuer à élargir l'ensemble de données à mesure que le modèle multimodal s'améliore.

Enfin, le site officiel de xAI a conclu qu'en améliorant la compréhension multimodale et les capacités de génération, ils approcheront progressivement la construction d'AGI bénéfiques capables de comprendre l'univers.

Au cours des prochains mois, on estime que nous verrons également des améliorations majeures de ces deux capacités en image, audio, vidéo et autres modes multimodaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer