recherche
MaisonPériphériques technologiquesIAPassionnant! Une étude préliminaire du GPT-4V en conduite autonome

Mise à jour : ajout d'un nouvel exemple, un véhicule de livraison autonome entrant dans le sol en ciment de Xinpu

Sous beaucoup d'attention, GPT4 a finalement lancé aujourd'hui des fonctions liées à la vision. Cet après-midi, j'ai rapidement testé les capacités de perception d'images de GPT avec mes amis. Même si nous avions des attentes, nous avons quand même été très choqués. TL;DR est Je pense que les problèmes sémantiques liés à la conduite autonome auraient dû être très bien résolus par les grands modèles, mais la crédibilité et les capacités de perception spatiale des grands modèles ne sont toujours pas satisfaisantes. Cela devrait être plus que suffisant pour résoudre certains cas dits difficiles liés à l'efficacité, mais il est encore très loin de s'appuyer entièrement sur de gros modèles pour mener à bien la conduite de manière autonome et assurer la sécurité.

1 Exemple 1 : Des obstacles inconnus sont apparus sur la route

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Description GPT4

Pièce précise : 3 camions ont été détectés et le numéro de plaque d'immatriculation du camion avant était fondamentalement correct (ignoré s'il y a des caractères chinois) (barre), la météo et l'environnement sont corrects, Obstacles inconnus identifiés avec précision sans invite

Pièces inexactes : la position du troisième camion est indiscernable de gauche à droite et le texte au-dessus de la tête du deuxième camion est une supposition. Un (à cause d'une résolution insuffisante ?)

Cela ne suffit pas, nous continuons à donner un petit indice pour demander ce qu'est cet objet et s'il peut être pressé dessus.

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Impressionnant ! Nous avons testé plusieurs scénarios similaires, et les performances sur des obstacles inconnus peuvent être considérées comme très étonnantes.

2 Exemple 2 : Compréhension de l'accumulation d'eau sur la route

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Il n'y a pas d'invite pour reconnaître automatiquement le panneau Cela devrait être basique, nous continuons à donner quelques indices

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

J'ai encore été choqué. . . Il pouvait automatiquement reconnaître le brouillard derrière le camion et a également mentionné la flaque d'eau, mais a encore une fois indiqué que la direction était à gauche. . . Je pense qu'une ingénierie rapide peut être nécessaire ici pour mieux permettre à GPT d'afficher la position et la direction.

3 Alors voici une autre image :

peut être dit automatiquement Ces deux-là ont franchi le garde-corps et ont plané au bord de la route. . . Mais au lieu de cela, les panneaux routiers qui semblaient plus faciles étaient faux. . . Tout ce que je peux dire, c'est que c'est un modèle énorme. Il vous choquera toujours et vous ne savez jamais quand il vous fera pleurer. . . Une autre image :

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Cette fois, elle parle directement des débris sur la route, et je l'admire à nouveau. . . Mais une fois, j'ai mal nommé la flèche sur la route. . . De manière générale, les informations qui nécessitent une attention particulière dans cette scène sont couvertes. Pour des problèmes tels que la signalisation routière, les défauts ne sont pas cachés

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

4

Exemple4 : Voici un drôle

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Je peux seulement dire. que c'est très bien. En comparaison, des cas comme "quelqu'un vous a fait signe" qui semblaient extrêmement difficiles auparavant sont comme un jeu d'enfant et peuvent être résolus avec des cas sémantiques. 5

Exemple5 Créons une scène célèbre. . . Le camion de livraison est entré par erreur sur la route nouvellement construite

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

J'étais relativement conservateur au début et je n'ai pas directement deviné la raison. J'ai donné diverses suppositions. Cela est conforme à l'objectif d'alignement. Après avoir utilisé CoT, il a été découvert que le problème était que la voiture n'était pas considérée comme un véhicule autonome, donc donner ces informations via une invite peut donner des informations plus précises. Enfin, grâce à un certain nombre d'invites, on peut conclure que l'asphalte nouvellement posé n'est pas adapté à la conduite. Le résultat final est toujours correct, mais le processus est plus tortueux et nécessite une ingénierie plus rapide et une conception plus soignée. Cette raison peut également être due au fait qu'il ne s'agit pas d'une image en perspective à la première personne et qu'elle ne peut être spéculée qu'à partir d'une perspective à la troisième personne. Cet exemple n'est donc pas très précis.

6 Résumé

Certaines tentatives rapides ont pleinement prouvé la puissance et les performances de généralisation de GPT4V. Des invites appropriées devraient pouvoir utiliser pleinement la force de GPT4V. La résolution du cas du coin sémantique devrait être très prometteuse, mais le problème de l’illusion continuera de nuire à certaines applications dans des scénarios liés à la sécurité. Très excitant. Je pense personnellement que l'utilisation rationnelle de modèles aussi grands peut considérablement accélérer le développement de la conduite autonome L4 et même L5. Cependant, LLM doit-il conduire directement ? La conduite de bout en bout, en particulier, reste une question discutable. J'ai beaucoup réfléchi ces derniers temps, alors je trouverai le temps d'écrire un article pour discuter avec vous tous~

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Lien original : https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Lire l'index de l'IA 2025: L'AI est-elle votre ami, ennemi ou copilote?Lire l'index de l'IA 2025: L'AI est-elle votre ami, ennemi ou copilote?Apr 11, 2025 pm 12:13 PM

Le rapport de l'indice de l'intelligence artificielle de 2025 publié par le Stanford University Institute for Human-oriented Artificial Intelligence offre un bon aperçu de la révolution de l'intelligence artificielle en cours. Interprétons-le dans quatre concepts simples: cognition (comprendre ce qui se passe), l'appréciation (voir les avantages), l'acceptation (défis face à face) et la responsabilité (trouver nos responsabilités). Cognition: l'intelligence artificielle est partout et se développe rapidement Nous devons être très conscients de la rapidité avec laquelle l'intelligence artificielle se développe et se propage. Les systèmes d'intelligence artificielle s'améliorent constamment, obtenant d'excellents résultats en mathématiques et des tests de réflexion complexes, et il y a tout juste un an, ils ont échoué lamentablement dans ces tests. Imaginez des problèmes de codage complexes de résolution de l'IA ou des problèmes scientifiques au niveau des diplômés - depuis 2023

Début avec Meta Llama 3.2 - Analytics VidhyaDébut avec Meta Llama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

AV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plusAV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plusApr 11, 2025 pm 12:01 PM

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

Le coût humain de parler aux machines: un chatbot peut-il vraiment s'en soucier?Le coût humain de parler aux machines: un chatbot peut-il vraiment s'en soucier?Apr 11, 2025 pm 12:00 PM

L'illusion réconfortante de la connexion: sommes-nous vraiment florissants dans nos relations avec l'IA? Cette question a contesté le ton optimiste du symposium "Advancing Humans with IA (Ai) du MIT Media Lab. Tandis que l'événement a présenté des Edg de pointe

Comprendre la bibliothèque Scipy à PythonComprendre la bibliothèque Scipy à PythonApr 11, 2025 am 11:57 AM

Introduction Imaginez que vous êtes un scientifique ou un ingénieur à résoudre des problèmes complexes - équations différentielles, défis d'optimisation ou analyse de Fourier. La facilité d'utilisation et les capacités graphiques de Python sont attrayantes, mais ces tâches exigent des outils puissants

3 Méthodes pour exécuter Llama 3.2 - Analytics Vidhya3 Méthodes pour exécuter Llama 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2: une centrale d'IA multimodale Le dernier modèle multimodal de META, LLAMA 3.2, représente une progression importante de l'IA, avec une compréhension du langage améliorée, une précision améliorée et des capacités de génération de texte supérieures. Sa capacité t

Automatiser les vérifications de la qualité des données avec DagsterAutomatiser les vérifications de la qualité des données avec DagsterApr 11, 2025 am 11:44 AM

Assurance de la qualité des données: automatiser les chèques avec Dagster et grandes attentes Le maintien d'une qualité de données élevée est essentiel pour les entreprises axées sur les données. À mesure que les volumes de données et les sources augmentent, le contrôle de la qualité manuel devient inefficace et sujette aux erreurs.

Les mainframes ont-ils un rôle dans l'ère AI?Les mainframes ont-ils un rôle dans l'ère AI?Apr 11, 2025 am 11:42 AM

Mainframes: les héros méconnus de la révolution de l'IA Alors que les serveurs excellent dans les applications à usage général et la gestion de plusieurs clients, les mainframes sont conçus pour des tâches critiques à volume élevé. Ces systèmes puissants se trouvent fréquemment dans lavil

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire