recherche
MaisonPériphériques technologiquesIAPassionnant! Une étude préliminaire du GPT-4V en conduite autonome

Mise à jour : ajout d'un nouvel exemple, un véhicule de livraison autonome entrant dans le sol en ciment de Xinpu

Sous beaucoup d'attention, GPT4 a finalement lancé aujourd'hui des fonctions liées à la vision. Cet après-midi, j'ai rapidement testé les capacités de perception d'images de GPT avec mes amis. Même si nous avions des attentes, nous avons quand même été très choqués. TL;DR est Je pense que les problèmes sémantiques liés à la conduite autonome auraient dû être très bien résolus par les grands modèles, mais la crédibilité et les capacités de perception spatiale des grands modèles ne sont toujours pas satisfaisantes. Cela devrait être plus que suffisant pour résoudre certains cas dits difficiles liés à l'efficacité, mais il est encore très loin de s'appuyer entièrement sur de gros modèles pour mener à bien la conduite de manière autonome et assurer la sécurité.

1 Exemple 1 : Des obstacles inconnus sont apparus sur la route

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Description GPT4

Pièce précise : 3 camions ont été détectés et le numéro de plaque d'immatriculation du camion avant était fondamentalement correct (ignoré s'il y a des caractères chinois) (barre), la météo et l'environnement sont corrects, Obstacles inconnus identifiés avec précision sans invite

Pièces inexactes : la position du troisième camion est indiscernable de gauche à droite et le texte au-dessus de la tête du deuxième camion est une supposition. Un (à cause d'une résolution insuffisante ?)

Cela ne suffit pas, nous continuons à donner un petit indice pour demander ce qu'est cet objet et s'il peut être pressé dessus.

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Impressionnant ! Nous avons testé plusieurs scénarios similaires, et les performances sur des obstacles inconnus peuvent être considérées comme très étonnantes.

2 Exemple 2 : Compréhension de l'accumulation d'eau sur la route

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Il n'y a pas d'invite pour reconnaître automatiquement le panneau Cela devrait être basique, nous continuons à donner quelques indices

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

J'ai encore été choqué. . . Il pouvait automatiquement reconnaître le brouillard derrière le camion et a également mentionné la flaque d'eau, mais a encore une fois indiqué que la direction était à gauche. . . Je pense qu'une ingénierie rapide peut être nécessaire ici pour mieux permettre à GPT d'afficher la position et la direction.

3 Alors voici une autre image :

peut être dit automatiquement Ces deux-là ont franchi le garde-corps et ont plané au bord de la route. . . Mais au lieu de cela, les panneaux routiers qui semblaient plus faciles étaient faux. . . Tout ce que je peux dire, c'est que c'est un modèle énorme. Il vous choquera toujours et vous ne savez jamais quand il vous fera pleurer. . . Une autre image :

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Cette fois, elle parle directement des débris sur la route, et je l'admire à nouveau. . . Mais une fois, j'ai mal nommé la flèche sur la route. . . De manière générale, les informations qui nécessitent une attention particulière dans cette scène sont couvertes. Pour des problèmes tels que la signalisation routière, les défauts ne sont pas cachés

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

4

Exemple4 : Voici un drôle

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Je peux seulement dire. que c'est très bien. En comparaison, des cas comme "quelqu'un vous a fait signe" qui semblaient extrêmement difficiles auparavant sont comme un jeu d'enfant et peuvent être résolus avec des cas sémantiques. 5

Exemple5 Créons une scène célèbre. . . Le camion de livraison est entré par erreur sur la route nouvellement construite

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

J'étais relativement conservateur au début et je n'ai pas directement deviné la raison. J'ai donné diverses suppositions. Cela est conforme à l'objectif d'alignement. Après avoir utilisé CoT, il a été découvert que le problème était que la voiture n'était pas considérée comme un véhicule autonome, donc donner ces informations via une invite peut donner des informations plus précises. Enfin, grâce à un certain nombre d'invites, on peut conclure que l'asphalte nouvellement posé n'est pas adapté à la conduite. Le résultat final est toujours correct, mais le processus est plus tortueux et nécessite une ingénierie plus rapide et une conception plus soignée. Cette raison peut également être due au fait qu'il ne s'agit pas d'une image en perspective à la première personne et qu'elle ne peut être spéculée qu'à partir d'une perspective à la troisième personne. Cet exemple n'est donc pas très précis.

6 Résumé

Certaines tentatives rapides ont pleinement prouvé la puissance et les performances de généralisation de GPT4V. Des invites appropriées devraient pouvoir utiliser pleinement la force de GPT4V. La résolution du cas du coin sémantique devrait être très prometteuse, mais le problème de l’illusion continuera de nuire à certaines applications dans des scénarios liés à la sécurité. Très excitant. Je pense personnellement que l'utilisation rationnelle de modèles aussi grands peut considérablement accélérer le développement de la conduite autonome L4 et même L5. Cependant, LLM doit-il conduire directement ? La conduite de bout en bout, en particulier, reste une question discutable. J'ai beaucoup réfléchi ces derniers temps, alors je trouverai le temps d'écrire un article pour discuter avec vous tous~

Passionnant! Une étude préliminaire du GPT-4V en conduite autonome

Lien original : https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
L'écart de compétences en IA ralentit les chaînes d'approvisionnementL'écart de compétences en IA ralentit les chaînes d'approvisionnementApr 26, 2025 am 11:13 AM

Le terme «main-d'œuvre prêt pour l'IA» est fréquemment utilisé, mais qu'est-ce que cela signifie vraiment dans l'industrie de la chaîne d'approvisionnement? Selon Abe Eshkenazi, PDG de l'Association for Supply Chain Management (ASCM), il signifie des professionnels capables de critique

Comment une entreprise travaille tranquillement pour transformer l'IA pour toujoursComment une entreprise travaille tranquillement pour transformer l'IA pour toujoursApr 26, 2025 am 11:12 AM

La révolution de l'IA décentralisée prend tranquillement de l'ampleur. Ce vendredi à Austin, au Texas, le Sommet de fin de partie Bittensor marque un moment pivot, en transition de l'IA décentralisée (DEAI) de la théorie à l'application pratique. Contrairement à la publicité fastueuse

NVIDIA publie des microservices NEMO pour rationaliser le développement des agents AINVIDIA publie des microservices NEMO pour rationaliser le développement des agents AIApr 26, 2025 am 11:11 AM

L'IA de l'entreprise fait face à des défis d'intégration des données L'application de l'IA de l'entreprise est confrontée à un défi majeur: la construction de systèmes qui peuvent maintenir la précision et la pratique en apprenant continuellement les données commerciales. Les microservices NEMO résolvent ce problème en créant ce que NVIDIA décrit comme "Data Flywheel", permettant aux systèmes d'IA de rester pertinents par une exposition continue aux informations de l'entreprise et à l'interaction des utilisateurs. Cette boîte à outils nouvellement lancée contient cinq microservices clés: NEMO Customizer gère le réglage fin des modèles de grands langues avec un débit de formation plus élevé. L'évaluateur NEMO fournit une évaluation simplifiée des modèles d'IA pour les repères personnalisés. NEMO Guar-Rails met en œuvre des contrôles de sécurité pour maintenir la conformité et la pertinence

L'IA dépeint une nouvelle image pour l'avenir de l'art et du designL'IA dépeint une nouvelle image pour l'avenir de l'art et du designApr 26, 2025 am 11:10 AM

AI: L'avenir de l'art et du design L'intelligence artificielle (IA) modifie le domaine de l'art et de la conception de manière sans précédent, et son impact ne se limite plus aux amateurs, mais affectant plus profondément les professionnels. Les schémas d'œuvres d'art et de conception générés par l'IA remplacent rapidement les images et les concepteurs de matériaux traditionnels dans de nombreuses activités de conception transactionnelles telles que la publicité, la génération d'images des médias sociaux et la conception Web. Cependant, les artistes et designers professionnels trouvent également la valeur pratique de l'IA. Ils utilisent l'IA comme outil auxiliaire pour explorer de nouvelles possibilités esthétiques, mélanger différents styles et créer de nouveaux effets visuels. L'IA aide les artistes et les concepteurs à automatiser les tâches répétitives, à proposer différents éléments de conception et à fournir une contribution créative. L'IA prend en charge le transfert de style, qui doit appliquer un style d'image

Comment le zoom révolutionne le travail avec l'agent AI: des réunions aux jalonsComment le zoom révolutionne le travail avec l'agent AI: des réunions aux jalonsApr 26, 2025 am 11:09 AM

Zoom, initialement connu pour sa plate-forme de vidéoconférence, dirige une révolution en milieu de travail avec son utilisation innovante de l'IA agentique. Une conversation récente avec le CTO de Zoom, XD Huang, a révélé la vision ambitieuse de l'entreprise. Définition de l'IA agentique Huang D

La menace existentielle pour les universitésLa menace existentielle pour les universitésApr 26, 2025 am 11:08 AM

L'IA va-t-elle révolutionner l'éducation? Cette question provoque une réflexion sérieuse entre les éducateurs et les parties prenantes. L'intégration de l'IA dans l'éducation présente à la fois des opportunités et des défis. Comme le note Matthew Lynch de The Tech Edvocate, Universit

Le prototype: les scientifiques américains recherchent des emplois à l'étrangerLe prototype: les scientifiques américains recherchent des emplois à l'étrangerApr 26, 2025 am 11:07 AM

Le développement de la recherche scientifique et de la technologie aux États-Unis peut faire face à des défis, peut-être en raison de coupes budgétaires. Selon la nature, le nombre de scientifiques américains postulant pour des emplois à l'étranger a augmenté de 32% de janvier à mars 2025 par rapport à la même période en 2024. Un sondage précédent a montré que 75% des chercheurs interrogés envisageaient de rechercher des emplois en Europe et au Canada. Des centaines de subventions NIH et NSF ont été licenciées au cours des derniers mois, avec les nouvelles subventions du NIH d'environ 2,3 milliards de dollars cette année, une baisse de près d'un tiers. Le projet de budget divulgué montre que l'administration Trump envisage de réduire fortement les budgets pour les institutions scientifiques, avec une réduction possible allant jusqu'à 50%. La tourmente dans le domaine de la recherche fondamentale a également affecté l'un des principaux avantages des États-Unis: attirer des talents à l'étranger. 35

Tout sur la dernière famille GPT 4.1 d'Open AI - Analytics VidhyaTout sur la dernière famille GPT 4.1 d'Open AI - Analytics VidhyaApr 26, 2025 am 10:19 AM

OpenAI dévoile la puissante série GPT-4.1: une famille de trois modèles de langage avancé conçus pour des applications réelles. Ce saut significatif en avant offre des temps de réponse plus rapides, une compréhension améliorée et des coûts considérablement réduits par rapport à T

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code