


Mise à jour : ajout d'un nouvel exemple, un véhicule de livraison autonome entrant dans le sol en ciment de Xinpu
Sous beaucoup d'attention, GPT4 a finalement lancé aujourd'hui des fonctions liées à la vision. Cet après-midi, j'ai rapidement testé les capacités de perception d'images de GPT avec mes amis. Même si nous avions des attentes, nous avons quand même été très choqués. TL;DR est Je pense que les problèmes sémantiques liés à la conduite autonome auraient dû être très bien résolus par les grands modèles, mais la crédibilité et les capacités de perception spatiale des grands modèles ne sont toujours pas satisfaisantes. Cela devrait être plus que suffisant pour résoudre certains cas dits difficiles liés à l'efficacité, mais il est encore très loin de s'appuyer entièrement sur de gros modèles pour mener à bien la conduite de manière autonome et assurer la sécurité.
1 Exemple 1 : Des obstacles inconnus sont apparus sur la route
Description GPT4
Pièce précise : 3 camions ont été détectés et le numéro de plaque d'immatriculation du camion avant était fondamentalement correct (ignoré s'il y a des caractères chinois) (barre), la météo et l'environnement sont corrects, Obstacles inconnus identifiés avec précision sans invite
Pièces inexactes : la position du troisième camion est indiscernable de gauche à droite et le texte au-dessus de la tête du deuxième camion est une supposition. Un (à cause d'une résolution insuffisante ?)
Cela ne suffit pas, nous continuons à donner un petit indice pour demander ce qu'est cet objet et s'il peut être pressé dessus.
Impressionnant ! Nous avons testé plusieurs scénarios similaires, et les performances sur des obstacles inconnus peuvent être considérées comme très étonnantes.
2 Exemple 2 : Compréhension de l'accumulation d'eau sur la route
Il n'y a pas d'invite pour reconnaître automatiquement le panneau Cela devrait être basique, nous continuons à donner quelques indices
J'ai encore été choqué. . . Il pouvait automatiquement reconnaître le brouillard derrière le camion et a également mentionné la flaque d'eau, mais a encore une fois indiqué que la direction était à gauche. . . Je pense qu'une ingénierie rapide peut être nécessaire ici pour mieux permettre à GPT d'afficher la position et la direction.
3 Alors voici une autre image :
peut être dit automatiquement Ces deux-là ont franchi le garde-corps et ont plané au bord de la route. . . Mais au lieu de cela, les panneaux routiers qui semblaient plus faciles étaient faux. . . Tout ce que je peux dire, c'est que c'est un modèle énorme. Il vous choquera toujours et vous ne savez jamais quand il vous fera pleurer. . . Une autre image :Je peux seulement dire. que c'est très bien. En comparaison, des cas comme "quelqu'un vous a fait signe" qui semblaient extrêmement difficiles auparavant sont comme un jeu d'enfant et peuvent être résolus avec des cas sémantiques. 5
Exemple5 Créons une scène célèbre. . . Le camion de livraison est entré par erreur sur la route nouvellement construiteJ'étais relativement conservateur au début et je n'ai pas directement deviné la raison. J'ai donné diverses suppositions. Cela est conforme à l'objectif d'alignement. Après avoir utilisé CoT, il a été découvert que le problème était que la voiture n'était pas considérée comme un véhicule autonome, donc donner ces informations via une invite peut donner des informations plus précises. Enfin, grâce à un certain nombre d'invites, on peut conclure que l'asphalte nouvellement posé n'est pas adapté à la conduite. Le résultat final est toujours correct, mais le processus est plus tortueux et nécessite une ingénierie plus rapide et une conception plus soignée. Cette raison peut également être due au fait qu'il ne s'agit pas d'une image en perspective à la première personne et qu'elle ne peut être spéculée qu'à partir d'une perspective à la troisième personne. Cet exemple n'est donc pas très précis.
6 Résumé
Certaines tentatives rapides ont pleinement prouvé la puissance et les performances de généralisation de GPT4V. Des invites appropriées devraient pouvoir utiliser pleinement la force de GPT4V. La résolution du cas du coin sémantique devrait être très prometteuse, mais le problème de l’illusion continuera de nuire à certaines applications dans des scénarios liés à la sécurité. Très excitant. Je pense personnellement que l'utilisation rationnelle de modèles aussi grands peut considérablement accélérer le développement de la conduite autonome L4 et même L5. Cependant, LLM doit-il conduire directement ? La conduite de bout en bout, en particulier, reste une question discutable. J'ai beaucoup réfléchi ces derniers temps, alors je trouverai le temps d'écrire un article pour discuter avec vous tous~
Lien original : https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Le rapport de l'indice de l'intelligence artificielle de 2025 publié par le Stanford University Institute for Human-oriented Artificial Intelligence offre un bon aperçu de la révolution de l'intelligence artificielle en cours. Interprétons-le dans quatre concepts simples: cognition (comprendre ce qui se passe), l'appréciation (voir les avantages), l'acceptation (défis face à face) et la responsabilité (trouver nos responsabilités). Cognition: l'intelligence artificielle est partout et se développe rapidement Nous devons être très conscients de la rapidité avec laquelle l'intelligence artificielle se développe et se propage. Les systèmes d'intelligence artificielle s'améliorent constamment, obtenant d'excellents résultats en mathématiques et des tests de réflexion complexes, et il y a tout juste un an, ils ont échoué lamentablement dans ces tests. Imaginez des problèmes de codage complexes de résolution de l'IA ou des problèmes scientifiques au niveau des diplômés - depuis 2023

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

L'illusion réconfortante de la connexion: sommes-nous vraiment florissants dans nos relations avec l'IA? Cette question a contesté le ton optimiste du symposium "Advancing Humans with IA (Ai) du MIT Media Lab. Tandis que l'événement a présenté des Edg de pointe

Introduction Imaginez que vous êtes un scientifique ou un ingénieur à résoudre des problèmes complexes - équations différentielles, défis d'optimisation ou analyse de Fourier. La facilité d'utilisation et les capacités graphiques de Python sont attrayantes, mais ces tâches exigent des outils puissants

Meta's Llama 3.2: une centrale d'IA multimodale Le dernier modèle multimodal de META, LLAMA 3.2, représente une progression importante de l'IA, avec une compréhension du langage améliorée, une précision améliorée et des capacités de génération de texte supérieures. Sa capacité t

Assurance de la qualité des données: automatiser les chèques avec Dagster et grandes attentes Le maintien d'une qualité de données élevée est essentiel pour les entreprises axées sur les données. À mesure que les volumes de données et les sources augmentent, le contrôle de la qualité manuel devient inefficace et sujette aux erreurs.

Mainframes: les héros méconnus de la révolution de l'IA Alors que les serveurs excellent dans les applications à usage général et la gestion de plusieurs clients, les mainframes sont conçus pour des tâches critiques à volume élevé. Ces systèmes puissants se trouvent fréquemment dans lavil


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

mPDF
mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Dreamweaver Mac
Outils de développement Web visuel

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit