


Mise à jour : ajout d'un nouvel exemple, un véhicule de livraison autonome entrant dans le sol en ciment de Xinpu
Sous beaucoup d'attention, GPT4 a finalement lancé aujourd'hui des fonctions liées à la vision. Cet après-midi, j'ai rapidement testé les capacités de perception d'images de GPT avec mes amis. Même si nous avions des attentes, nous avons quand même été très choqués. TL;DR est Je pense que les problèmes sémantiques liés à la conduite autonome auraient dû être très bien résolus par les grands modèles, mais la crédibilité et les capacités de perception spatiale des grands modèles ne sont toujours pas satisfaisantes. Cela devrait être plus que suffisant pour résoudre certains cas dits difficiles liés à l'efficacité, mais il est encore très loin de s'appuyer entièrement sur de gros modèles pour mener à bien la conduite de manière autonome et assurer la sécurité.
1 Exemple 1 : Des obstacles inconnus sont apparus sur la route
Description GPT4
Pièce précise : 3 camions ont été détectés et le numéro de plaque d'immatriculation du camion avant était fondamentalement correct (ignoré s'il y a des caractères chinois) (barre), la météo et l'environnement sont corrects, Obstacles inconnus identifiés avec précision sans invite
Pièces inexactes : la position du troisième camion est indiscernable de gauche à droite et le texte au-dessus de la tête du deuxième camion est une supposition. Un (à cause d'une résolution insuffisante ?)
Cela ne suffit pas, nous continuons à donner un petit indice pour demander ce qu'est cet objet et s'il peut être pressé dessus.
Impressionnant ! Nous avons testé plusieurs scénarios similaires, et les performances sur des obstacles inconnus peuvent être considérées comme très étonnantes.
2 Exemple 2 : Compréhension de l'accumulation d'eau sur la route
Il n'y a pas d'invite pour reconnaître automatiquement le panneau Cela devrait être basique, nous continuons à donner quelques indices
J'ai encore été choqué. . . Il pouvait automatiquement reconnaître le brouillard derrière le camion et a également mentionné la flaque d'eau, mais a encore une fois indiqué que la direction était à gauche. . . Je pense qu'une ingénierie rapide peut être nécessaire ici pour mieux permettre à GPT d'afficher la position et la direction.
3 Alors voici une autre image :
peut être dit automatiquement Ces deux-là ont franchi le garde-corps et ont plané au bord de la route. . . Mais au lieu de cela, les panneaux routiers qui semblaient plus faciles étaient faux. . . Tout ce que je peux dire, c'est que c'est un modèle énorme. Il vous choquera toujours et vous ne savez jamais quand il vous fera pleurer. . . Une autre image :Je peux seulement dire. que c'est très bien. En comparaison, des cas comme "quelqu'un vous a fait signe" qui semblaient extrêmement difficiles auparavant sont comme un jeu d'enfant et peuvent être résolus avec des cas sémantiques. 5
Exemple5 Créons une scène célèbre. . . Le camion de livraison est entré par erreur sur la route nouvellement construiteJ'étais relativement conservateur au début et je n'ai pas directement deviné la raison. J'ai donné diverses suppositions. Cela est conforme à l'objectif d'alignement. Après avoir utilisé CoT, il a été découvert que le problème était que la voiture n'était pas considérée comme un véhicule autonome, donc donner ces informations via une invite peut donner des informations plus précises. Enfin, grâce à un certain nombre d'invites, on peut conclure que l'asphalte nouvellement posé n'est pas adapté à la conduite. Le résultat final est toujours correct, mais le processus est plus tortueux et nécessite une ingénierie plus rapide et une conception plus soignée. Cette raison peut également être due au fait qu'il ne s'agit pas d'une image en perspective à la première personne et qu'elle ne peut être spéculée qu'à partir d'une perspective à la troisième personne. Cet exemple n'est donc pas très précis.
6 Résumé
Certaines tentatives rapides ont pleinement prouvé la puissance et les performances de généralisation de GPT4V. Des invites appropriées devraient pouvoir utiliser pleinement la force de GPT4V. La résolution du cas du coin sémantique devrait être très prometteuse, mais le problème de l’illusion continuera de nuire à certaines applications dans des scénarios liés à la sécurité. Très excitant. Je pense personnellement que l'utilisation rationnelle de modèles aussi grands peut considérablement accélérer le développement de la conduite autonome L4 et même L5. Cependant, LLM doit-il conduire directement ? La conduite de bout en bout, en particulier, reste une question discutable. J'ai beaucoup réfléchi ces derniers temps, alors je trouverai le temps d'écrire un article pour discuter avec vous tous~
Lien original : https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Le terme «main-d'œuvre prêt pour l'IA» est fréquemment utilisé, mais qu'est-ce que cela signifie vraiment dans l'industrie de la chaîne d'approvisionnement? Selon Abe Eshkenazi, PDG de l'Association for Supply Chain Management (ASCM), il signifie des professionnels capables de critique

La révolution de l'IA décentralisée prend tranquillement de l'ampleur. Ce vendredi à Austin, au Texas, le Sommet de fin de partie Bittensor marque un moment pivot, en transition de l'IA décentralisée (DEAI) de la théorie à l'application pratique. Contrairement à la publicité fastueuse

L'IA de l'entreprise fait face à des défis d'intégration des données L'application de l'IA de l'entreprise est confrontée à un défi majeur: la construction de systèmes qui peuvent maintenir la précision et la pratique en apprenant continuellement les données commerciales. Les microservices NEMO résolvent ce problème en créant ce que NVIDIA décrit comme "Data Flywheel", permettant aux systèmes d'IA de rester pertinents par une exposition continue aux informations de l'entreprise et à l'interaction des utilisateurs. Cette boîte à outils nouvellement lancée contient cinq microservices clés: NEMO Customizer gère le réglage fin des modèles de grands langues avec un débit de formation plus élevé. L'évaluateur NEMO fournit une évaluation simplifiée des modèles d'IA pour les repères personnalisés. NEMO Guar-Rails met en œuvre des contrôles de sécurité pour maintenir la conformité et la pertinence

AI: L'avenir de l'art et du design L'intelligence artificielle (IA) modifie le domaine de l'art et de la conception de manière sans précédent, et son impact ne se limite plus aux amateurs, mais affectant plus profondément les professionnels. Les schémas d'œuvres d'art et de conception générés par l'IA remplacent rapidement les images et les concepteurs de matériaux traditionnels dans de nombreuses activités de conception transactionnelles telles que la publicité, la génération d'images des médias sociaux et la conception Web. Cependant, les artistes et designers professionnels trouvent également la valeur pratique de l'IA. Ils utilisent l'IA comme outil auxiliaire pour explorer de nouvelles possibilités esthétiques, mélanger différents styles et créer de nouveaux effets visuels. L'IA aide les artistes et les concepteurs à automatiser les tâches répétitives, à proposer différents éléments de conception et à fournir une contribution créative. L'IA prend en charge le transfert de style, qui doit appliquer un style d'image

Zoom, initialement connu pour sa plate-forme de vidéoconférence, dirige une révolution en milieu de travail avec son utilisation innovante de l'IA agentique. Une conversation récente avec le CTO de Zoom, XD Huang, a révélé la vision ambitieuse de l'entreprise. Définition de l'IA agentique Huang D

L'IA va-t-elle révolutionner l'éducation? Cette question provoque une réflexion sérieuse entre les éducateurs et les parties prenantes. L'intégration de l'IA dans l'éducation présente à la fois des opportunités et des défis. Comme le note Matthew Lynch de The Tech Edvocate, Universit

Le développement de la recherche scientifique et de la technologie aux États-Unis peut faire face à des défis, peut-être en raison de coupes budgétaires. Selon la nature, le nombre de scientifiques américains postulant pour des emplois à l'étranger a augmenté de 32% de janvier à mars 2025 par rapport à la même période en 2024. Un sondage précédent a montré que 75% des chercheurs interrogés envisageaient de rechercher des emplois en Europe et au Canada. Des centaines de subventions NIH et NSF ont été licenciées au cours des derniers mois, avec les nouvelles subventions du NIH d'environ 2,3 milliards de dollars cette année, une baisse de près d'un tiers. Le projet de budget divulgué montre que l'administration Trump envisage de réduire fortement les budgets pour les institutions scientifiques, avec une réduction possible allant jusqu'à 50%. La tourmente dans le domaine de la recherche fondamentale a également affecté l'un des principaux avantages des États-Unis: attirer des talents à l'étranger. 35

OpenAI dévoile la puissante série GPT-4.1: une famille de trois modèles de langage avancé conçus pour des applications réelles. Ce saut significatif en avant offre des temps de réponse plus rapides, une compréhension améliorée et des coûts considérablement réduits par rapport à T


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

mPDF
mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

MantisBT
Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

Version crackée d'EditPlus en chinois
Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code
