Maison >Périphériques technologiques >IA >VisionAgent d'Andrew Ng: rationalisation des solutions de vision AI
VisionAgent: révolutionner le développement des applications de vision par ordinateur
La vision informatique transforme des industries comme les soins de santé, la fabrication et le commerce de détail. Cependant, la construction de solutions basées sur la vision est souvent complexe et prend du temps. Landingai, dirigé par Andrew Ng, présente VisionAgent, un constructeur d'applications Visual AI génératif conçu pour simplifier l'ensemble du processus - de la création et de l'itération au déploiement.
La détection d'objets agentiques de VisionAgent élimine le besoin d'un étiquetage des données long et de la formation du modèle, dépassant les méthodes traditionnelles de détection d'objets. Sa détection basée sur l'invite de texte permet un prototypage et un déploiement rapides, en utilisant un raisonnement avancé pour les résultats de haute qualité et la reconnaissance d'objets complexes polyvalents.
Les fonctionnalités clés incluent:
VisionAgent dépasse la génération de code simple; Il agit comme un assistant alimenté par l'IA, guidant les développeurs à travers la planification, la sélection des outils, la génération de code et le déploiement. Cette assistance en IA permet aux développeurs d'itérer en quelques minutes, pas des semaines.
VisionAgent comprend trois composants centraux pour une expérience de développement rationalisée:
Comprendre leur interaction est crucial pour maximiser le potentiel de VisionAgent.
L'application Web VisionAgent est une plate-forme hébergée conviviale et hébergée pour le prototypage, le raffinage et le déploiement d'applications de vision sans configuration approfondie. Son interface Web intuitive permet aux utilisateurs de:
Cette approche à faible code est idéale pour expérimenter des applications de vision alimentées par l'IA sans environnements de développement locaux complexes.
La bibliothèque VisionAgent forme le noyau du cadre, offrant des fonctionnalités essentielles pour la création et le déploiement d'applications de vision axées par l'IA. Les caractéristiques clés incluent:
3. Bibliothèque des outils VisionAgent
Évaluation de référence
Modèle précision f1 Score
Landing Ai 77,0% 82,6%
79,7% (le plus élevé)
Model
Recall
Precision
F1 Score
Landing AI
77.0%
82.6%
79.7% (highest)
Microsoft Florence-2
43.4%
36.6%
39.7%
Google OWLv2
81.0%
29.5%
43.2%
Alibaba Qwen2.5-VL-7B-Instruct
26.0%
54.0%
35.1%
Microsoft Florence-2 43,4% 36,6% 39,7%
Google Owlv2 81,0% 29,5% 43,2%
table> Alibaba Qwen2.5-VL-7B-Instruct 26,0% 54,0% 35,1%
Landing La détection d'objets agentiques de l'AI a atteint le score F1 le plus élevé, indiquant le meilleur équilibre de précision et de rappel. D'autres modèles ont montré des compromis entre le rappel et la précision.
VisionAgent utilise un flux de travail structuré:
Téléchargez l'image ou la vidéo.
Fournir une invite de texte (par exemple, "détecter les personnes avec des lunettes").
VisionAgent analyse l'entrée.
recevoir les résultats de détection.
L'utilisateur initie la demande en utilisant le langage naturel. VisionAgent confirme la compréhension.
"Je vais générer du code pour détecter les légumes à l'intérieur et à l'extérieur du panier en utilisant la détection d'objets."
VisionAgent détermine la meilleure approche:
Le plan est exécuté à l'aide de la bibliothèque VisionAgent et de la bibliothèque d'outils.
VisionAgent fournit des résultats structurés:
Cet exemple suit un processus similaire, en utilisant des trames vidéo, VQA et des suggestions pour identifier et suivre la voiture rouge. La sortie afficherait la voiture voilée tout au long de la vidéo. (Exemples d'image de sortie omis pour la concision, mais serait similaire en style à la sortie de détection de légumes).
VisionAgent rationalise le développement d'applications de vision dirigée par l'IA, l'automatisation des tâches fastidieuses et la fourniture d'outils prêts à l'emploi. Sa vitesse, sa flexibilité et son évolutivité profitent aux chercheurs, développeurs et entreprises. Les progrès futurs incorporeront probablement des modèles plus puissants et un support d'application plus large.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!