Maison >Périphériques technologiques >IA >Comment exécuter omniparser V2 Microsoft & # 039;
Omniparser V2 de Microsoft est un analyseur d'écran AI de pointe qui extrait les données structurées des GUIS en analysant les captures d'écran, permettant aux agents d'IA d'interagir avec les éléments à l'écran en toute transparence. Parfait pour construire des agents GUI autonomes, cet outil change la donne pour l'automatisation et l'optimisation du flux de travail. Dans ce guide, nous couvrirons comment installer Omniparrser V2 localement, sa mécanique opérationnelle et son intégration avec Omnitool, ainsi que ses applications réelles. Restez à l'écoute pour notre prochain article, où j'explorerai en cours d'exécution Omniparser V2 avec Qwen 2.5 - faisant l'automatisation de l'interface graphique au niveau suivant.
Par rapport à son prédécesseur, Omniparser V2 offre des mises à niveau majeures. Il réduit la latence de 60% et améliore la précision, en particulier pour détecter les éléments plus petits. Dans des tests tels que l'écran Procot Pro, Omniparrser V2 associé à GPT-4O a atteint une précision moyenne de 39,6%, un énorme saut par rapport au score de référence de 0,8%. Ces gains proviennent de la formation sur un ensemble de données plus grand et plus détaillé qui comprend des informations riches sur les icônes et leurs fonctions.
Prérequis pour l'installation d'Omniparser v2
sudo apt install git-all
wsl --install
Maintenant que vous avez toutes les choses prêtes, envisageons d'installer omniparser v2:
Ouvrez votre terminal et clone le référentiel omniparser de GitHub:
git clone https://github.com/microsoft/OmniParser cd OmniParser
Créez un environnement conda nommé «Omni» avec Python 3.12:
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt
Téléchargez les poids V2 et placez-les dans le dossier des poids. Assurez-vous que le dossier de poids de légende est nommé icon_caption_florence. Si ce n'est pas téléchargé, utilisez:
rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights mv weights/icon_caption weights/icon_caption_florence
Pour exécuter la démo Gradio, exécutez:
python gradio_demo.py
omnitool est une machine virtuelle Windows 11 qui intègre omniparser à un LLM (comme GPT-4O) pour permettre des actions agentiques entièrement autonomes.
Avantages de l'utilisation d'Omnitool:
Les capacités d'Omniparser V2 ouvrent de nombreuses applications:
omniparser V2 est un bond en avant dans l'analyse visuelle AI, connectant de manière transparente le texte du texte et des données visuelles. Avec sa vitesse, sa précision et son intégration transparente, c'est un outil incontournable pour les développeurs et les entreprises qui cherchent à créer des solutions alimentées par l'IA. Dans notre prochain article, nous plongerons dans l'exécution d'Omniparrser V2 avec Qwen 2.5, débloquant encore plus de potentiel pour les applications du monde réel. Restez à l'écoute!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!