首页 >科技周边 >人工智能 >如何在本地运行Microsoft' Omniparser V2?

如何在本地运行Microsoft' Omniparser V2?

Christopher Nolan
Christopher Nolan原创
2025-03-04 10:20:15759浏览

Microsoft的OmniParser V2是一种尖端的AI屏幕解析器,通过分析屏幕截图从GUI中提取结构化数据,使AI代理能够无缝与屏幕上的元素进行交互。该工具非常适合构建自主GUI代理,是自动化和工作流优化的游戏改变者。在本指南中,我们将介绍如何在本地安装OmniParser V2,其运营力学以及与Omnitool的集成以及其现实世界应用程序。请继续关注我们的下一篇文章,我将在其中探索以QWEN 2.5的OmniparSer v2(将GUI Automation to News formation to Omniparser V2)。 目录的内容表

>

omlniparser v2的工作方式?
  • >步骤4:使用PIP
  • >步骤5:下载型号的权重
  • >步骤6:运行演示
  • 如何在本地运行Microsoft' Omniparser V2?

    结论 omniparser v2的工作方式?> omlniparser V2使用两个步骤的过程:检测和字幕。首先,其检测模块依赖于微调的Yolov8模型来在屏幕截图中发现按钮,图标和菜单等交互元素。接下来,字幕模块使用Florence-2基础模型为这些元素创建描述性标签,并解释了它们在接口中的角色。这些模块一起帮助大型语言模型(LLMS)完全了解GUI,实现了精确的交互和任务执行。 与其前任相比,OmniParser V2提供了重大升级。它可将延迟降低60%并提高准确性,尤其是用于检测较小的元素。在Screenspot Pro之类的测试中,Omniparser V2与GPT-4O配对的平均准确度为39.6%,比基线得分的巨大飞跃为0.8%。这些收益来自对更大,更详细的数据集进行培训,其中包含有关图标及其功能的丰富信息。 >安装OmniParser V2的先决条件 在开始安装过程之前
    • git:>安装git以克隆omniparser存储库:
    sudo apt install git-all
    • > miniconda:>安装用于管理Python环境的Miniconda。可以在以下说明中找到:Miniconda安装指南。
    • nvidia cuda工具包和CUDA编译器: GPU加速所需。从:CUDA下载下载适合您操作系统的适当文件。另外,您可以使用以下方式在Windows中安装WSL来安装所有内容
    • >安装步骤
    >现在您已经准备好所有的东西了,让我们看安装OmniParser v2:>
    wsl --install
    >步骤1:克隆omniparser存储库

    >打开您的终端,然后从github中克隆omniparser存储库:

    >

    >步骤2:设置Conda环境 创建一个名为“ Omni”的conda环境,用python 3.12:

    git clone https://github.com/microsoft/OmniParser
    cd OmniParser
    步骤3:激活环境

    >步骤4:使用PIP

    安装所需的依赖项
    conda create -n "omni" python==3.12

    步骤5:下载型号

    conda activate omni
    >下载V2权重,然后将其放入权重文件夹中。确保字幕称为ICON_CAPTION_FLORENCE。如果未下载,请使用:

    pip install -r requirements.txt
    >步骤6:运行演示

    运行Gradio演示,执行:

    rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
    
    huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights
    
    mv weights/icon_caption weights/icon_caption_florence

    python gradio_demo.py

    >输出如何在本地运行Microsoft' Omniparser V2?

    如何在本地运行Microsoft' Omniparser V2?

    omnitool:增强omniparser v2

    Omnitool是Windows 11虚拟机,将OmniParser与LLM(例如GPT-4O)集成在一起,以启用完全自主的代理操作。

    使用omnitool:如何在本地运行Microsoft' Omniparser V2?>

    >

    >自治剂动作:使AI代理可以执行任务而无需人工干预。

    >

    >现实世界自动化:通过GUI互动来促进重复任务的自动化。

      可访问性解决方案:
    • 为辅助技术提供结构化数据。 用户界面分析:
    • 分析并根据提取的结构化数据进行分析并改进用户界面。
    • omniparser v2
    • 的应用 >
      • UI自动化:与图形用户界面自动交互。
      • 可访问性解决方案:为残疾用户提供解决方案。
      • > 用户界面分析:基于提取的结构化数据分析和改进用户界面设计。

      结论

      omniparser v2是AI视觉解析,无缝连接文本和视觉数据处理的重大飞跃。凭借其速度,精度和无缝集成,它是希望建立AI驱动解决方案的开发人员和企业的必备工具。在下一篇文章中,我们将潜入使用QWEN 2.5的OmniparSer V2,从而解开了更多的现实应用程序潜力。请继续关注!

    以上是如何在本地运行Microsoft' Omniparser V2?的详细内容。更多信息请关注PHP中文网其他相关文章!

  • 声明:
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn