搜索
首页科技周边人工智能使用OmniparSer V2和Omnitool建立本地视觉代理

Microsoft的Omniparser V2和Omnitool:用AI

彻底改变GUI自动化

想象AI不仅可以理解,还可以像经验丰富的专业人员一样与Windows 11界面进行互动。 Microsoft的OmniparSer V2和Omnitool使其成为现实,增强了重新定义任务自动化和用户体验的自主GUI代理。本指南提供了建立本地环境并利用其潜力的实际演练,从简化工作流程到解决现实世界中的问题。 准备建立自己的聪明视觉代理吗?让我们开始!

密钥学习目标:

    掌握AI驱动的GUI自动化中OmniparSer V2和Omnitool的核心函数。
  • 掌握了omniparser v2和omnitool的设置和配置,以供本地使用。
  • 使用视觉模型探索AI代理和图形用户界面之间的动态相互作用。
  • 识别OmniparSer V2和Omnitool的现实应用程序在自动化和可访问性中
  • 在部署自治的GUI代理时了解负责任的AI注意事项和风险缓解策略。
  • 目录的
  • 表:

介绍Microsoft Omniparser V2

理解Omnitool
  • omlniparser v2设置
  • >先决条件
  • >安装
    • 验证
    • omnitool设置
    >先决条件
  • VM配置
    • 通过Gradio
    • 运行Omnitool
    • 代理相互作用
    支持的视觉模型
  • 负责AI和风险缓解
  • 现实世界应用
  • 结论
  • 常见问题
  • Microsoft OmniparSer V2:深水潜水
> 检测模块:

一个精心调整的yolov8模型在屏幕截图中标识交互式元素(按钮,图标,菜单)。

    >字幕模块:
  • Florence-2基础模型生成描述性标签,澄清元素函数。
  • 这种组合的方法允许大型语言模型(LLMS)充分了解GUI,从而实现准确的互动和任务完成。 Omniparser V2在其前身方面显着改善,延迟降低了60%,准确性提高,尤其是对于较小的元素。
  • Omnitool:编排
  • Omnitool是一个dockerized Windows系统,将OmniparSer V2与领先的LLM(OpenAI,DeepSeek,Qwen,Anthropic)集成在一起。这种集成促进了AI代理的完全自主行动,从而简化了重复的GUI相互作用。 Omnitool提供了一个安全的沙箱,用于测试和部署代理,确保在现实世界中的效率和安全性。
>

Building a Local Vision Agent using OmniParser V2 and OmniTool

omniparser v2设置指南

>

>充分利用OmniparSer V2,请按照以下步骤:

>先决条件:

    python安装在您的系统上。
  • 通过Conda环境进行的必要依赖性。
>安装:

克隆OmniparSer V2存储库:
    >
  1. 导航到存储库:git clone https://github.com/microsoft/OmniParser
  2. >
  3. 创建并激活一个conda环境:cd OmniParser
  4. > conda create -n "omni" python==3.12使用huggingface-cli:(原始文章中提供的命令)conda activate omni>
  5. >验证:

>启动OmniParser V2服务器,并使用示例屏幕截图进行测试:

python gradio_demo.py

Building a Local Vision Agent using OmniParser V2 and OmniTool Omnitool设置指南Building a Local Vision Agent using OmniParser V2 and OmniTool

>先决条件:

30GB免费磁盘空间(ISO,Docker容器,存储)。 docker桌面安装了。

Windows 11企业评估ISO(重命名为custom.iso并放置在
    >中)。
  • vm配置:
  • OmniParser/omnitool/omnibox/vm/win11iso
>导航到VM管理脚本目录:

> 创建docker容器并安装ISO:

(这可能需要20-90分钟)。
    (用于启动,停止和删除VM的进一步说明是在原始文章中。)
  1. > cd OmniParser/omnitool/omnibox/scripts 通过Gradio运行Omnitool:
    1. 导航到Gradio目录:cd OmniParser/omnitool/gradio
    2. 激活您的conda环境:conda activate omni
    3. 启动服务器:python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000
    4. >
    5. >访问终端中显示的URL,输入API键,然后与AI代理进行交互。 确保在单独的终端窗口中运行的所有组件(OmniParser Server,Omnitool VM,Gradio接口)。

    Building a Local Vision Agent using OmniParser V2 and OmniTool Building a Local Vision Agent using OmniParser V2 and OmniToolBuilding a Local Vision Agent using OmniParser V2 and OmniTool (其余部分 - 代理互动,支持的视力模型,负责的AI和风险缓解,现实世界中的应用,结论和常见问题 - 在很大程度上与原始文章不变,并且可以在此处包括。)

以上是使用OmniparSer V2和Omnitool建立本地视觉代理的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
如何使用代理抹布构建智能常见问题解答聊天机器人如何使用代理抹布构建智能常见问题解答聊天机器人May 07, 2025 am 11:28 AM

人工智能代理人现在是企业大小的一部分。从医院的填写表格到检查法律文件到分析录像带和处理客户支持 - 我们拥有各种任务的AI代理。伴侣

从恐慌到权力:领导者在AI时代必须学到什么从恐慌到权力:领导者在AI时代必须学到什么May 07, 2025 am 11:26 AM

生活是美好的。 也可以预见的是,您的分析思维更喜欢它的方式。您今天只开会进入办公室,完成一些最后一刻的文书工作。之后,您要带您的伴侣和孩子们度过当之无愧的假期去阳光

为什么预测AGI将超过AI专家的科学共识的原因为什么为什么预测AGI将超过AI专家的科学共识的原因为什么May 07, 2025 am 11:24 AM

但是,科学共识具有打ic和陷阱,也许是通过使用融合的实验,也称为合奏,也许是一种更谨慎的方法。 让我们来谈谈。 对创新AI突破的这种分析是我的一部分

工作室吉卜力的困境 - 生成AI时代的版权工作室吉卜力的困境 - 生成AI时代的版权May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都没有回应此故事的评论请求。但是他们的沉默反映了创造性经济中更广泛,更复杂的紧张局势:版权在生成AI时代应该如何运作? 使用类似的工具

mulesoft为镀锌代理AI连接制定混合mulesoft为镀锌代理AI连接制定混合May 07, 2025 am 11:18 AM

混凝土和软件都可以在需要的情况下镀锌以良好的性能。两者都可以接受压力测试,两者都可以随着时间的流逝而遭受裂缝和裂缝,两者都可以分解并重构为“新建”,两种功能的产生

据报道,Openai达成了30亿美元的交易来购买Windsurf据报道,Openai达成了30亿美元的交易来购买WindsurfMay 07, 2025 am 11:16 AM

但是,许多报告都在非常表面的水平上停止。 如果您想弄清楚帆冲浪的全部内容,您可能会或可能不会从显示在Google搜索引擎顶部出现的联合内容中得到想要的东西

对所有美国孩子的强制性AI教育? 250多个首席执行官说是对所有美国孩子的强制性AI教育? 250多个首席执行官说是May 07, 2025 am 11:15 AM

关键事实 签署公开信的领导者包括Adobe,Accenture,AMD,American Airlines,Blue Origin,Cognizant,Dell,Dellbox,IBM,LinkedIn,Lyftin,Lyft,Microsoft,Microsoft,Salesforce,Uber,Uber,Yahoo和Zoom)等高调公司的首席执行官。

我们自满的危机:导航AI欺骗我们自满的危机:导航AI欺骗May 07, 2025 am 11:09 AM

这种情况不再是投机小说。在一项受控的实验中,阿波罗研究表明,GPT-4执行非法内幕交易计划,然后向研究人员撒谎。这一集生动地提醒了两条曲线

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。