搜尋
首頁科技週邊人工智慧使用OmniparSer V2和Omnitool建立本地視覺代理

Microsoft的Omniparser V2和Omnitool:用AI

徹底改變GUI自動化

想像AI不僅可以理解,還可以像經驗豐富的專業人員一樣與Windows 11界面進行互動。 Microsoft的OmniparSer V2和Omnitool使其成為現實,增強了重新定義任務自動化和用戶體驗的自主GUI代理。本指南提供了建立本地環境並利用其潛力的實際演練,從簡化工作流程到解決現實世界中的問題。 準備建立自己的聰明視覺代理嗎?讓我們開始!

密鑰學習目標:

    掌握AI驅動的GUI自動化中OmniparSer V2和Omnitool的核心函數。
  • 掌握了omniparser v2和omnitool的設置和配置,以供本地使用。
  • 使用視覺模型探索AI代理和圖形用戶界面之間的動態相互作用。
  • 識別OmniparSer V2和Omnitool的現實應用程序在自動化和可訪問性中
  • 在部署自治的GUI代理時了解負責任的AI注意事項和風險緩解策略。
  • 目錄的
  • 表:

介紹Microsoft Omniparser V2

理解Omnitool
  • omlniparser v2設置
  • >先決條件
  • >安裝
    • 驗證
    • omnitool設置
    >先決條件
  • VM配置
    • 通過Gradio
    • 運行Omnitool
    • 代理相互作用
    支持的視覺模型
  • 負責AI和風險緩解
  • 現實世界應用
  • 結論
  • 常見問題
  • Microsoft OmniparSer V2:深水潛水
> 檢測模塊:

一個精心調整的yolov8模型在屏幕截圖中標識交互式元素(按鈕,圖標,菜單)。

    >字幕模塊:
  • Florence-2基礎模型生成描述性標籤,澄清元素函數。
  • 這種組合的方法允許大型語言模型(LLMS)充分了解GUI,從而實現準確的互動和任務完成。 Omniparser V2在其前身方面顯著改善,延遲降低了60%,準確性提高,尤其是對於較小的元素。
  • Omnitool:編排
  • Omnitool是一個dockerized Windows系統,將OmniparSer V2與領先的LLM(OpenAI,DeepSeek,Qwen,Anthropic)集成在一起。這種集成促進了AI代理的完全自主行動,從而簡化了重複的GUI相互作用。 Omnitool提供了一個安全的沙箱,用於測試和部署代理,確保在現實世界中的效率和安全性。
>

Building a Local Vision Agent using OmniParser V2 and OmniTool

omniparser v2設置指南

>

>充分利用OmniparSer V2,請按照以下步驟:

>先決條件:

    python安裝在您的系統上。
  • 通過Conda環境進行的必要依賴性。
>安裝:

克隆OmniparSer V2存儲庫:
    >
  1. 導航到存儲庫:git clone https://github.com/microsoft/OmniParser
  2. >
  3. 創建並激活一個conda環境:cd OmniParser
  4. > conda create -n "omni" python==3.12使用huggingface-cli:(原始文章中提供的命令)conda activate omni>
  5. >驗證:

>啟動OmniParser V2服務器,並使用示例屏幕截圖進行測試:

python gradio_demo.py

Building a Local Vision Agent using OmniParser V2 and OmniTool Omnitool設置指南Building a Local Vision Agent using OmniParser V2 and OmniTool

>先決條件:

30GB免費磁盤空間(ISO,Docker容器,存儲)。 docker桌面安裝了。

Windows 11企業評估ISO(重命名為custom.iso並放置在
    >中)。
  • vm配置:
  • OmniParser/omnitool/omnibox/vm/win11iso
>導航到VM管理腳本目錄:

> 創建docker容器並安裝ISO:

(這可能需要20-90分鐘)。
    (用於啟動,停止和刪除VM的進一步說明是在原始文章中。)
  1. > cd OmniParser/omnitool/omnibox/scripts 通過Gradio運行Omnitool:
    1. 導航到Gradio目錄:cd OmniParser/omnitool/gradio
    2. 激活您的conda環境:conda activate omni
    3. 啟動服務器:python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000
    4. >
    5. >訪問終端中顯示的URL,輸入API鍵,然後與AI代理進行交互。 確保在單獨的終端窗口中運行的所有組件(OmniParser Server,Omnitool VM,Gradio接口)。

    Building a Local Vision Agent using OmniParser V2 and OmniTool Building a Local Vision Agent using OmniParser V2 and OmniToolBuilding a Local Vision Agent using OmniParser V2 and OmniTool (其餘部分 - 代理互動,支持的視力模型,負責的AI和風險緩解,現實世界中的應用,結論和常見問題 - 在很大程度上與原始文章不變,並且可以在此處包括。)

以上是使用OmniparSer V2和Omnitool建立本地視覺代理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用代理抹布構建智能常見問題聊天機器人如何使用代理抹布構建智能常見問題聊天機器人May 07, 2025 am 11:28 AM

人工智能代理人現在是企業大小的一部分。從醫院的填寫表格到檢查法律文件到分析錄像帶和處理客戶支持 - 我們擁有各種任務的AI代理。伴侶

從恐慌到權力:領導者在AI時代必須學會什麼從恐慌到權力:領導者在AI時代必須學會什麼May 07, 2025 am 11:26 AM

生活是美好的。 也可以預見的是,您的分析思維更喜歡它的方式。您今天只開會進入辦公室,完成一些最後一刻的文書工作。之後,您要帶您的伴侶和孩子們度過當之無愧的假期去陽光

為什麼預測AGI將超過AI專家的科學共識的原因為什麼為什麼預測AGI將超過AI專家的科學共識的原因為什麼May 07, 2025 am 11:24 AM

但是,科學共識具有打ic和陷阱,也許是通過使用融合的證據,也稱為合奏,也許是一種更加謹慎的方法。 讓我們來談談。 對創新AI突破的這種分析是我的一部分

吉卜力工作室的困境 - 生成AI時代的版權吉卜力工作室的困境 - 生成AI時代的版權May 07, 2025 am 11:19 AM

Openai和Studio Ghibli都沒有回應此故事的評論請求。但是他們的沉默反映了創造性經濟中更廣泛,更複雜的緊張局勢:版權在生成AI時代應該如何運作? 使用類似的工具

mulesoft為鍍鋅代理AI連接製定混合mulesoft為鍍鋅代理AI連接製定混合May 07, 2025 am 11:18 AM

混凝土和軟件都可以在需要的情況下鍍鋅以良好的性能。兩者都可以接受壓力測試,兩者都會隨著時間的流逝而遭受裂縫和裂縫,兩者都可以分解並重構為“新建”,兩種功能的產生

據報導,Openai達成了30億美元的交易來購買Windsurf據報導,Openai達成了30億美元的交易來購買WindsurfMay 07, 2025 am 11:16 AM

但是,許多報告都在非常表面的水平上停止。 如果您想弄清楚帆衝浪的全部內容,您可能會或可能不會從顯示在Google搜索引擎頂部出現的聯合內容中得到想要的東西

對所有美國孩子的強制性AI教育? 250多個首席執行官說是對所有美國孩子的強制性AI教育? 250多個首席執行官說是May 07, 2025 am 11:15 AM

關鍵事實 簽署公開信的領導者包括Adobe,Accenture,AMD,American Airlines,Blue Origin,Cognizant,Dell,Dellbox,IBM,LinkedIn,Lyftin,Lyft,Microsoft,Microsoft,Salesforce,Uber,Uber,Yahoo和Zoom)等高調公司的首席執行官。

我們自滿的危機:導航AI欺騙我們自滿的危機:導航AI欺騙May 07, 2025 am 11:09 AM

這種情況不再是投機小說。在一項受控的實驗中,阿波羅研究表明,GPT-4執行非法內幕交易計劃,然後向研究人員撒謊。這一集生動地提醒了兩條曲線

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。