首頁 >科技週邊 >人工智慧 >如何在本地運行Microsoft' Omniparser V2?

如何在本地運行Microsoft' Omniparser V2?

Christopher Nolan
Christopher Nolan原創
2025-03-04 10:20:15755瀏覽

Microsoft的OmniParser V2是一種尖端的AI屏幕解析器,通過分析屏幕截圖從GUI中提取結構化數據,使AI代理能夠無縫與屏幕上的元素進行交互。該工具非常適合構建自主GUI代理,是自動化和工作流優化的遊戲改變者。在本指南中,我們將介紹如何在本地安裝OmniParser V2,其運營力學以及與Omnitool的集成以及其現實世界應用程序。請繼續關注我們的下一篇文章,我將在其中探索以QWEN 2.5的OmniparSer v2(將GUI Automation to News formation to Omniparser V2)。 目錄的內容表

>

omlniparser v2的工作方式?
  • >步驟4:使用PIP
  • >步驟5:下載型號的權重
  • >步驟6:運行演示
  • 如何在本地運行Microsoft' Omniparser V2?

    結論 omniparser v2的工作方式? > omlniparser V2使用兩個步驟的過程:檢測和字幕。首先,其檢測模塊依賴於微調的Yolov8模型來在屏幕截圖中發現按鈕,圖標和菜單等交互元素。接下來,字幕模塊使用Florence-2基礎模型為這些元素創建描述性標籤,並解釋了它們在接口中的角色。這些模塊一起幫助大型語言模型(LLMS)完全了解GUI,實現了精確的交互和任務執行。 與其前任相比,OmniParser V2提供了重大升級。它可將延遲降低60%並提高準確性,尤其是用於檢測較小的元素。在Screenspot Pro之類的測試中,Omniparser V2與GPT-4O配對的平均準確度為39.6%,比基線得分的巨大飛躍為0.8%。這些收益來自對更大,更詳細的數據集進行培訓,其中包含有關圖標及其功能的豐富信息。 >安裝OmniParser V2的先決條件 在開始安裝過程之前
    • git:>安裝git以克隆omniparser存儲庫:
    sudo apt install git-all
    • > miniconda:>安裝用於管理Python環境的Miniconda。可以在以下說明中找到:Miniconda安裝指南。
    • nvidia cuda工具包和CUDA編譯器: GPU加速所需。從:CUDA下載下載適合您操作系統的適當文件。另外,您可以使用以下方式在Windows中安裝WSL來安裝所有內容
    • >安裝步驟
    >現在您已經準備好所有的東西了,讓我們看安裝OmniParser v2:>
    wsl --install
    >步驟1:克隆omniparser存儲庫

    >打開您的終端,然後從github中克隆omniparser存儲庫:

    >

    >步驟2:設置Conda環境 創建一個名為“ Omni”的conda環境,用python 3.12:

    git clone https://github.com/microsoft/OmniParser
    cd OmniParser
    步驟3:激活環境

    >步驟4:使用PIP

    安裝所需的依賴項
    conda create -n "omni" python==3.12

    步驟5:下載型號

    conda activate omni
    >下載V2權重,然後將其放入權重文件夾中。確保字幕稱為ICON_CAPTION_FLORENCE。如果未下載,請使用:

    pip install -r requirements.txt
    >步驟6:運行演示

    運行Gradio演示,執行:

    rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
    
    huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights
    
    mv weights/icon_caption weights/icon_caption_florence

    python gradio_demo.py

    >輸出如何在本地運行Microsoft' Omniparser V2?

    如何在本地運行Microsoft' Omniparser V2?

    omnitool:增強omniparser v2

    Omnitool是Windows 11虛擬機,將OmniParser與LLM(例如GPT-4O)集成在一起,以啟用完全自主的代理操作。

    使用omnitool:如何在本地運行Microsoft' Omniparser V2?>

    >

    >自治劑動作:使AI代理可以執行任務而無需人工干預。

    >

    >現實世界自動化:通過GUI互動來促進重複任務的自動化。

      可訪問性解決方案:
    • 為輔助技術提供結構化數據。 用戶界面分析:
    • 分析並根據提取的結構化數據進行分析並改進用戶界面。
    • omniparser v2
    • 的應用 >
      • UI自動化:與圖形用戶界面自動交互。
      • 可訪問性解決方案:為殘疾用戶提供解決方案。
      • > 用戶界面分析:基於提取的結構化數據分析和改進用戶界面設計。

      結論

      omniparser v2是AI視覺解析,無縫連接文本和視覺數據處理的重大飛躍。憑藉其速度,精度和無縫集成,它是希望建立AI驅動解決方案的開發人員和企業的必備工具。在下一篇文章中,我們將潛入使用QWEN 2.5的OmniparSer V2,從而解開了更多的現實應用程序潛力。請繼續關注!

    以上是如何在本地運行Microsoft' Omniparser V2?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

  • 陳述:
    本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn