Microsoft的OmniParser V2是一種尖端的AI屏幕解析器,通過分析屏幕截圖從GUI中提取結構化數據,使AI代理能夠無縫與屏幕上的元素進行交互。該工具非常適合構建自主GUI代理,是自動化和工作流優化的遊戲改變者。在本指南中,我們將介紹如何在本地安裝OmniParser V2,其運營力學以及與Omnitool的集成以及其現實世界應用程序。請繼續關注我們的下一篇文章,我將在其中探索以QWEN 2.5的OmniparSer v2(將GUI Automation to News formation to Omniparser V2)。 目錄的內容表
sudo apt install git-all
wsl --install>步驟1:克隆omniparser存儲庫
>步驟2:設置Conda環境
創建一個名為“ Omni”的conda環境,用python 3.12:
git clone https://github.com/microsoft/OmniParser cd OmniParser步驟3:激活環境
>步驟4:使用PIP
安裝所需的依賴項conda create -n "omni" python==3.12
conda activate omni>下載V2權重,然後將其放入權重文件夾中。確保字幕稱為ICON_CAPTION_FLORENCE。如果未下載,請使用:
pip install -r requirements.txt>步驟6:運行演示
rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights mv weights/icon_caption weights/icon_caption_florence
python gradio_demo.py
>輸出
使用omnitool:>
>
>現實世界自動化:通過GUI互動來促進重複任務的自動化。
omniparser v2是AI視覺解析,無縫連接文本和視覺數據處理的重大飛躍。憑藉其速度,精度和無縫集成,它是希望建立AI驅動解決方案的開發人員和企業的必備工具。在下一篇文章中,我們將潛入使用QWEN 2.5的OmniparSer V2,從而解開了更多的現實應用程序潛力。請繼續關注!
以上是如何在本地運行Microsoft' Omniparser V2?的詳細內容。更多資訊請關注PHP中文網其他相關文章!