ホームページ >テクノロジー周辺機器 >AI >Microsoft＆＃039;のOmniparser V2をローカルに実行するにはどうすればよいですか？

Microsoft＆＃039;のOmniparser V2をローカルに実行するにはどうすればよいですか？

Christopher Nolanオリジナル: 2025-03-04 10:20:15756ブラウズ

MicrosoftのOmniparser V2は、スクリーンショットを分析してGUIから構造化されたデータを抽出し、AIエージェントが画面上の要素とシームレスに対話できるようにする最先端のAIスクリーンパーサーです。自律的なGUIエージェントの構築に最適なこのツールは、自動化とワークフローの最適化のためのゲームチェンジャーです。このガイドでは、Omniparser V2をローカルにインストールする方法、その運用力学、およびその現実世界のアプリケーションとともに、Omnitoolとの統合について説明します。次の記事にご期待ください。ここでは、QWEN 2.5を使用してOmniparser V2を実行します。GUIオートメーションを次のレベルに向けてご覧ください。

ステップ4：PIPを使用して必要な依存関係をインストールします
ステップ5：モデルの重みをダウンロード
どのようにomniparser v2が機能しますか？
Omniparser V2は、2段階のプロセスを使用します：検出とキャプション。第一に、その検出モジュールは、微調整されたYolov8モデルに依存して、スクリーンショットでボタン、アイコン、メニューなどのインタラクティブな要素を見つけます。次に、キャプションモジュールでは、Florence-2 Foundationモデルを使用して、これらの要素の記述ラベルを作成し、インターフェイス内での役割を説明します。一緒に、これらのモジュールは大規模な言語モデル（LLM）を完全に理解し、正確な相互作用とタスクの実行を可能にします。
Omniparser v2

インストールプロセスを開始する前に、システムが次の要件を満たしていることを確認してください。

git：gitをインストールして、omniparserリポジトリをクローン化します：

sudo apt install git-all

ミニコンダ： Python環境を管理するためにMinicondaをインストールします。指示は次のとおりです。Minicondaインストールガイド
GPU加速に必要です。 CUDAダウンロードからオペレーティングシステムに適切なファイルをダウンロードします。または、以下を使用してWSLをWindowsにインストールして、すべてをインストールできます。

wsl --install

すべての準備ができたので、Omniparser v2：

のインストールを見てみましょう

ステップ1：Omniparserリポジトリをクローン

ターミナルを開き、GithubからOmniparserリポジトリをクローンします：

ステップ2：コンドラ環境をセットアップ

git clone https://github.com/microsoft/OmniParser
cd OmniParser

Python 3.12：

を使用して「Omni」という名前のConda環境を作成します

ステップ3：環境をアクティブにします

conda create -n "omni" python==3.12

ステップ4：pip

を使用して、必要な依存関係をインストールします

conda activate omni

ステップ5：モデルの重みをダウンロード

pip install -r requirements.txt

V2ウェイトをダウンロードして、Weightsフォルダーに配置します。キャプションウェイトフォルダーにicon_caption_florenceという名前があることを確認してください。ダウンロードされていない場合は、

を使用してください

ステップ6：デモを実行する

rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence

huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights

mv weights/icon_caption weights/icon_caption_florence

Gradio Demoを実行するには、実行：