MicrosoftのOmniparser V2は、スクリーンショットを分析してGUIから構造化されたデータを抽出し、AIエージェントが画面上の要素とシームレスに対話できるようにする最先端のAIスクリーンパーサーです。自律的なGUIエージェントの構築に最適なこのツールは、自動化とワークフローの最適化のためのゲームチェンジャーです。このガイドでは、Omniparser V2をローカルにインストールする方法、その運用力学、およびその現実世界のアプリケーションとともに、Omnitoolとの統合について説明します。次の記事にご期待ください。ここでは、QWEN 2.5を使用してOmniparser V2を実行します。GUIオートメーションを次のレベルに向けてご覧ください。
目次
Omniparser v2がどのように機能するのか?環境- ステップ4:PIPを使用して必要な依存関係をインストールします
- ステップ5:モデルの重みをダウンロード
-
結論-
- どのようにomniparser v2が機能しますか?
- Omniparser V2は、2段階のプロセスを使用します:検出とキャプション。第一に、その検出モジュールは、微調整されたYolov8モデルに依存して、スクリーンショットでボタン、アイコン、メニューなどのインタラクティブな要素を見つけます。次に、キャプションモジュールでは、Florence-2 Foundationモデルを使用して、これらの要素の記述ラベルを作成し、インターフェイス内での役割を説明します。一緒に、これらのモジュールは大規模な言語モデル(LLM)を完全に理解し、正確な相互作用とタスクの実行を可能にします。
前任者と比較して、Omniparser V2は主要なアップグレードを提供します。特に小さな要素を検出するために、遅延を60%削減し、精度を向上させます。 Screenspot Proなどのテストでは、GPT-4oとペアになったOmniparser V2の平均精度は39.6%で、ベースラインスコアは0.8%の大きな飛躍です。これらの利益は、アイコンとその機能に関する豊富な情報を含む、より大きく、より詳細なデータセットでのトレーニングから生じます。
-
-
Omniparser v2
のインストールのための前提条件
インストールプロセスを開始する前に、システムが次の要件を満たしていることを確認してください。
-
git:gitをインストールして、omniparserリポジトリをクローン化します:
sudo apt install git-all
-
ミニコンダ: Python環境を管理するためにMinicondaをインストールします。指示は次のとおりです。Minicondaインストールガイド
nvidia cudaツールキットおよびcudaコンパイラ:- GPU加速に必要です。 CUDAダウンロードからオペレーティングシステムに適切なファイルをダウンロードします。または、以下を使用してWSLをWindowsにインストールして、すべてをインストールできます。
インストール手順
wsl --install
すべての準備ができたので、Omniparser v2:
のインストールを見てみましょう
ステップ1:Omniparserリポジトリをクローン
ターミナルを開き、GithubからOmniparserリポジトリをクローンします:
ステップ2:コンドラ環境をセットアップ
git clone https://github.com/microsoft/OmniParser
cd OmniParser
Python 3.12:
を使用して「Omni」という名前のConda環境を作成します
ステップ3:環境をアクティブにします
conda create -n "omni" python==3.12
ステップ4:pip
を使用して、必要な依存関係をインストールします
conda activate omni
ステップ5:モデルの重みをダウンロード
pip install -r requirements.txt
V2ウェイトをダウンロードして、Weightsフォルダーに配置します。キャプションウェイトフォルダーにicon_caption_florenceという名前があることを確認してください。ダウンロードされていない場合は、
を使用してください
ステップ6:デモを実行する
rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence
huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights
mv weights/icon_caption weights/icon_caption_florence
Gradio Demoを実行するには、実行:
python gradio_demo.py

output
Omnitool:Omniparser v2
の強化
Omnitoolは、完全に自律的なエージェントアクションを有効にするために、OmniparserをLLM(GPT-4Oなど)と統合するWindows 11仮想マシンです。
Omnitoolを使用することの利点:
自律エージェントアクション:
AIエージェントが人間の介入なしでタスクを実行できるようにします。
- 現実世界の自動化:GUI相互作用を通じて繰り返しタスクの自動化を促進します。
アクセシビリティソリューション:- 支援技術のために構造化されたデータを提供します
ユーザーインターフェイス分析:
抽出された構造化データに基づいてユーザーインターフェイスを分析および改善します。
-
Omniparser v2のアプリケーション
Omniparser V2の機能は、多数のアプリケーションを開きます:
- UI Automation:グラフィカルユーザーインターフェイスとの対話の自動化
アクセシビリティソリューション:- 障害のあるユーザーにソリューションを提供します
ユーザーインターフェイス分析:
抽出された構造化データに基づいてユーザーインターフェイス設計の分析と改善。
-
結論
Omniparser V2は、AIの視覚的解析において大きな跳躍であり、テキストと視覚データの処理をシームレスに接続します。スピード、精度、シームレスな統合により、AIを搭載したソリューションを構築しようとする開発者や企業にとって必須のツールです。次の記事では、QWEN 2.5でOmniparser V2を実行していることに飛び込み、実際のアプリケーションの可能性がさらに高まります。お楽しみに!
以上がMicrosoft'のOmniparser V2をローカルに実行するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。