ホームページ >テクノロジー周辺機器 >AI >Microsoft'のOmniparser V2をローカルに実行するにはどうすればよいですか?

Microsoft'のOmniparser V2をローカルに実行するにはどうすればよいですか?

Christopher Nolan
Christopher Nolanオリジナル
2025-03-04 10:20:15756ブラウズ

MicrosoftのOmniparser V2は、スクリーンショットを分析してGUIから構造化されたデータを抽出し、AIエージェントが画面上の要素とシームレスに対話できるようにする最先端のAIスクリーンパーサーです。自律的なGUIエージェントの構築に最適なこのツールは、自動化とワークフローの最適化のためのゲームチェンジャーです。このガイドでは、Omniparser V2をローカルにインストールする方法、その運用力学、およびその現実世界のアプリケーションとともに、Omnitoolとの統合について説明します。次の記事にご期待ください。ここでは、QWEN 2.5を使用してOmniparser V2を実行します。GUIオートメーションを次のレベルに向けてご覧ください。

目次

    Omniparser v2がどのように機能するのか?環境
  • ステップ4:PIPを使用して必要な依存関係をインストールします
  • ステップ5:モデルの重みをダウンロード
    • ステップ6:デモを実行する
  • 結論
  • どのようにomniparser v2が機能しますか?
  • Omniparser V2は、2段階のプロセスを使用します:検出とキャプション。第一に、その検出モジュールは、微調整されたYolov8モデルに依存して、スクリーンショットでボタン、アイコン、メニューなどのインタラクティブな要素を見つけます。次に、キャプションモジュールでは、Florence-2 Foundationモデルを使用して、これらの要素の記述ラベルを作成し、インターフェイス内での役割を説明します。一緒に、これらのモジュールは大規模な言語モデル(LLM)を完全に理解し、正確な相互作用とタスクの実行を可能にします。
  • 前任者と比較して、Omniparser V2は主要なアップグレードを提供します。特に小さな要素を検出するために、遅延を60%削減し、精度を向上させます。 Screenspot Proなどのテストでは、GPT-4oとペアになったOmniparser V2の平均精度は39.6%で、ベースラインスコアは0.8%の大きな飛躍です。これらの利益は、アイコンとその機能に関する豊富な情報を含む、より大きく、より詳細なデータセットでのトレーニングから生じます。
  • Omniparser v2
  • のインストールのための前提条件
インストールプロセスを開始する前に、システムが次の要件を満たしていることを確認してください。
  • git:gitをインストールして、omniparserリポジトリをクローン化します:
sudo apt install git-all
  • ミニコンダ: Python環境を管理するためにMinicondaをインストールします。指示は次のとおりです。Minicondaインストールガイド
  • nvidia cudaツールキットおよびcudaコンパイラ:
  • GPU加速に必要です。 CUDAダウンロードからオペレーティングシステムに適切なファイルをダウンロードします。または、以下を使用してWSLをWindowsにインストールして、すべてをインストールできます。
  • インストール手順
wsl --install
すべての準備ができたので、Omniparser v2:

のインストールを見てみましょう

ステップ1:Omniparserリポジトリをクローン

ターミナルを開き、GithubからOmniparserリポジトリをクローンします:

ステップ2:コンドラ環境をセットアップ

git clone https://github.com/microsoft/OmniParser
cd OmniParser
Python 3.12:

を使用して「Omni」という名前のConda環境を作成します

ステップ3:環境をアクティブにします

conda create -n "omni" python==3.12

ステップ4:pip

を使用して、必要な依存関係をインストールします
conda activate omni

ステップ5:モデルの重みをダウンロード

pip install -r requirements.txt
V2ウェイトをダウンロードして、Weightsフォルダーに配置します。キャプションウェイトフォルダーにicon_caption_florenceという名前があることを確認してください。ダウンロードされていない場合は、

を使用してください

ステップ6:デモを実行する

rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence

huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights

mv weights/icon_caption weights/icon_caption_florence
Gradio Demoを実行するには、実行:

python gradio_demo.py

Microsoft'のOmniparser V2をローカルに実行するにはどうすればよいですか?

outputMicrosoft'のOmniparser V2をローカルに実行するにはどうすればよいですか?

Omnitool:Omniparser v2Microsoft'のOmniparser V2をローカルに実行するにはどうすればよいですか?の強化

Omnitoolは、完全に自律的なエージェントアクションを有効にするために、OmniparserをLLM(GPT-4Oなど)と統合するWindows 11仮想マシンです。

Omnitoolを使用することの利点:

自律エージェントアクション:

AIエージェントが人間の介入なしでタスクを実行できるようにします。
  • 現実世界の自動化:GUI相互作用を通じて繰り返しタスクの自動化を促進します。
  • アクセシビリティソリューション:
  • 支援技術のために構造化されたデータを提供します ユーザーインターフェイス分析:
  • 抽出された構造化データに基づいてユーザーインターフェイスを分析および改善します。
  • Omniparser v2のアプリケーション Omniparser V2の機能は、多数のアプリケーションを開きます:
    • UI Automation:グラフィカルユーザーインターフェイスとの対話の自動化
    • アクセシビリティソリューション:
    • 障害のあるユーザーにソリューションを提供します ユーザーインターフェイス分析:
    • 抽出された構造化データに基づいてユーザーインターフェイス設計の分析と改善。
    • 結論
    • Omniparser V2は、AIの視覚的解析において大きな跳躍であり、テキストと視覚データの処理をシームレスに接続します。スピード、精度、シームレスな統合により、AIを搭載したソリューションを構築しようとする開発者や企業にとって必須のツールです。次の記事では、QWEN 2.5でOmniparser V2を実行していることに飛び込み、実際のアプリケーションの可能性がさらに高まります。お楽しみに!

以上がMicrosoft'のOmniparser V2をローカルに実行するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。