ホームページ >テクノロジー周辺機器 >AI >PHI-4-Multimodal:デモプロジェクトを備えたガイド

PHI-4-Multimodal:デモプロジェクトを備えたガイド

Lisa Kudrow
Lisa Kudrowオリジナル
2025-03-13 10:46:08880ブラウズ

このチュートリアルでは、Microsoftの軽量Phi-4-Multimodalモデルを使用して、マルチモーダル言語チューターの構築を示しています。このAI駆動のアプリケーションは、包括的な言語学習体験のためにテキスト、画像、およびオーディオ処理を活用します。

主な機能:

  • テキストベースの学習:リアルタイムの文法チェック、言語翻訳、文の再構築、コンテキスト認識の語彙提案を提供します。
  • 画像ベースの学習:画像からテキストを抽出および翻訳し、視覚的なコンテンツの要約を提供します。
  • オーディオベースの学習:スピーチをテキストに変換し、発音を評価し、リアルタイムの音声翻訳を提供します。

phi-4-multimodalの概要:

PHI-4-Multimodalは、テキスト、画像、および音声の処理に優れています。その機能は次のとおりです。

  • テキスト処理:文法修正、翻訳、および文の構築。
  • 視覚処理:光学文字認識(OCR)、画像の要約、およびマルチモーダル相互作用。
  • 音声処理:自動音声認識(ASR)、発音フィードバック、および音声からテキストへの翻訳。

128Kトークンのコンテキスト長さは、リアルタイムアプリケーションのパフォーマンスを最適化します。

PHI-4-Multimodal:デモプロジェクトを備えたガイド

段階的な実装:

1。前提条件:

必要なPythonライブラリをインストールする:

 PIPインストールグラデーショントランストーチトーチサウンドファイル枕フラッシュアット - ノービルドイソル化

注:Flashattention2は、最適なパフォーマンスに推奨されます。古いGPUを使用している場合は、モデル初期化中に_attn_implementation="eager"を設定することを検討してください。

必要なライブラリをインポートします:

 Gragioをgrとしてインポートします
トーチをインポートします
リクエストをインポートします
IOをインポートします
OSをインポートします
sfsとしてsoundfileをインポートします
PILインポート画像から
Transformers Import Automodelforcausallm、Autoprocessor、GenerationConfig

2。Phi-4-Multimodalの読み込み:

モデルとプロセッサを抱きしめる顔からロードします。

 model_path = "Microsoft/Phi-4-Multimodal-instruct"
processor = autoprocessor.from_pretrained(model_path、trust_remote_code = true)
Model = automodelforcausallm.from_pretrained(
    model_path、 
    device_map = "cuda"、 
    torch_dtype = "auto"、 
    trust_remote_code = true、
    _attn_implementation = 'flash_attention_2'、
).cuda()
Generation_config = generationconfig.from_pretrained(model_path)

3。コア機能:

  • clean_response(response, instruction_keywords)モデルの出力からプロンプトテキストを削除します。
  • process_input(file, input_type, question)テキスト、画像、およびオーディオ入力を処理し、phi-4-multimodalモデルを使用して回答を生成します。この関数は、各モダリティの入力処理、モデル推論、および応答クリーニングを管理します。
  • process_text_translate(text, target_language)およびprocess_text_grammar(text)翻訳および文法修正のための特定の関数、 process_inputをレバレッジします。

4。グラデーションインターフェース:

グラデーションインターフェイスは、モデルと対話するためのユーザーフレンドリーな方法を提供します。インターフェイスは、テキスト、画像、およびオーディオ処理用のタブで構成されており、それぞれに適切な入力フィールド(テキストボックス、画像アップロード、オーディオアップロード)と出力ディスプレイを備えています。ボタンは、関連する処理機能をトリガーします。

5。テストと結果:

このチュートリアルには、翻訳、文法修正、画像テキスト抽出、オーディオ転写/翻訳におけるモデルの機能を示す出力の例が含まれています。これらの例は、アプリケーション内の各モジュールの機能を示しています。

結論:

このチュートリアルは、Phi-4-Multimodalを使用して、堅牢なマルチモーダル言語チューターを構築するための実用的なガイドを提供します。アプリケーションの汎用性とリアルタイムの機能は、言語学習を強化する際のマルチモーダルAIの可能性を強調しています。

以上がPHI-4-Multimodal:デモプロジェクトを備えたガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。