PHI-4-Multimodal：デモプロジェクトを備えたガイド-AI-php.cn

ホームページ

テクノロジー周辺機器

PHI-4-Multimodal：デモプロジェクトを備えたガイド

Lisa Kudrow

Mar 13, 2025 am 10:46 AM

このチュートリアルでは、Microsoftの軽量Phi-4-Multimodalモデルを使用して、マルチモーダル言語チューターの構築を示しています。このAI駆動のアプリケーションは、包括的な言語学習体験のためにテキスト、画像、およびオーディオ処理を活用します。

主な機能：

テキストベースの学習：リアルタイムの文法チェック、言語翻訳、文の再構築、コンテキスト認識の語彙提案を提供します。
画像ベースの学習：画像からテキストを抽出および翻訳し、視覚的なコンテンツの要約を提供します。
オーディオベースの学習：スピーチをテキストに変換し、発音を評価し、リアルタイムの音声翻訳を提供します。

phi-4-multimodalの概要：

PHI-4-Multimodalは、テキスト、画像、および音声の処理に優れています。その機能は次のとおりです。

テキスト処理：文法修正、翻訳、および文の構築。
視覚処理：光学文字認識（OCR）、画像の要約、およびマルチモーダル相互作用。
音声処理：自動音声認識（ASR）、発音フィードバック、および音声からテキストへの翻訳。

128Kトークンのコンテキスト長さは、リアルタイムアプリケーションのパフォーマンスを最適化します。

PHI-4-Multimodal：デモプロジェクトを備えたガイド

段階的な実装：

1。前提条件：

必要なPythonライブラリをインストールする：

 PIPインストールグラデーショントランストーチトーチサウンドファイル枕フラッシュアット - ノービルドイソル化

注：Flashattention2は、最適なパフォーマンスに推奨されます。古いGPUを使用している場合は、モデル初期化中に_attn_implementation="eager"を設定することを検討してください。

必要なライブラリをインポートします：

 Gragioをgrとしてインポートします
トーチをインポートします
リクエストをインポートします
IOをインポートします
OSをインポートします
sfsとしてsoundfileをインポートします
PILインポート画像から
Transformers Import Automodelforcausallm、Autoprocessor、GenerationConfig

2。Phi-4-Multimodalの読み込み：

モデルとプロセッサを抱きしめる顔からロードします。

 model_path = "Microsoft/Phi-4-Multimodal-instruct"
processor = autoprocessor.from_pretrained（model_path、trust_remote_code = true）
Model = automodelforcausallm.from_pretrained（
    model_path、 
    device_map = "cuda"、 
    torch_dtype = "auto"、 
    trust_remote_code = true、
    _attn_implementation = 'flash_attention_2'、
）.cuda（）
Generation_config = generationconfig.from_pretrained（model_path）

3。コア機能：

clean_response(response, instruction_keywords) ：モデルの出力からプロンプトテキストを削除します。
process_input(file, input_type, question) ：テキスト、画像、およびオーディオ入力を処理し、phi-4-multimodalモデルを使用して回答を生成します。この関数は、各モダリティの入力処理、モデル推論、および応答クリーニングを管理します。
process_text_translate(text, target_language)およびprocess_text_grammar(text) ：翻訳および文法修正のための特定の関数、 process_inputをレバレッジします。

4。グラデーションインターフェース：

グラデーションインターフェイスは、モデルと対話するためのユーザーフレンドリーな方法を提供します。インターフェイスは、テキスト、画像、およびオーディオ処理用のタブで構成されており、それぞれに適切な入力フィールド（テキストボックス、画像アップロード、オーディオアップロード）と出力ディスプレイを備えています。ボタンは、関連する処理機能をトリガーします。

5。テストと結果：

このチュートリアルには、翻訳、文法修正、画像テキスト抽出、オーディオ転写/翻訳におけるモデルの機能を示す出力の例が含まれています。これらの例は、アプリケーション内の各モジュールの機能を示しています。

結論：

このチュートリアルは、Phi-4-Multimodalを使用して、堅牢なマルチモーダル言語チューターを構築するための実用的なガイドを提供します。アプリケーションの汎用性とリアルタイムの機能は、言語学習を強化する際のマルチモーダルAIの可能性を強調しています。

以上がPHI-4-Multimodal：デモプロジェクトを備えたガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

生成エンジン最適化に関するビジネスリーダーのガイド（GEO）May 03, 2025 am 11:14 AM

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

このスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますMay 03, 2025 am 11:13 AM

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているかMay 03, 2025 am 11:12 AM

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

2050年5月：私たちは祝うために何を残しましたか？May 03, 2025 am 11:11 AM

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

あなたが聞いたことがないディープフェイク検出器はそれが98％正確ですMay 03, 2025 am 11:10 AM

この緊急かつ不安な傾向に対処するために、TEM Journalの2025年2月版の査読済みの記事は、その技術のディープフェイクが現在存在する場所に関する最も明確でデータ駆動型の評価の1つを提供します。研究者

Quantum Talent Wars：The Hidden Crisis Treatenting Tech＆＃x27;の次のフロンティアMay 03, 2025 am 11:09 AM

新薬を策定するのにかかる時間を大幅に短縮することから、より環境に優しいエネルギーを生み出すまで、企業が新境地を破る大きな機会があります。しかし、大きな問題があります：スキルを持っている人々が深刻な不足があります

プロトタイプ：これらの細菌は電気を生成できますMay 03, 2025 am 11:08 AM

数年前、科学者は、特定の種類のバクテリアが酸素を摂取するのではなく、電気を生成することで呼吸するように見えることを発見しましたが、どのようにしたのかは謎でした。 Journal Cellに掲載された新しい研究は、これがどのように起こるかを特定しています：微生物

AIとサイバーセキュリティ：新政権の100日間の計算May 03, 2025 am 11:07 AM

今週のRSAC 2025会議で、SNYKは「The First 100 Days：How AI、Policy＆Cybersecurity Collide」というタイトルのタイムリーなパネルを開催しました。ニコール・ペルロス、元ジャーナリストとパートネ

See all articles

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。