このチュートリアルでは、Microsoftの軽量Phi-4-Multimodalモデルを使用して、マルチモーダル言語チューターの構築を示しています。このAI駆動のアプリケーションは、包括的な言語学習体験のためにテキスト、画像、およびオーディオ処理を活用します。
主な機能:
- テキストベースの学習:リアルタイムの文法チェック、言語翻訳、文の再構築、コンテキスト認識の語彙提案を提供します。
- 画像ベースの学習:画像からテキストを抽出および翻訳し、視覚的なコンテンツの要約を提供します。
- オーディオベースの学習:スピーチをテキストに変換し、発音を評価し、リアルタイムの音声翻訳を提供します。
phi-4-multimodalの概要:
PHI-4-Multimodalは、テキスト、画像、および音声の処理に優れています。その機能は次のとおりです。
- テキスト処理:文法修正、翻訳、および文の構築。
- 視覚処理:光学文字認識(OCR)、画像の要約、およびマルチモーダル相互作用。
- 音声処理:自動音声認識(ASR)、発音フィードバック、および音声からテキストへの翻訳。
128Kトークンのコンテキスト長さは、リアルタイムアプリケーションのパフォーマンスを最適化します。
段階的な実装:
1。前提条件:
必要なPythonライブラリをインストールする:
PIPインストールグラデーショントランストーチトーチサウンドファイル枕フラッシュアット - ノービルドイソル化
注:Flashattention2は、最適なパフォーマンスに推奨されます。古いGPUを使用している場合は、モデル初期化中に_attn_implementation="eager"
を設定することを検討してください。
必要なライブラリをインポートします:
Gragioをgrとしてインポートします トーチをインポートします リクエストをインポートします IOをインポートします OSをインポートします sfsとしてsoundfileをインポートします PILインポート画像から Transformers Import Automodelforcausallm、Autoprocessor、GenerationConfig
2。Phi-4-Multimodalの読み込み:
モデルとプロセッサを抱きしめる顔からロードします。
model_path = "Microsoft/Phi-4-Multimodal-instruct" processor = autoprocessor.from_pretrained(model_path、trust_remote_code = true) Model = automodelforcausallm.from_pretrained( model_path、 device_map = "cuda"、 torch_dtype = "auto"、 trust_remote_code = true、 _attn_implementation = 'flash_attention_2'、 ).cuda() Generation_config = generationconfig.from_pretrained(model_path)
3。コア機能:
-
clean_response(response, instruction_keywords)
:モデルの出力からプロンプトテキストを削除します。 -
process_input(file, input_type, question)
:テキスト、画像、およびオーディオ入力を処理し、phi-4-multimodalモデルを使用して回答を生成します。この関数は、各モダリティの入力処理、モデル推論、および応答クリーニングを管理します。 -
process_text_translate(text, target_language)
およびprocess_text_grammar(text)
:翻訳および文法修正のための特定の関数、process_input
をレバレッジします。
4。グラデーションインターフェース:
グラデーションインターフェイスは、モデルと対話するためのユーザーフレンドリーな方法を提供します。インターフェイスは、テキスト、画像、およびオーディオ処理用のタブで構成されており、それぞれに適切な入力フィールド(テキストボックス、画像アップロード、オーディオアップロード)と出力ディスプレイを備えています。ボタンは、関連する処理機能をトリガーします。
5。テストと結果:
このチュートリアルには、翻訳、文法修正、画像テキスト抽出、オーディオ転写/翻訳におけるモデルの機能を示す出力の例が含まれています。これらの例は、アプリケーション内の各モジュールの機能を示しています。
結論:
このチュートリアルは、Phi-4-Multimodalを使用して、堅牢なマルチモーダル言語チューターを構築するための実用的なガイドを提供します。アプリケーションの汎用性とリアルタイムの機能は、言語学習を強化する際のマルチモーダルAIの可能性を強調しています。
以上がPHI-4-Multimodal:デモプロジェクトを備えたガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

この緊急かつ不安な傾向に対処するために、TEM Journalの2025年2月版の査読済みの記事は、その技術のディープフェイクが現在存在する場所に関する最も明確でデータ駆動型の評価の1つを提供します。 研究者

新薬を策定するのにかかる時間を大幅に短縮することから、より環境に優しいエネルギーを生み出すまで、企業が新境地を破る大きな機会があります。 しかし、大きな問題があります:スキルを持っている人々が深刻な不足があります

数年前、科学者は、特定の種類のバクテリアが酸素を摂取するのではなく、電気を生成することで呼吸するように見えることを発見しましたが、どのようにしたのかは謎でした。 Journal Cellに掲載された新しい研究は、これがどのように起こるかを特定しています:微生物

今週のRSAC 2025会議で、SNYKは「The First 100 Days:How AI、Policy&Cybersecurity Collide」というタイトルのタイムリーなパネルを開催しました。ニコール・ペルロス、元ジャーナリストとパートネ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ホットトピック









