Rumah >Peranti teknologi >AI >Phi-4-Multimodal: Panduan dengan Projek Demo

Phi-4-Multimodal: Panduan dengan Projek Demo

Lisa Kudrowasal: 2025-03-13 10:46:08880semak imbas

Tutorial ini menunjukkan membina tutor bahasa multimodal menggunakan model PHI-4-multimodal ringan Microsoft. Aplikasi AI yang berkuasa ini memanfaatkan teks, imej, dan pemprosesan audio untuk pengalaman pembelajaran bahasa yang komprehensif.

Ciri -ciri utama:

Pembelajaran berasaskan teks: Menawarkan pemeriksaan tatabahasa masa nyata, terjemahan bahasa, penstrukturan semula hukuman, dan cadangan perbendaharaan kata konteks.
Pembelajaran berasaskan imej: Ekstrak dan menterjemahkan teks dari imej dan menyediakan ringkasan kandungan visual.
Pembelajaran berasaskan audio: Menukar ucapan kepada teks, menilai sebutan, dan menawarkan terjemahan ucapan masa nyata.

Gambaran Keseluruhan Phi-4-Multimodal:

PHI-4-Multimodal cemerlang dalam pemprosesan teks, imej, dan ucapan. Keupayaannya termasuk:

Pemprosesan Teks: Pembetulan tatabahasa, terjemahan, dan pembinaan kalimat.
Pemprosesan Visi: Pengiktirafan watak optik (OCR), ringkasan imej, dan interaksi multimodal.
Pemprosesan Ucapan: Pengiktirafan ucapan automatik (ASR), maklum balas sebutan, dan terjemahan pertuturan-ke-teks.

Panjang konteks 128K mengoptimumkan prestasi untuk aplikasi masa nyata.

Phi-4-Multimodal: Panduan dengan Projek Demo

Pelaksanaan langkah demi langkah:

1. Prasyarat:

Pasang perpustakaan python yang diperlukan:

 Pip Install Gradio Transformers Torch Soundfile Bantal Flash-Attn --no-Build-Isolation

NOTA: filheDattention2 disyorkan untuk prestasi optimum. Jika menggunakan GPU yang lebih tua, pertimbangkan tetapan _attn_implementation="eager" semasa permulaan model.

Import perpustakaan yang diperlukan:

 Import Gradio sebagai GR
obor import
permintaan import
Import io
Import OS
Import Soundfile sebagai SF
dari gambar import pil
Dari Transformers Import AutomelforCausallm, Autoprocessor, GenerationConfig

2. Memuatkan Phi-4-Multimodal:

Muatkan model dan pemproses dari memeluk muka:

 Model_Path = "Microsoft/Phi-4-Multimodal-Instruct"
pemproses = autoprocessor.from_pretrained (model_path, aman_remote_code = true)
Model = automelforcausallm.from_pretrained (
    Model_Path, 
    device_map = "cuda", 
    TORCH_DTYPE = "AUTO", 
    aman_remote_code = benar,
    _attn_implementation = 'flash_attention_2',
) .cuda ()
generasi_config = generasiconfig.from_pretrained (model_path)

3. Fungsi teras:

clean_response(response, instruction_keywords) : Mengeluarkan teks prompt dari output model.
process_input(file, input_type, question) : Mengendalikan teks, imej, dan input audio, menjana respons menggunakan model phi-4-multimodal. Fungsi ini menguruskan pemprosesan input, kesimpulan model, dan pembersihan tindak balas untuk setiap modaliti.
process_text_translate(text, target_language) dan process_text_grammar(text) : Fungsi khusus untuk terjemahan dan pembetulan tatabahasa, masing -masing, memanfaatkan process_input .

4. Antara muka Gradio:

Antara muka Gradio menyediakan cara yang mesra pengguna untuk berinteraksi dengan model. Antara muka disusun dengan tab untuk pemprosesan teks, imej, dan audio, masing -masing dengan medan input yang sesuai (kotak teks, muat naik imej, muat naik audio) dan paparan output. Butang mencetuskan fungsi pemprosesan yang berkaitan.

5. Ujian dan Keputusan:

Tutorial ini termasuk output contoh yang menunjukkan keupayaan model dalam terjemahan, pembetulan tatabahasa, pengekstrakan teks imej, dan transkripsi/terjemahan audio. Contoh -contoh ini mempamerkan fungsi setiap modul dalam aplikasi.

Kesimpulan:

Tutorial ini menyediakan panduan praktikal untuk membina tutor bahasa multimodal yang mantap menggunakan Phi-4-Multimodal. Keupayaan dan keupayaan masa nyata aplikasi menyerlahkan potensi AI multimodal dalam meningkatkan pembelajaran bahasa.

Atas ialah kandungan terperinci Phi-4-Multimodal: Panduan dengan Projek Demo. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Python if for include Token using Length Interface function this input ocr microsoft prompt Transcription Prompt

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：12 model sumber terbuka teratas di Huggingface pada tahun 2024Artikel seterusnya：12 model sumber terbuka teratas di Huggingface pada tahun 2024

Artikel berkaitan

Lihat lagi