Rumah >Peranti teknologi >AI >Phi-4-Multimodal: Panduan dengan Projek Demo

Phi-4-Multimodal: Panduan dengan Projek Demo

Lisa Kudrow
Lisa Kudrowasal
2025-03-13 10:46:08880semak imbas

Tutorial ini menunjukkan membina tutor bahasa multimodal menggunakan model PHI-4-multimodal ringan Microsoft. Aplikasi AI yang berkuasa ini memanfaatkan teks, imej, dan pemprosesan audio untuk pengalaman pembelajaran bahasa yang komprehensif.

Ciri -ciri utama:

  • Pembelajaran berasaskan teks: Menawarkan pemeriksaan tatabahasa masa nyata, terjemahan bahasa, penstrukturan semula hukuman, dan cadangan perbendaharaan kata konteks.
  • Pembelajaran berasaskan imej: Ekstrak dan menterjemahkan teks dari imej dan menyediakan ringkasan kandungan visual.
  • Pembelajaran berasaskan audio: Menukar ucapan kepada teks, menilai sebutan, dan menawarkan terjemahan ucapan masa nyata.

Gambaran Keseluruhan Phi-4-Multimodal:

PHI-4-Multimodal cemerlang dalam pemprosesan teks, imej, dan ucapan. Keupayaannya termasuk:

  • Pemprosesan Teks: Pembetulan tatabahasa, terjemahan, dan pembinaan kalimat.
  • Pemprosesan Visi: Pengiktirafan watak optik (OCR), ringkasan imej, dan interaksi multimodal.
  • Pemprosesan Ucapan: Pengiktirafan ucapan automatik (ASR), maklum balas sebutan, dan terjemahan pertuturan-ke-teks.

Panjang konteks 128K mengoptimumkan prestasi untuk aplikasi masa nyata.

Phi-4-Multimodal: Panduan dengan Projek Demo

Pelaksanaan langkah demi langkah:

1. Prasyarat:

Pasang perpustakaan python yang diperlukan:

 Pip Install Gradio Transformers Torch Soundfile Bantal Flash-Attn --no-Build-Isolation

NOTA: filheDattention2 disyorkan untuk prestasi optimum. Jika menggunakan GPU yang lebih tua, pertimbangkan tetapan _attn_implementation="eager" semasa permulaan model.

Import perpustakaan yang diperlukan:

 Import Gradio sebagai GR
obor import
permintaan import
Import io
Import OS
Import Soundfile sebagai SF
dari gambar import pil
Dari Transformers Import AutomelforCausallm, Autoprocessor, GenerationConfig

2. Memuatkan Phi-4-Multimodal:

Muatkan model dan pemproses dari memeluk muka:

 Model_Path = "Microsoft/Phi-4-Multimodal-Instruct"
pemproses = autoprocessor.from_pretrained (model_path, aman_remote_code = true)
Model = automelforcausallm.from_pretrained (
    Model_Path, 
    device_map = "cuda", 
    TORCH_DTYPE = "AUTO", 
    aman_remote_code = benar,
    _attn_implementation = 'flash_attention_2',
) .cuda ()
generasi_config = generasiconfig.from_pretrained (model_path)

3. Fungsi teras:

  • clean_response(response, instruction_keywords) : Mengeluarkan teks prompt dari output model.
  • process_input(file, input_type, question) : Mengendalikan teks, imej, dan input audio, menjana respons menggunakan model phi-4-multimodal. Fungsi ini menguruskan pemprosesan input, kesimpulan model, dan pembersihan tindak balas untuk setiap modaliti.
  • process_text_translate(text, target_language) dan process_text_grammar(text) : Fungsi khusus untuk terjemahan dan pembetulan tatabahasa, masing -masing, memanfaatkan process_input .

4. Antara muka Gradio:

Antara muka Gradio menyediakan cara yang mesra pengguna untuk berinteraksi dengan model. Antara muka disusun dengan tab untuk pemprosesan teks, imej, dan audio, masing -masing dengan medan input yang sesuai (kotak teks, muat naik imej, muat naik audio) dan paparan output. Butang mencetuskan fungsi pemprosesan yang berkaitan.

5. Ujian dan Keputusan:

Tutorial ini termasuk output contoh yang menunjukkan keupayaan model dalam terjemahan, pembetulan tatabahasa, pengekstrakan teks imej, dan transkripsi/terjemahan audio. Contoh -contoh ini mempamerkan fungsi setiap modul dalam aplikasi.

Kesimpulan:

Tutorial ini menyediakan panduan praktikal untuk membina tutor bahasa multimodal yang mantap menggunakan Phi-4-Multimodal. Keupayaan dan keupayaan masa nyata aplikasi menyerlahkan potensi AI multimodal dalam meningkatkan pembelajaran bahasa.

Atas ialah kandungan terperinci Phi-4-Multimodal: Panduan dengan Projek Demo. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn