Maison >Périphériques technologiques >IA >PHI-4-Multimodal: un guide avec projet de démonstration

PHI-4-Multimodal: un guide avec projet de démonstration

Lisa Kudrow
Lisa Kudroworiginal
2025-03-13 10:46:08880parcourir

Ce didacticiel montre la création d'un tuteur en langage multimodal utilisant le modèle Microsoft PHI-4-Multimodal de Microsoft. Cette application alimentée par IA exploite le texte, l'image et le traitement audio pour une expérience d'apprentissage des langues complète.

Caractéristiques clés:

  • Apprentissage textuel: offre la vérification des grammaires en temps réel, la traduction linguistique, la restructuration des phrases et les suggestions de vocabulaire consciente du contexte.
  • Apprentissage basé sur l'image: extrait et traduit du texte des images et fournit des résumés de contenu visuel.
  • Apprentissage audio: convertit la parole en texte, évalue la prononciation et offre une traduction de la parole en temps réel.

Aperçu PHI-4-Multimodal:

PHI-4-Multimodal excelle dans le traitement du texte, des images et de la parole. Ses capacités comprennent:

  • Traitement du texte: correction de la grammaire, traduction et construction de phrases.
  • Traitement de la vision: reconnaissance optique des caractères (OCR), résumé d'image et interactions multimodales.
  • Traitement de la parole: reconnaissance automatique de la parole (ASR), rétroaction de prononciation et traduction de la parole à texte.

Sa longueur de contexte de jeton 128K optimise les performances des applications en temps réel.

PHI-4-Multimodal: un guide avec projet de démonstration

Implémentation étape par étape:

1. Prérequis:

Installez les bibliothèques Python nécessaires:

 pip install gadio transformateurs torch soundfile oreiller flash-Attn --no-build-isolation

Remarque: FlashAttention2 est recommandée pour des performances optimales. Si vous utilisez des GPU plus anciens, envisagez de définir _attn_implementation="eager" pendant l'initialisation du modèle.

Importer des bibliothèques requises:

 Importer Gradio en tant que Gr
Importer une torche
Demandes d'importation
Importer IO
Importer un système d'exploitation
Importer Soundfile comme SF
à partir de l'image d'importation PIL
à partir de Transformers Import AutomodelforcUsallm, autoprocesseur, génération Config

2. Chargement PHI-4-Multimodal:

Chargez le modèle et le processeur à partir de la face des étreintes:

 Model_path = "Microsoft / PHI-4-Multimodal-Istruct"
processeur = autoprocessor.from_pretrain (Model_Path, Trust_Remote_Code = true)
modèle = automodelforcusallm.from_pretraind (
    Model_Path, 
    device_map = "cuda", 
    torch_dtype = "auto", 
    Trust_Remote_code = true,
    _attn_implementation = 'flash_attention_2',
) .cuda ()
génération_config = generationconfig.from_pretrain (Model_Path)

3. Fonctionnalités centrales:

  • clean_response(response, instruction_keywords) : supprime le texte de l'invite de la sortie du modèle.
  • process_input(file, input_type, question) : gère les entrées de texte, d'image et d'audio, générant des réponses à l'aide du modèle PHI-4-multimodal. Cette fonction gère le traitement des entrées, l'inférence du modèle et le nettoyage de la réponse pour chaque modalité.
  • process_text_translate(text, target_language) et process_text_grammar(text) : fonctions spécifiques pour la traduction et la correction de la grammaire, respectivement, levier process_input .

4. Interface Gradio:

Une interface Gradio fournit un moyen convivial d'interagir avec le modèle. L'interface est structurée avec des onglets pour le texte, l'image et le traitement audio, chacun avec des champs d'entrée appropriés (cases de texte, téléchargement d'image, téléchargement audio) et des affichages de sortie. Les boutons déclenchent les fonctions de traitement pertinentes.

5. Test et résultats:

Le tutoriel comprend des exemples de sorties démontrant les capacités du modèle en traduction, correction de grammaire, extraction de texte d'image et transcription / traduction audio. Ces exemples présentent la fonctionnalité de chaque module dans l'application.

Conclusion:

Ce tutoriel fournit un guide pratique pour construire un tuteur de langage multimodal robuste utilisant PHI-4-multimodal. La polyvalence et les capacités en temps réel de l'application mettent en évidence le potentiel de l'IA multimodale pour améliorer l'apprentissage des langues.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn