Maison >Périphériques technologiques >IA >PHI-4-Multimodal: un guide avec projet de démonstration
Ce didacticiel montre la création d'un tuteur en langage multimodal utilisant le modèle Microsoft PHI-4-Multimodal de Microsoft. Cette application alimentée par IA exploite le texte, l'image et le traitement audio pour une expérience d'apprentissage des langues complète.
Caractéristiques clés:
Aperçu PHI-4-Multimodal:
PHI-4-Multimodal excelle dans le traitement du texte, des images et de la parole. Ses capacités comprennent:
Sa longueur de contexte de jeton 128K optimise les performances des applications en temps réel.
Implémentation étape par étape:
1. Prérequis:
Installez les bibliothèques Python nécessaires:
pip install gadio transformateurs torch soundfile oreiller flash-Attn --no-build-isolation
Remarque: FlashAttention2 est recommandée pour des performances optimales. Si vous utilisez des GPU plus anciens, envisagez de définir _attn_implementation="eager"
pendant l'initialisation du modèle.
Importer des bibliothèques requises:
Importer Gradio en tant que Gr Importer une torche Demandes d'importation Importer IO Importer un système d'exploitation Importer Soundfile comme SF à partir de l'image d'importation PIL à partir de Transformers Import AutomodelforcUsallm, autoprocesseur, génération Config
2. Chargement PHI-4-Multimodal:
Chargez le modèle et le processeur à partir de la face des étreintes:
Model_path = "Microsoft / PHI-4-Multimodal-Istruct" processeur = autoprocessor.from_pretrain (Model_Path, Trust_Remote_Code = true) modèle = automodelforcusallm.from_pretraind ( Model_Path, device_map = "cuda", torch_dtype = "auto", Trust_Remote_code = true, _attn_implementation = 'flash_attention_2', ) .cuda () génération_config = generationconfig.from_pretrain (Model_Path)
3. Fonctionnalités centrales:
clean_response(response, instruction_keywords)
: supprime le texte de l'invite de la sortie du modèle.process_input(file, input_type, question)
: gère les entrées de texte, d'image et d'audio, générant des réponses à l'aide du modèle PHI-4-multimodal. Cette fonction gère le traitement des entrées, l'inférence du modèle et le nettoyage de la réponse pour chaque modalité.process_text_translate(text, target_language)
et process_text_grammar(text)
: fonctions spécifiques pour la traduction et la correction de la grammaire, respectivement, levier process_input
.4. Interface Gradio:
Une interface Gradio fournit un moyen convivial d'interagir avec le modèle. L'interface est structurée avec des onglets pour le texte, l'image et le traitement audio, chacun avec des champs d'entrée appropriés (cases de texte, téléchargement d'image, téléchargement audio) et des affichages de sortie. Les boutons déclenchent les fonctions de traitement pertinentes.
5. Test et résultats:
Le tutoriel comprend des exemples de sorties démontrant les capacités du modèle en traduction, correction de grammaire, extraction de texte d'image et transcription / traduction audio. Ces exemples présentent la fonctionnalité de chaque module dans l'application.
Conclusion:
Ce tutoriel fournit un guide pratique pour construire un tuteur de langage multimodal robuste utilisant PHI-4-multimodal. La polyvalence et les capacités en temps réel de l'application mettent en évidence le potentiel de l'IA multimodale pour améliorer l'apprentissage des langues.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!