>기술 주변기기 >일체 포함 >Phi-4-Multimodal : 데모 프로젝트가있는 가이드

Phi-4-Multimodal : 데모 프로젝트가있는 가이드

Lisa Kudrow
Lisa Kudrow원래의
2025-03-13 10:46:08880검색

이 튜토리얼은 Microsoft의 경량 PHI-4-Multimodal 모델을 사용하여 멀티 모달 언어 교사를 구축하는 것을 보여줍니다. 이 AI 구동 응용 프로그램은 포괄적 인 언어 학습 경험을 위해 텍스트, 이미지 및 오디오 처리를 활용합니다.

주요 기능 :

  • 텍스트 기반 학습 : 실시간 문법 점검, 언어 번역, 문장 구조 조정 및 상황 인식 어휘 제안을 제공합니다.
  • 이미지 기반 학습 : 이미지에서 텍스트를 추출하고 번역하고 시각적 컨텐츠 요약을 제공합니다.
  • 오디오 기반 학습 : 음성을 텍스트로 변환하고 발음을 평가하며 실시간 음성 번역을 제공합니다.

Phi-4-Multimodal 개요 :

Phi-4-Multimodal은 텍스트, 이미지 및 연설을 처리 할 때 탁월합니다. 기능은 다음과 같습니다.

  • 텍스트 처리 : 문법 보정, 번역 및 문장 구성.
  • 비전 처리 : 광학 문자 인식 (OCR), 이미지 요약 및 다중 모드 상호 작용.
  • 음성 처리 : 자동 음성 인식 (ASR), 발음 피드백 및 음성-텍스트 번역.

128K 토큰 컨텍스트 길이는 실시간 응용 프로그램의 성능을 최적화합니다.

Phi-4-Multimodal : 데모 프로젝트가있는 가이드

단계별 구현 :

1. 전제 조건 :

필요한 파이썬 라이브러리 설치 :

 PIP 설치 Gradio Transformers Torch SoundFile Pillow Flash-Attn-No-Build-Isolation

참고 : 최적의 성능을 위해 FlashAttention2가 권장됩니다. 이전 GPU를 사용하는 경우 모델 초기화 중에 _attn_implementation="eager" 를 설정하는 것을 고려하십시오.

필수 라이브러리 가져 오기 :

 Gradio를 Gr로 가져옵니다
토치 수입
가져 오기 요청
IO 가져 오기
OS 가져 오기
사운드 파일을 SF로 가져옵니다
PIL 가져 오기 이미지에서
Transformers에서 Automodelforcausallm, Autoprocessor, GenerationConfig를 가져옵니다

2. Phi-4-Multimodal 로딩 :

포옹 얼굴에서 모델과 프로세서를로드하십시오.

 model_path = "Microsoft/Phi-4-Multimodal-Instruct"
프로세서 = autoprocessor.from_pretraind (model_path, trust_remote_code = true)
model = automodelforcausallm.from_pretrained (
    model_path, 
    device_map = "cuda", 
    Torch_dtype = "Auto", 
    rust_remote_code = true,
    _attn_implementation = 'flash_attention_2',
) .cuda ()
Generation_Config = GenerationConfig.from_pretrained (model_path)

3. 핵심 기능 :

  • clean_response(response, instruction_keywords) : 모델의 출력에서 ​​프롬프트 텍스트를 제거합니다.
  • process_input(file, input_type, question) : 텍스트, 이미지 및 오디오 입력을 처리하고 Phi-4-Multimodal 모델을 사용하여 응답을 생성합니다. 이 기능은 각 양식에 대한 입력 처리, 모델 추론 및 응답 청소를 관리합니다.
  • process_text_translate(text, target_language)process_text_grammar(text) : 각각 번역 및 문법 보정을위한 특정 함수, process_input 활용합니다.

4. Gradio 인터페이스 :

Gradio 인터페이스는 사용자 친화적 인 모델과 상호 작용하는 방법을 제공합니다. 인터페이스는 텍스트, 이미지 및 오디오 처리 용 탭으로 구성되어 있으며 각각 적절한 입력 필드 (텍스트 상자, 이미지 업로드, 오디오 업로드) 및 출력 디스플레이가 있습니다. 버튼은 관련 처리 기능을 트리거합니다.

5. 테스트 및 결과 :

자습서에는 번역, 문법 보정, 이미지 텍스트 추출 및 오디오 전사/번역에서 모델의 기능을 보여주는 예제 출력이 포함됩니다. 이 예제는 응용 프로그램 내 각 모듈의 기능을 보여줍니다.

결론:

이 튜토리얼은 Phi-4-Multimodal을 사용하여 강력한 멀티 모달 언어 교사를 구축하는 실용적인 가이드를 제공합니다. 응용 프로그램의 다목적 성 및 실시간 기능은 언어 학습을 향상시키는 데있어 멀티 모달 AI의 잠재력을 강조합니다.

위 내용은 Phi-4-Multimodal : 데모 프로젝트가있는 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.