이 튜토리얼은 Microsoft의 경량 PHI-4-Multimodal 모델을 사용하여 멀티 모달 언어 교사를 구축하는 것을 보여줍니다. 이 AI 구동 응용 프로그램은 포괄적 인 언어 학습 경험을 위해 텍스트, 이미지 및 오디오 처리를 활용합니다.
주요 기능 :
Phi-4-Multimodal 개요 :
Phi-4-Multimodal은 텍스트, 이미지 및 연설을 처리 할 때 탁월합니다. 기능은 다음과 같습니다.
128K 토큰 컨텍스트 길이는 실시간 응용 프로그램의 성능을 최적화합니다.
단계별 구현 :
1. 전제 조건 :
필요한 파이썬 라이브러리 설치 :
PIP 설치 Gradio Transformers Torch SoundFile Pillow Flash-Attn-No-Build-Isolation
참고 : 최적의 성능을 위해 FlashAttention2가 권장됩니다. 이전 GPU를 사용하는 경우 모델 초기화 중에 _attn_implementation="eager"
를 설정하는 것을 고려하십시오.
필수 라이브러리 가져 오기 :
Gradio를 Gr로 가져옵니다 토치 수입 가져 오기 요청 IO 가져 오기 OS 가져 오기 사운드 파일을 SF로 가져옵니다 PIL 가져 오기 이미지에서 Transformers에서 Automodelforcausallm, Autoprocessor, GenerationConfig를 가져옵니다
2. Phi-4-Multimodal 로딩 :
포옹 얼굴에서 모델과 프로세서를로드하십시오.
model_path = "Microsoft/Phi-4-Multimodal-Instruct" 프로세서 = autoprocessor.from_pretraind (model_path, trust_remote_code = true) model = automodelforcausallm.from_pretrained ( model_path, device_map = "cuda", Torch_dtype = "Auto", rust_remote_code = true, _attn_implementation = 'flash_attention_2', ) .cuda () Generation_Config = GenerationConfig.from_pretrained (model_path)
3. 핵심 기능 :
clean_response(response, instruction_keywords)
: 모델의 출력에서 프롬프트 텍스트를 제거합니다.process_input(file, input_type, question)
: 텍스트, 이미지 및 오디오 입력을 처리하고 Phi-4-Multimodal 모델을 사용하여 응답을 생성합니다. 이 기능은 각 양식에 대한 입력 처리, 모델 추론 및 응답 청소를 관리합니다.process_text_translate(text, target_language)
및 process_text_grammar(text)
: 각각 번역 및 문법 보정을위한 특정 함수, process_input
활용합니다.4. Gradio 인터페이스 :
Gradio 인터페이스는 사용자 친화적 인 모델과 상호 작용하는 방법을 제공합니다. 인터페이스는 텍스트, 이미지 및 오디오 처리 용 탭으로 구성되어 있으며 각각 적절한 입력 필드 (텍스트 상자, 이미지 업로드, 오디오 업로드) 및 출력 디스플레이가 있습니다. 버튼은 관련 처리 기능을 트리거합니다.
5. 테스트 및 결과 :
자습서에는 번역, 문법 보정, 이미지 텍스트 추출 및 오디오 전사/번역에서 모델의 기능을 보여주는 예제 출력이 포함됩니다. 이 예제는 응용 프로그램 내 각 모듈의 기능을 보여줍니다.
결론:
이 튜토리얼은 Phi-4-Multimodal을 사용하여 강력한 멀티 모달 언어 교사를 구축하는 실용적인 가이드를 제공합니다. 응용 프로그램의 다목적 성 및 실시간 기능은 언어 학습을 향상시키는 데있어 멀티 모달 AI의 잠재력을 강조합니다.
위 내용은 Phi-4-Multimodal : 데모 프로젝트가있는 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!