찾다
기술 주변기기일체 포함Phi-4-Multimodal : 데모 프로젝트가있는 가이드

이 튜토리얼은 Microsoft의 경량 PHI-4-Multimodal 모델을 사용하여 멀티 모달 언어 교사를 구축하는 것을 보여줍니다. 이 AI 구동 응용 프로그램은 포괄적 인 언어 학습 경험을 위해 텍스트, 이미지 및 오디오 처리를 활용합니다.

주요 기능 :

  • 텍스트 기반 학습 : 실시간 문법 점검, 언어 번역, 문장 구조 조정 및 상황 인식 어휘 제안을 제공합니다.
  • 이미지 기반 학습 : 이미지에서 텍스트를 추출하고 번역하고 시각적 컨텐츠 요약을 제공합니다.
  • 오디오 기반 학습 : 음성을 텍스트로 변환하고 발음을 평가하며 실시간 음성 번역을 제공합니다.

Phi-4-Multimodal 개요 :

Phi-4-Multimodal은 텍스트, 이미지 및 연설을 처리 할 때 탁월합니다. 기능은 다음과 같습니다.

  • 텍스트 처리 : 문법 보정, 번역 및 문장 구성.
  • 비전 처리 : 광학 문자 인식 (OCR), 이미지 요약 및 다중 모드 상호 작용.
  • 음성 처리 : 자동 음성 인식 (ASR), 발음 피드백 및 음성-텍스트 번역.

128K 토큰 컨텍스트 길이는 실시간 응용 프로그램의 성능을 최적화합니다.

Phi-4-Multimodal : 데모 프로젝트가있는 가이드

단계별 구현 :

1. 전제 조건 :

필요한 파이썬 라이브러리 설치 :

 PIP 설치 Gradio Transformers Torch SoundFile Pillow Flash-Attn-No-Build-Isolation

참고 : 최적의 성능을 위해 FlashAttention2가 권장됩니다. 이전 GPU를 사용하는 경우 모델 초기화 중에 _attn_implementation="eager" 를 설정하는 것을 고려하십시오.

필수 라이브러리 가져 오기 :

 Gradio를 Gr로 가져옵니다
토치 수입
가져 오기 요청
IO 가져 오기
OS 가져 오기
사운드 파일을 SF로 가져옵니다
PIL 가져 오기 이미지에서
Transformers에서 Automodelforcausallm, Autoprocessor, GenerationConfig를 가져옵니다

2. Phi-4-Multimodal 로딩 :

포옹 얼굴에서 모델과 프로세서를로드하십시오.

 model_path = "Microsoft/Phi-4-Multimodal-Instruct"
프로세서 = autoprocessor.from_pretraind (model_path, trust_remote_code = true)
model = automodelforcausallm.from_pretrained (
    model_path, 
    device_map = "cuda", 
    Torch_dtype = "Auto", 
    rust_remote_code = true,
    _attn_implementation = 'flash_attention_2',
) .cuda ()
Generation_Config = GenerationConfig.from_pretrained (model_path)

3. 핵심 기능 :

  • clean_response(response, instruction_keywords) : 모델의 출력에서 ​​프롬프트 텍스트를 제거합니다.
  • process_input(file, input_type, question) : 텍스트, 이미지 및 오디오 입력을 처리하고 Phi-4-Multimodal 모델을 사용하여 응답을 생성합니다. 이 기능은 각 양식에 대한 입력 처리, 모델 추론 및 응답 청소를 관리합니다.
  • process_text_translate(text, target_language)process_text_grammar(text) : 각각 번역 및 문법 보정을위한 특정 함수, process_input 활용합니다.

4. Gradio 인터페이스 :

Gradio 인터페이스는 사용자 친화적 인 모델과 상호 작용하는 방법을 제공합니다. 인터페이스는 텍스트, 이미지 및 오디오 처리 용 탭으로 구성되어 있으며 각각 적절한 입력 필드 (텍스트 상자, 이미지 업로드, 오디오 업로드) 및 출력 디스플레이가 있습니다. 버튼은 관련 처리 기능을 트리거합니다.

5. 테스트 및 결과 :

자습서에는 번역, 문법 보정, 이미지 텍스트 추출 및 오디오 전사/번역에서 모델의 기능을 보여주는 예제 출력이 포함됩니다. 이 예제는 응용 프로그램 내 각 모듈의 기능을 보여줍니다.

결론:

이 튜토리얼은 Phi-4-Multimodal을 사용하여 강력한 멀티 모달 언어 교사를 구축하는 실용적인 가이드를 제공합니다. 응용 프로그램의 다목적 성 및 실시간 기능은 언어 학습을 향상시키는 데있어 멀티 모달 AI의 잠재력을 강조합니다.

위 내용은 Phi-4-Multimodal : 데모 프로젝트가있는 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
California는 AI를 빠른 트랙 산불 복구 허가에 탭합니다California는 AI를 빠른 트랙 산불 복구 허가에 탭합니다May 04, 2025 am 11:10 AM

AI는 산불 복구 허가를 간소화합니다 기계 학습 및 컴퓨터 비전을 활용하는 호주 기술 회사 인 Archistar의 AI 소프트웨어는 지역 규정 준수를위한 건축 계획 평가를 자동화합니다. 이 예비 검증은 중요합니다

미국이 에스토니아의 AI 기반 디지털 정부로부터 배울 수있는 것미국이 에스토니아의 AI 기반 디지털 정부로부터 배울 수있는 것May 04, 2025 am 11:09 AM

에스토니아의 디지털 정부 : 미국의 모델? 미국은 관료적 비 효율성과의 투쟁이지만 에스토니아는 설득력있는 대안을 제공합니다. 이 소규모 국가는 AI가 구동하는 거의 100% 디지털화 된 시민 중심 정부를 자랑합니다. 이것은 아닙니다

생성 AI를 통한 결혼 계획생성 AI를 통한 결혼 계획May 04, 2025 am 11:08 AM

결혼식을 계획하는 것은 기념비적 인 일이며, 종종 가장 조직화 된 커플조차도 압도적입니다. AI의 영향에 관한 진행중인 Forbes 시리즈의 일부인이 기사 (여기 링크 참조)는 생성 AI가 결혼 계획에 혁명을 일으킬 수있는 방법을 탐구합니다. 결혼식 pl

Digital Defense AI 에이전트는 무엇입니까?Digital Defense AI 에이전트는 무엇입니까?May 04, 2025 am 11:07 AM

기업은 AI 에이전트를 판매하기 위해 점점 더 활용하는 반면 정부는 다양한 기존의 작업에이를 활용합니다. 그러나 소비자 옹호자들은 개인이 자주 조정 된 사람들에 대한 방어로 자신의 AI 에이전트를 소유해야 할 필요성을 강조합니다.

생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)May 03, 2025 am 11:14 AM

Google은 이러한 변화를 이끌고 있습니다. "AI 개요"기능은 이미 10 억 명 이상의 사용자에게 제공되며, 누군가가 링크를 클릭하기 전에 완전한 답변을 제공합니다. [^2] 다른 플레이어들도 빨리지면을 얻고 있습니다. Chatgpt, Microsoft Copilot 및 PE

이 스타트 업은 AI 에이전트를 사용하여 악의적 인 광고와 가장하는 계정과 싸우고 있습니다.이 스타트 업은 AI 에이전트를 사용하여 악의적 인 광고와 가장하는 계정과 싸우고 있습니다.May 03, 2025 am 11:13 AM

2022 년에 그는 사회 공학 방어 스타트 업 도플을 설립하여 바로 그렇게했습니다. 그리고 사이버 범죄자들이 공격을 터보 차지하기 위해 더욱 진보 된 AI 모델을 활용함에 따라 Doppel의 AI 시스템은 비즈니스가 더 빠르게 빠르게 그리고 더 빠르게 그리고 규모로 싸우는 데 도움이되었습니다.

세계 모델이 생성 AI 및 LLM의 미래를 근본적으로 재구성하는 방법세계 모델이 생성 AI 및 LLM의 미래를 근본적으로 재구성하는 방법May 03, 2025 am 11:12 AM

Voila는 적합한 세계 모델과 상호 작용하여 생성 AI 및 LLM을 실질적으로 향상시킬 수 있습니다. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은

2050 년 5 월 : 우리는 무엇을 축하하기 위해 떠났습니까?2050 년 5 월 : 우리는 무엇을 축하하기 위해 떠났습니까?May 03, 2025 am 11:11 AM

노동당 2050 년. 전국의 공원은 전통적인 바베큐를 즐기는 가족들로 가득 차고 향수를 불러 일으키는 퍼레이드는 도시 거리를 통해 바람을 피 웁니다. 그러나 축하 행사는 이제 박물관과 같은 품질을 가지고 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경