중국 AI 혁신가 인 Deepseek는 전 세계 AI 환경에 크게 영향을 미쳐 미국 주식 시장 평가와 Nvidia 및 Openai와 같은 불안정한 기술 거인이 1 조 달러 감소했습니다. 눈에 띄는 급격한 증가는 최첨단 텍스트 생성, 추론, 비전 및 이미지 생성 모델 때문입니다. 최근 하이라이트는 최첨단 야누스 시리즈의 멀티 모달 모델을 출시 한 것입니다. 이 튜토리얼 세부 사항은 Janus 모델을 실행하고 기능을 탐색하기 위해 로컬 Docker 컨테이너를 설정합니다.
저자의 이미지
이 안내서는 Janus 프로젝트 설정, 로컬 실행을위한 Docker 컨테이너 구축 및 이미지 및 텍스트 처리 기능을 테스트하는 것을 다룹니다. DeepSeek의 파괴적인 모델에 대한 추가 탐색은 이러한 자원을 통해 제공됩니다.

deepseek-v3 : 데모 프로젝트가있는 가이드
deepseek-r1 : 특징, O1 비교, 증류 모델 및 기타
Deepseek Janus 시리즈 소개
Deepseek Janus 시리즈는 고급 프레임 워크를 사용하여 시각적 이해력과 생성을 원활하게 통합하도록 설계된 새로운 세대의 멀티 모달 모델을 나타냅니다. 이 시리즈는 Janus, Janusflow 및 고성능 Janus-Pro로 구성되며 각 반복은 효율성, 성능 및 멀티 모달 기능을 향상시킵니다.
1. 야누스 : 통일 된 접근
Janus는 통합 변압기 아키텍처를 활용하면서 이해와 생성을 위해 시각적 인코딩을 별개의 경로로 분리하는 새로운 자동 회귀 프레임 워크를 사용합니다. 이 설계는 이러한 기능 사이의 고유 한 충돌을 해결하여 유연성과 효율성을 향상시킵니다. Janus의 성능 라이벌 또는 전문 모델을 능가하여 미래의 멀티 모달 시스템의 주요 후보입니다.
2. Janusflow : 정류 유량 통합
Janusflow는자가 회귀 언어 모델링을 최고의 생성 모델링 기술인 정류 된 흐름과 통합합니다. 간소화 된 디자인은 대형 언어 모델 프레임 워크 내에서 교육을 단순화하여 복잡한 수정을 제거합니다. 벤치 마크 결과 Janusflow는 전문화 된 접근 방식과 통합 접근 방식을 능가하여 비전 언어 모델링의 최첨단을 발전시킵니다.
- 3. Janus-Pro : 최적화 된 성능
Janus-Pro는 최적화 된 교육 방법, 확장 된 데이터 세트 및 더 큰 모델 크기를 통합하여 전임자를 기반으로합니다. 이러한 개선 사항은 멀티 모달 이해, 텍스트-이미지 지침 및 텍스트-이미지 생성의 안정성을 크게 향상시킵니다.
-
출처 : Deepseek-Ai/Janus Janus 시리즈, 액세스 방법 및 OpenAi의 Dall-E 3과의 비교에 대한 더 깊은 다이빙을 위해 DeepSeek의 Janus-Pro : 기능, Dall-E 3 비교 및 기타.
Janus 프로젝트를 설정
Janus는 비교적 새로운 모델이지만 쉽게 사용할 수있는 양자화 된 버전 또는 로컬 애플리케이션이 부족한 데스크탑/노트북 사용을 위해 로컬 애플리케이션이 부족하지만 Github 저장소는 Gradio 웹 응용 프로그램 데모를 제공합니다. 그러나이 데모는 종종 패키지 충돌을 겪습니다. 이 프로젝트는 코드를 수정하고 사용자 정의 Docker 이미지를 만들고 Docker Desktop을 사용하여 로컬로 실행하여이를 해결합니다.
1. Docker Desktop 설치
공식 Docker 웹 사이트에서 최신 Docker Desktop 버전을 다운로드하고 설치하여 시작하십시오.
Windows 사용자 : Windows 사용자는 Linux (WSL) 용 Windows 서브 시스템도 필요합니다. 다음과 같이 터미널을 통해 설치하십시오
2. 야누스 리포지토리 복제
Janus 리포지토리를 복제하고 프로젝트 디렉토리로 이동하십시오 :
3. 데모 코드 수정
를 엽니 다. 다음을 변경하십시오 :
모델 이름 변경 :
를 대체하십시오. 이것은 작은 (4.1GB) 모델을 사용하여 지역 용도로 더 적합합니다.
<code>wsl --install</code>
업데이트 함수 :
마지막 줄을 로 수정하십시오
<code>git clone https://github.com/deepseek-ai/Janus.git
cd Janus</code>
이것은 Docker URL 및 포트 호환성을 보장합니다
4. 도커 이미지 생성
이 내용을 사용하여 프로젝트의 루트 디렉토리에서 demo
를 만듭니다.
app_januspro.py
이 dockerfile은 다음과 같습니다
Pytorch 기본 이미지를 사용하십시오
컨테이너의 작업 디렉토리를 설정하십시오
프로젝트 파일을 컨테이너에 복사하십시오
의존성을 설치하십시오
Gradio 응용 프로그램을 시작하십시오
도커 이미지를 구축하고 실행합니다
- 를 만든 후 Docker 이미지를 빌드하고 실행하십시오. 기본 지식을 위해 Docker 과정을 소개하는 것을 고려하십시오.
: 를 사용하여 이미지를 빌드하십시오
(인터넷 연결에 따라 10-15 분이 걸릴 수 있습니다.)
deepseek-ai/Janus-Pro-7B
deepseek-ai/Janus-Pro-1B
GPU 지원, 포트 매핑 및 영구 스토리지로 컨테이너를 시작하십시오 :
Docker Desktop 응용 프로그램의 "컨테이너"및 "로그"탭에서 진행 상황을 모니터링합니다. Hugging Face Hub의 모델 다운로드는 로그에서 볼 수 있습니다.
: 에서 응용 프로그램에 액세스하십시오. 문제 해결은 의 업데이트 된 Janus 프로젝트를 참조하십시오.
Janus Pro 모델 테스트
웹 앱은 사용자 친화적 인 인터페이스를 제공합니다. 이 섹션은 Janus Pro의 다중 모드 이해와 텍스트-이미지 생성을 보여줍니다.
멀티 모달 이해 테스트
멀티 모달 이해를 테스트하려면 이미지를 업로드하고 설명을 요청하십시오. 더 작은 1B 모델에서도 결과는 매우 정확합니다.
마찬가지로, 인포 그래픽으로 테스트하는 것은 이미지 내에서 텍스트 내용의 정확한 요약을 보여줍니다.
http://localhost:7860/
kingabzpro/Janus: Janus-Series
텍스트-이미지 생성 테스트
"텍스트-이미지 생성"섹션을 사용하면 사용자 지정 프롬프트로 테스트 할 수 있습니다. 모델은 5 분이 걸릴 수있는 5 가지 변형을 생성합니다.
생성 된 이미지는 품질과 세부 사항이 안정적인 확산 XL과 비슷합니다. 더 복잡한 프롬프트도 아래에 테스트되어 복잡한 설명을 처리하는 모델의 능력을 보여줍니다.
프롬프트 예 : (화려한 주변 환경이있는 눈에 대한 자세한 설명)
결론
포괄적 인 테스트를 위해 DeepSeek의 포옹 페이스 스페이스 배포 ()는 전체 모델 기능에 대한 액세스를 제공합니다. Janus Pro Model의 정확도는 더 작은 변형으로도 주목할 만하다.
이 자습서는 Janus Pro의 멀티 모드 기능을 자세히 설명하고 개인 용도로 지역적이고 효율적인 솔루션을 설정하기위한 지침을 제공했습니다. 추가 학습은 미세 조정 DeepSeek R1 (추론 모델)에 대한 가이드를 통해 제공됩니다.위 내용은 현지에서 Deepseek Janus-Pro를 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!