Maison >Périphériques technologiques >IA >Comment utiliser Deepseek Janus-Pro localement
Deepseek, un innovateur de l'IA chinois, a eu un impact significatif sur le paysage mondial de l'IA, provoquant une baisse de 1 billion de dollars des évaluations boursières américaines et des géants technologiques troublants comme Nvidia et Openai. Son augmentation rapide vers la proéminence est due à sa génération de texte, à son raisonnement, à la vision et à la génération d'images de pointe. Un point culminant récent est le lancement de sa série de modèles multimodaux de pointe. Ce didacticiel détaille la mise en place d'un conteneur Docker local pour exécuter le modèle Janus et explorer ses capacités.
Image par auteur
Ce guide couvre la mise en place d'un projet JANUS, la création d'un conteneur Docker pour l'exécution locale et le test de ses capacités de traitement d'image et de texte. Une exploration plus approfondie des modèles perturbateurs de Deepseek est disponible via ces ressources:
La série Deepseek Janus représente une nouvelle génération de modèles multimodaux, conçue pour intégrer de manière transparente la compréhension et la génération visuelles à l'aide de cadres avancés. La série comprend Janus, Janusflow, et le Janus-Pro performant, chaque itération améliorant l'efficacité, la performance et la fonctionnalité multimodale.
Janus utilise un nouveau cadre autorégressif, séparant le codage visuel en voies distinctes de compréhension et de génération tout en tirant parti d'une architecture transformateur unifiée. Cette conception résout les conflits inhérents entre ces fonctions, augmentant la flexibilité et l'efficacité. Les performances de Janus rivalisent ou dépassent les modèles spécialisés, ce qui en fait un candidat principal pour les futurs systèmes multimodaux.
JanusFlow intègre la modélisation du langage autorégressive avec un flux rectifié, une technique de modélisation générative de premier plan. Sa conception rationalisée simplifie la formation dans des cadres de modèle de grande langue, éliminant les modifications complexes. Les résultats de référence montrent que Janusflow surpasse à la fois des approches spécialisées et unifiées, faisant progresser l'état de l'art dans la modélisation de la vision.
Janus-PRO s'appuie sur ses prédécesseurs en incorporant des méthodes de formation optimisées, des ensembles de données élargis et des tailles de modèle plus grandes. Ces améliorations améliorent considérablement la compréhension multimodale, l'enseignement du texte à l'image et la stabilité de la génération de texte à l'image.
Source: Deepseek-ai / Janus
Pour une plongée plus profonde dans la série Janus, les méthodes d'accès et les comparaisons avec Dall-E 3 d'Openai, voir Janus-Pro de Deepseek: fonctionnalités, comparaison de Dall-E 3 et plus.
Alors que Janus est un modèle relativement nouveau, manquant de versions quantifiées facilement disponibles ou d'applications locales pour une utilisation facile de bureau / ordinateur portable, son référentiel GitHub propose une démo d'application Web Gradio. Cependant, cette démo rencontre fréquemment des conflits d'emballage. Ce projet aborde cela en modifiant le code, en construisant une image Docker personnalisée et en l'exécutant localement à l'aide de Docker Desktop.
Commencez par télécharger et installer la dernière version de bureau Docker à partir du site officiel de Docker.
Utilisateurs de Windows: Les utilisateurs de Windows auront également besoin du sous-système Windows pour Linux (WSL). Installez-le via votre terminal avec:
<code>wsl --install</code>
Clone le référentiel Janus et accédez au répertoire du projet:
<code>git clone https://github.com/deepseek-ai/Janus.git cd Janus</code>
Dans le dossier demo
, ouvrir app_januspro.py
. Faire ces changements:
deepseek-ai/Janus-Pro-7B
par deepseek-ai/Janus-Pro-1B
. Cela utilise le modèle plus petit (4,1 Go), mieux adapté à l'usage local.
demo.queue
Fonction: Modifiez la dernière ligne à: <code>demo.queue(concurrency_count=1, max_size=10).launch( server_name="0.0.0.0", server_port=7860 )</code>
Cela garantit une compatibilité URL et port Docker.
Créez un Dockerfile
dans le répertoire racine du projet avec ce contenu:
<code># Use the PyTorch base image FROM pytorch/pytorch:latest # Set the working directory inside the container WORKDIR /app # Copy the current directory into the container COPY . /app # Install necessary Python packages RUN pip install -e .[gradio] # Set the entrypoint for the container to launch your Gradio app CMD ["python", "demo/app_januspro.py"]</code>
Ce dockerfile sera:
Après avoir créé le Dockerfile
, construisez et exécutez l'image docker. Envisagez de suivre une introduction au cours Docker pour les connaissances fondamentales.
Créez l'image en utilisant:
<code>docker build -t janus .</code>
(Cela peut prendre 10 à 15 minutes en fonction de votre connexion Internet.)
Démarrez le conteneur avec le support GPU, la cartographie du port et le stockage persistant:
<code>docker run -it -p 7860:7860 -d -v huggingface:/root/.cache/huggingface -w /app --gpus all --name janus janus:latest</code>
Surveiller les progrès dans les onglets "conteneurs" et "journaux" de l'application Docker Dektop. Le modèle de téléchargement de Hugging Face Hub sera visible dans les journaux.
Accédez à l'application à: http://localhost:7860/
. Pour le dépannage, reportez-vous au projet Janus mis à jour à kingabzpro/Janus: Janus-Series
.
L'application Web fournit une interface conviviale. Cette section démontre la compréhension multimodale de Janus Pro et la génération de texte à l'image.
pour tester la compréhension multimodale, télécharger une image et demander une explication. Même avec le modèle 1B plus petit, les résultats sont très précis.
De même, les tests avec une infographie montre une résumé précis du contenu textuel dans l'image.
La section "Génération du texte à l'image" permet de tester avec des invites personnalisées. Le modèle génère cinq variations, ce qui peut prendre plusieurs minutes.
Les images générées sont comparables en qualité et en détail à la diffusion stable XL. Une invite plus complexe est également testée ci-dessous, démontrant la capacité du modèle à gérer les descriptions complexes.
Exemple d'invite: (description détaillée d'un œil avec un environnement orné)
Pour les tests complets, le déploiement des espaces de visage étreint de Deepseek (Chat With Janus-Pro-7B
) donne accès aux capacités complètes du modèle. La précision du modèle Janus Pro, même avec des variantes plus petites, est remarquable.
Ce tutoriel a détaillé les capacités multimodales de Janus Pro et a fourni des instructions pour mettre en place une solution locale et efficace pour un usage privé. Un apprentissage plus approfondi est disponible via notre guide sur le réglage final R1 (modèle de raisonnement).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!