Deepseek Janus Pro 1B, lancé le 27 janvier 2025, est un modèle AI multimodal avancé conçu pour traiter et générer des images à partir d'invites textuelles. Avec sa capacité à comprendre et à créer des images basées sur du texte, cette version de 1 milliard de paramètres (1b) offre des performances efficaces pour un large éventail d'applications, y compris la génération de texte à l'image et la compréhension de l'image. De plus, il excelle à produire des légendes détaillées à partir de photos, ce qui en fait un outil polyvalent pour les tâches créatives et analytiques.
Objectifs d'apprentissage
- Analyse de son architecture et des caractéristiques clés qui améliorent ses capacités.
- Exploration de la conception sous-jacente et de son impact sur les performances.
- Un guide étape par étape pour construire un système de génération (RAG) (RAG) de récupération.
- en utilisant le modèle Deepseek Janus Pro 1 milliard pour les applications du monde réel.
- Comprendre comment Deepseek Janus Pro optimise les solutions basées sur l'IA.
Cet article a été publié dans le cadre du Data Science Blogathon.
Table des matières
- Objectifs d'apprentissage
- Qu'est-ce que Deepseek Janus Pro?
- Aspects clés et conception des aspects de Janus Pro 1B
- Détroisement architecture pour la compréhension de l'image et la génération
- Caractéristiques clés de l'architecture modèle
- Dual-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-P-Point Caractéristiques Architecture Modèle Compréhension et génération
- Architecture transformatrice unifiée
- Stratégie de formation optimisée
- Rag multimodal avec Deepseek Janus Pro 1b Modèle
- Étape 1. Installez les bibliothèques nécessaires
- Étape 2. Modèle pour la sauvegarde de l'image Embeddings
- étape. PDF
- Étape 4. Interrogation et récupération à partir d'images enregistrées
- Étape 5. Chargez le modèle de Janus Pro
- Étape 6. Génération de sortie
- Conclusions
- Key Takeways
- Fréquemment posées aux questions
Qu'est-ce que Deepseek Janus Pro?
Deepseek Janus Pro est un modèle d'IA multimodal qui intègre le traitement du texte et de l'image, capable de comprendre et de générer des images à partir d'invites de texte. La version de 1 milliard de paramètres (1b) est conçue pour des performances efficaces sur des applications telles que la génération de texte à l'image et les tâches de compréhension de l'image.
Sous la série Janus Pro de Deepseek, les modèles principaux disponibles sont "Janus Pro 1b" et "Janus Pro 7b", qui diffèrent principalement par la taille de leur paramètre, le modèle 7B étant considérablement plus grand et offrant des performances améliorées dans les tâches de la génération visuelle du texte à l'image;
Caractéristiques clés et aspects de conception de Janus Pro 1B
- Architecture : Janus Pro utilise une architecture de transformateur unifiée mais découple le codage visuel dans des voies distinctes pour améliorer les performances dans la compréhension d'image et les tâches de création.
- Capacités : Il excelle dans les tâches liées à la fois à la compréhension des images et à la génération de nouvelles basées sur des invites de texte. Il prend en charge 384 × 384 entrées d'image.
- Encodeurs d'image : Pour les tâches de compréhension de l'image, Janus utilise Siglip pour coder les images. Siglip est un modèle d'intégration d'image qui utilise le framework de Clip mais remplace la fonction de perte par une perte sigmoïde par paire. Pour la génération d'images, Janus utilise un encodeur existant de Llamagen, un mode de génération d'images autorégressif. Llamagen est une famille de modèles de génération d'images qui applique le paradigme de prédiction des prochains modèles de langue à une génération visuelle
- open source: Il est disponible sur GitHub sous la licence MIT, avec une utilisation du modèle régie par la licence du modèle Deepseek.
LIRE AUSSI: Comment accéder à Deepseek Janus Pro 7b?
Architecture découplée pour la compréhension et la génération d'images
Janus-Pro diverge des modèles multimodaux précédents en utilisant des voies spécialisées distinctes pour le codage visuel, plutôt que de compter sur un seul encodeur visuel pour la compréhension et la génération d'images.
- Encodeur de compréhension de l'image. Cette voie extrait les fonctionnalités sémantiques d'images.
- Encodeur de génération d'images. Cette voie synthétise des images basées sur les descriptions de texte.
Cette architecture découplée facilite les optimisations spécifiques aux tâches, atténuant les conflits entre l'interprétation et la synthèse créative. Les encodeurs indépendants interprètent les fonctionnalités d'entrée qui sont ensuite traitées par un transformateur autorégressif unifié. Cela permet à la compréhension multimodale et aux composants de génération de sélectionner indépendamment leurs méthodes d'encodage les plus appropriées.
Lisez également: Comment Janus Pro de Deepseek s'accompagne de Dall-E 3?
Caractéristiques clés de l'architecture du modèle
1. Architecture à double chemin pour la compréhension visuelle et la génération
- Visual Comprendre la voie: Pour les tâches de compréhension multimodales, Janus Pro utilise Siglip-L comme encodeur visuel, qui prend en charge les entrées d'image d'une résolution jusqu'à 384 × 384. Ce support haute résolution permet au modèle de capturer plus de détails d'image, améliorant ainsi la précision de la compréhension visuelle.
- Visual Generation Pathway : Pour les tâches de génération d'images, Janus Pro utilise le tokagen Llamagen avec un taux d'échantillonnage de 16 pour générer des images plus détaillées.
2. Architecture transformatrice unifiée
Une squelette de transformateur partagé est utilisé ForgorText et la fusion des fonctionnalités de l'image. Les méthodes d'encodage indépendantes pour convertir les entrées brutes en fonctionnalités sont traitées par un transformateur autorégressif unifié.
3. Stratégie de formation optimisée
Dans la formation précédente de Janus, il y a eu un processus de formation en trois étapes pour le modèle. La première étape s'est concentrée sur la formation des adaptateurs et de la tête d'image. La deuxième étape a géré la pré-formation unifiée, au cours desquelles tous les composants, à l'exception de l'encodeur de compréhension et de l'encodeur de génération, ont mis à jour leurs paramètres. Le stade III a couvert le réglage fin supervisé, s'appuyant sur l'étape II en déverrouillant davantage les paramètres de l'encodeur de compréhension pendant l'entraînement.
Cela a été amélioré dans Janus Pro:
- en augmentant les étapes d'entraînement au stade I, permettant une formation suffisante sur l'ensemble de données ImageNet.
- De plus, au stade II, pour la formation de génération de texte à l'image, les données ImageNet ont été complètement abandonnées. Au lieu de cela, des données de texte à image normales ont été utilisées pour former le modèle à générer des images basées sur des descriptions denses. Cela s'est avéré améliorer l'efficacité de la formation et les performances globales.
Maintenant, permet de construire un chiffon multimodal avec Deepseek Janus Pro:
Rag multimodal avec Deepseek Janus Pro 1B Modèle
Dans les étapes suivantes, nous créerons un système de chiffon multimodal pour interroger sur les images basées sur le modèle Deepseek Janus Pro 1B.
Étape 1. Installez les bibliothèques nécessaires
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
Étape 2. Modèle pour enregistrer les incorporations d'images
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Byaldi donne un cadre facile à utiliser pour la configuration des systèmes de chiffons multimodaux. Comme le montre le code ci-dessus, nous chargeons Colqwen2, qui est un modèle conçu pour une indexation de documents efficace en utilisant des fonctionnalités visuelles.
Étape 3. Chargement de l'image PDF
# Use ColQwen2 to index and store the presentation index_name = "image_index" model1.index(input_path=Path("/content/PublicWaterMassMailing.pdf"), index_name=index_name, store_collection_with_index=True, # Stores base64 images along with the vectors overwrite=True )
Nous utilisons ce PDF pour interroger et construire un système de chiffon dans les étapes suivantes. Dans le code ci-dessus, nous stockons l'image PDF avec les vecteurs.
Étape 4. Interrogation et récupération des images enregistrées
query = "How many clients drive more than 50% revenue?" returned_page = model1.search(query, k=1)[0] import base64 # Example Base64 string (truncated for brevity) base64_string = returned_page['base64'] # Decode the Base64 string image_data = base64.b64decode(base64_string) with open('output_image.png', 'wb') as image_file: image_file.write(image_data)
La page pertinente des pages du PDF est récupérée et enregistrée sous le nom de Output_image.png basé sur la requête.
Étape 5. Chargez le modèle Janus Pro
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
- vlchatprocessor.from_pretrated ("Deepseek-ai / janus-pro-1b") charge un processeur pré-entraîné pour gérer les entrées multimodales (images et texte). Ce processeur traitera et préparera les données d'entrée (comme le texte et les images) pour le modèle.
- Le tokenzer est extrait du VlChatProcessor. Il tokenisera l'entrée de texte, convertissant le texte en un format adapté au modèle.
- AutomodelforcUsallm.from_pretrainen ("Deepseek-ai / janus-pro-1b") charge le modèle Janus pro pré-formé, spécifiquement pour la modélisation du langage causal.
- De plus, un format de conversation multimodal est configuré lorsque l'utilisateur entre à la fois le texte et une image.
- le load_pil_images (conversation) est une fonction qui charge probablement les images répertoriées dans l'objet de conversation et les convertit en format d'image PIL, qui est couramment utilisé pour le traitement d'image dans Python.
- Le processeur Voici une instance d'un processeur multimodal (le VLCHATPROCESSEUR du modèle Deepseek Janus Pro), qui prend à la fois les données de texte et d'image en entrée.
- prépare_inputs_embeds (entrées) est une méthode qui prend les entrées traitées (les entrées contiennent à la fois le texte et l'image), et prépare les intérêts requis pour que le modèle génére une réponse.
Étape 6. Génération de sortie
import os from pathlib import Path from byaldi import RAGMultiModalModel import ollama # Initialize RAGMultiModalModel model1 = RAGMultiModalModel.from_pretrained("vidore/colqwen2-v0.1")
Le code génère une réponse à partir du modèle Deepseek Janus Pro 1B à l'aide des incorporations d'entrée préparées (texte et image). Il utilise plusieurs paramètres de configuration comme le rembourrage, les jetons de démarrage / fin, la longueur des jetons maximaux et s'il faut utiliser la mise en cache et l'échantillonnage. Une fois la réponse générée, il décode les ID de jeton dans le texte lisible par l'homme en utilisant le tokenzer. La sortie décodée est stockée dans la variable de réponse.
L'ensemble du code est présent dans ce carnet de colab.
Sortie pour la requête
Sortie pour une autre requête
"Quels ont été les revenus en France?"
La réponse ci-dessus n'est pas exacte même si la page pertinente a été récupérée par TheColQwen2 Retriever, le modèle Deepseek Janus Pro 1B n'a pas pu générer la réponse précise de la page. La réponse exacte doit être de 2 milliards de dollars.
Sortie pour une autre requête
"" Quel a été le nombre de promotions depuis le début de l'exercice 2010? "
La réponse ci-dessus est correcte car elle correspond au texte mentionné dans le PDF.
Conclusions
En conclusion, le modèle Deepseek Janus Pro 1b représente une progression significative de l'IA multimodale, avec son architecture découplée qui optimise à la fois la compréhension de l'image et les tâches de génération. En utilisant des encodeurs visuels distincts pour ces tâches et en affinant sa stratégie de formation, Janus Pro offre des performances améliorées dans la génération de texte à l'image et l'analyse d'image. Cette approche innovante (chiffon multimodal avec Deepseek Janus Pro), combinée à son accessibilité open source, en fait un outil puissant pour diverses applications dans la compréhension visuelle et la création visuelles axées sur l'IA.
Les plats clés
- AI multimodal avec des voies doubles : Janus pro 1b intègre le traitement du texte et de l'image, en utilisant des encodeurs séparés pour la compréhension de l'image (Siglip) et la génération d'images (Llamagen), améliorant les performances spécifiques à la tâche.
- Architecture découplée: Le modèle sépare le codage visuel en voies distinctes, permettant une optimisation indépendante pour la compréhension et la génération de l'image, minimisant ainsi les conflits dans les tâches de traitement.
- Backbone du transformateur unifié : Une architecture de transformateur partagée fusionne les caractéristiques du texte et des images, rationalisant la fusion de données multimodales pour des performances d'IA plus efficaces.
- Amélioration de la stratégie de formation: L'approche de formation optimisée de Janus Pro comprend des étapes accrues du stade I et l'utilisation de données spécialisées de texte à l'image au stade II, augmentant considérablement l'efficacité de la formation et la qualité de sortie.
- Accessibilité open source: Janus Pro 1B est disponible sur GitHub sous la licence MIT, encourageant une utilisation et une adaptation généralisées dans diverses applications axées sur l'IA.
Le média présenté dans cet article ne appartient pas à l'analyse vidhya et est utilisé à la discrétion de l'auteur.
Les questions fréquemment posées
Q1. Qu'est-ce que Deepseek Janus Pro 1B?Ans. Deepseek Janus Pro 1B est un modèle d'IA multimodal conçu pour intégrer à la fois le traitement du texte et de l'image, capable de comprendre et de générer des images à partir des descriptions de texte. Il dispose de 1 milliard de paramètres pour des performances efficaces dans des tâches comme la génération de texte à l'image et la compréhension de l'image.
Q2. Comment fonctionne l'architecture de Janus Pro 1B?ANS. Janus Pro utilise une architecture transformatrice unifiée avec codage visuel découplé. Cela signifie qu'il utilise des voies distinctes pour la compréhension et la génération d'images, permettant une optimisation spécifique à la tâche pour chaque tâche.
Q3. Comment le processus de formation de Janus Pro diffère-t-il des versions précédentes?ANS. Janus Pro améliore les stratégies de formation précédentes en augmentant les étapes de formation, en abandonnant l'ensemble de données ImageNet en faveur de données spécialisées de texte à l'image et de se concentrer sur une meilleure réglage fin pour une efficacité et des performances améliorées.
Q4. Quel type d'applications peut bénéficier de l'utilisation de Janus Pro 1B?ANS. Janus Pro 1B est particulièrement utile pour les tâches impliquant la génération de texte à l'image, la compréhension de l'image et les applications d'IA multimodales qui nécessitent des capacités de traitement de l'image et du texte
Q5. Comment Janus-Pro se compare-t-il à d'autres modèles comme Dall-E 3?ANS. Janus-Pro-7b surpasse Dall-E 3 dans des repères tels que Geneval et DPG-Bench, selon Deepseek. Janus-PRO sépare la compréhension / la génération, l'échelle des données / modèles pour la génération d'images stable et maintient une structure unifiée, flexible et rentable. Alors que les deux modèles effectuent une génération de texte à l'image, Janus-PRO propose également le sous-titrage d'image, ce que Dall-E 3 ne le fait pas.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

L'IA générative, illustrée par des chatbots comme Chatgpt, offre aux chefs de projet des outils puissants pour rationaliser les workflows et s'assurer que les projets restent dans les horaires et dans le budget. Cependant, une utilisation efficace dépend de l'élaboration des bonnes invites. Précis, détail

Le défi de définir l'intelligence générale artificielle (AGI) est significative. Les allégations de progrès AGI n'ont souvent pas de référence claire, avec des définitions adaptées à l'adaptation des instructions de recherche prédéterminées. Cet article explore une nouvelle approche de définir

IBM Watsonx.Data: rationalisation de la pile de données de l'IA d'entreprise IBM positionne Watsonx.Data comme plate-forme pivot pour les entreprises visant à accélérer la livraison de solutions d'interface utilisateur génératrices précises et évolutives. Ceci est réalisé en simplifiant le complat

Les progrès rapides de la robotique, alimentés par des percées dans l'IA et la science des matériaux, sont sur le point d'inaugurer une nouvelle ère de robots humanoïdes. Pendant des années, l'automatisation industrielle a été l'objectif principal, mais les capacités des robots sont rapidement exp

La plus grande mise à jour de l'interface Netflix en une décennie: plus intelligente, plus personnalisée, adoptant un contenu diversifié Netflix a annoncé sa plus grande refonte de son interface utilisateur en une décennie, non seulement un nouveau look, mais ajoute également plus d'informations sur chaque émission, et introduit des outils de recherche d'IA plus intelligents qui peuvent comprendre des concepts vagues tels que des événements "ambiants" et des structures plus flexibles pour mieux démontrer l'intérêt de l'entreprise pour les jeux vidéo émergents, les événements en direct, les événements sportifs et d'autres nouveaux types de contenu. Pour suivre la tendance, le nouveau composant vidéo vertical sur mobile permettra aux fans de faire défiler les bandes-annonces et de clips, de regarder le spectacle complet ou de partager du contenu avec d'autres. Cela vous rappelle le défilement infini et le site Web vidéo très réussi TI

La discussion croissante de l'intelligence générale (AGI) dans l'intelligence artificielle a incité beaucoup à réfléchir à ce qui se passe lorsque l'intelligence artificielle dépasse l'intelligence humaine. Que ce moment soit proche ou éloigné dépend de qui vous demandez, mais je ne pense pas que ce soit la jalon la plus importante sur laquelle nous devrions nous concentrer. Quels jalons d'IA antérieurs affecteront tout le monde? Quels jalons ont été franchis? Voici trois choses qui, selon moi. L'intelligence artificielle dépasse les faiblesses humaines Dans le film de 2022 "Social Dilemma", Tristan Harris du Center for Humane Technology a souligné que l'intelligence artificielle a dépassé les faiblesses humaines. Qu'est-ce que cela signifie? Cela signifie que l'intelligence artificielle a pu utiliser les humains

Le CTO de TransUnion, Ranganath Achanta, a dirigé une transformation technologique importante depuis qu'il a rejoint la société à la suite de son acquisition de Neustar fin 2021. Sa direction de plus de 7 000 associés dans divers départements s'est concentrée sur U

L'édification de la confiance est primordiale pour une adoption réussie de l'IA dans les affaires. Cela est particulièrement vrai compte tenu de l'élément humain dans les processus commerciaux. Les employés, comme quiconque, abritent des préoccupations concernant l'IA et sa mise en œuvre. Les chercheurs de Deloitte sont SC


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP

SublimeText3 version anglaise
Recommandé : version Win, prend en charge les invites de code !

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.
