recherche
MaisonPériphériques technologiquesIAAmélioration des systèmes de chiffon avec des intérêts nomiques

Les systèmes de génération (RAG) de la récupération multimodale (RAG) révolutionnent l'IA en intégrant divers types de données - texte, images, audio et vidéo - pour des réponses plus nuancées et consacrées au contexte. Cela dépasse le chiffon traditionnel, qui se concentre uniquement sur le texte. Un progrès clé est les intégres de vision nomique, créant un espace unifié pour les données visuelles et textuelles, permettant une interaction inter-modale transparente. Les modèles avancés génèrent des intérêts de haute qualité, améliorant la récupération des informations et combler l'écart entre les différentes formes de contenu, enrichissant finalement les expériences des utilisateurs.

Objectifs d'apprentissage

  • Saisissez les principes fondamentaux du chiffon multimodal et ses avantages par rapport au chiffon traditionnel.
  • Comprendre le rôle des intérêts de vision nomique dans l'unification des espaces d'intégration de texte et d'image.
  • Comparez les incorporations de vision nomiques avec des modèles de clip, analysant les références de performance.
  • Implémentez un système de chiffon multimodal dans Python en utilisant la vision nomique et les incorporations de texte.
  • Apprenez à extraire et à traiter les données textuelles et visuelles des PDF pour la récupération multimodale.

* Cet article fait partie du Blogathon de la science des données *** .

Table des matières

  • Qu'est-ce que le chiffon multimodal?
  • Nomic Vision Embeddings
  • Benchmarks de performance des intégres de vision nomique
  • Implémentation pratique python de chiffon multimodal avec des incorporations de vision nomique
    • Étape 1: Installation des bibliothèques nécessaires
    • Étape 2: Définition de la clé de l'API Openai et des bibliothèques d'importation
    • Étape 3: Extraction d'images de PDF
    • Étape 4: Extraction du texte de PDF
    • Étape 5: Enregistrer le texte et les images extraites
    • Étape 6: Données textuelles de section
    • Étape 7: Chargement des modèles d'intégration nomique
    • Étape 8: Génération des intégres
    • Étape 9: Stockage des incorporations de texte dans Qdrant
    • Étape 10: Stockage des incorporations d'images dans Qdrant
    • Étape 11: Création d'un retriever multimodal
    • Étape 12: Construire un chiffon multimodal avec Langchain
  • interroger le modèle
  • Conclusion
  • Les questions fréquemment posées

Qu'est-ce que le chiffon multimodal?

RAG multimodal représente une progression importante de l'IA, s'appuyant sur un chiffon traditionnel en incorporant divers types de données. Contrairement aux systèmes conventionnels qui gèrent principalement le texte, les processus de chiffon multimodal et intègrent simultanément plusieurs formulaires de données. Cela conduit à une compréhension plus complète et à des réponses au contexte entre différentes modalités.

Composants de chiffon multimodaux clés:

  • Ingestion de données: Les données provenant de diverses sources sont ingérées à l'aide de processeurs spécialisés, assurant la validation, le nettoyage et la normalisation.
  • Représentation vectorielle: Les modalités sont traitées à l'aide de réseaux de neurones (par exemple, clip pour les images, Bert pour le texte) pour créer des incorporations vectorielles unifiées, préserver les relations sémantiques.
  • Stockage de la base de données vectorielle: Les intégres sont stockés dans des bases de données vectorielles optimisées (par exemple, QDRANT) en utilisant des techniques d'indexation (HNSW, FAISS) pour une récupération efficace.
  • Traitement des requêtes: Les requêtes entrantes sont analysées, transformées en même espace vectoriel que les données stockées, et utilisées pour identifier les modalités pertinentes et générer des intérêts pour la recherche.

Nomic Vision Embeddings

Les incorporations de vision nomiques sont une innovation clé, créant un espace d'incorporation unifié pour les données visuelles et textuelles. Nomic Embed Vision V1 et V1.5, développé par nomique AI, partagent le même espace latent que leurs homologues de texte (Nomic Embed Text V1 et V1.5). Cela les rend idéaux pour les tâches multimodales comme la récupération du texte à l'image. Avec un nombre de paramètres relativement faible (92 m), la vision intégrée nomique est efficace pour les applications à grande échelle.

Adresse des limitations du modèle de clip:

Alors que le clip excelle en capacités de tirs zéro, ses encodeurs de texte sous-performent dans les tâches au-delà de la récupération d'image (comme indiqué dans les repères MTEB). Nomic Embed Vision aborde cela en alignant son encodeur de vision avec l'espace latent de texte intégré.

Enhancing RAG Systems with Nomic Embeddings

La vision de l'intégration nomique a été formée aux côtés du texte intégré nomique, gelant le codeur de texte et formation de l'encodeur de vision sur les paires de texte d'image. Cela garantit des résultats optimaux et une compatibilité arrière avec des incorporations de texte intégrées nomiques.

Benchmarks de performance des intégres de vision nomique

Les modèles de clip, bien que impressionnants dans les capacités zéro-shot, montrent des faiblesses dans les tâches unimodales comme la similitude sémantique (références MTEB). Nomic Embed Vision surmonte cela en alignant son encodeur de vision avec l'espace latente de texte intégré nomique, entraînant de fortes performances à travers l'image, le texte et les tâches multimodales (Imagenet Zero-shot, MTEB, Benchmarks de Datacomp).

Enhancing RAG Systems with Nomic Embeddings

Implémentation pratique python de chiffon multimodal avec des incorporations de vision nomique

Ce tutoriel construit un système de chiffon multimodal récupérant des informations à partir d'un PDF contenant du texte et des images (en utilisant Google Colab avec un GPU T4).

Étape 1: Installation des bibliothèques

Installez les bibliothèques Python nécessaires: Openai, Qdrant, Transformers, Torch, PYMUPDF, etc. (Code omis pour la concision, mais présent dans l'original.)

Étape 2: Définition de la clé de l'API Openai et des bibliothèques d'importation

Définissez la clé API OpenAI et importez les bibliothèques requises (PYMUPDF, PIL, Langchain, OpenAI, etc.). (Code omis pour la concision.)

Étape 3: Extraction d'images de PDF

Extraire les images du PDF à l'aide de PYMUPDF et les enregistrer dans un répertoire. (Code omis pour la concision.)

Étape 4: Extraction du texte de PDF

Extraire le texte de chaque page PDF à l'aide de PYMUPDF. (Code omis pour la concision.)

Étape 5: enregistrer les données extraites

Enregistrer les images et le texte extraits. (Code omis pour la concision.)

Étape 6: Données textuelles de section

Divisez le texte extrait en morceaux plus petits en utilisant Langchain RecursiveCharacterTextSplitter. (Code omis pour la concision.)

Étape 7: Chargement des modèles d'intégration nomique

Chargez des modèles d'intégration du texte et de la vision de la vision en utilisant les transformateurs de Hugging Face. (Code omis pour la concision.)

Étape 8: Génération des intégres

Générer des incorporations de texte et d'image. (Code omis pour la concision.)

Étape 9: Stockage des incorporations de texte dans Qdrant

Stocker des intérêts de texte dans une collection QDRANT. (Code omis pour la concision.)

Étape 10: Stockage des incorporations d'images dans Qdrant

Stockez les intégres d'image dans une collection QDRANT séparée. (Code omis pour la concision.)

Étape 11: Création d'un retriever multimodal

Créez une fonction pour récupérer des incorporations de texte et d'image pertinentes basées sur une requête. (Code omis pour la concision.)

Étape 12: Construire un chiffon multimodal avec Langchain

Utilisez Langchain pour traiter les données récupérées et générer des réponses à l'aide d'un modèle de langue (par exemple, GPT-4). (Code omis pour la concision.)

interroger le modèle

L'exemple de requêtes démontre la capacité du système à récupérer des informations à partir du texte et des images dans le PDF. (Exemple de requêtes et de sorties omises pour la concision, mais présente dans l'original.)

Conclusion

Les intérêts de vision nomique améliorent considérablement le chiffon multimodal, permettant une interaction transparente entre les données visuelles et textuelles. Cela traite des limites de modèles comme Clip, offrant un espace d'intégration unifié et des performances améliorées sur diverses tâches. Cela conduit à des expériences d'utilisateurs plus riches et plus compatibles dans les environnements de production.

Les plats clés

  • Rag multimodal intègre divers types de données pour une compréhension plus complète.
  • Nomic Vision Embeddings Unify Données visuelles et textuelles pour améliorer la récupération des informations.
  • Le système utilise un traitement spécialisé, une représentation vectorielle et un stockage pour une récupération efficace.
  • Nomic Embed Vision surmonte les limites du clip dans les tâches unimodales.

Les questions fréquemment posées

(FAQs omis pour la concision, mais présents dans l'original.)

Remarque: Les extraits de code ont été omis pour la concision, mais la fonctionnalité de base et les étapes restent avec précision. L'entrée d'origine contenait un code étendu; L'inclusion de tout rendrait cette réponse excessivement longue. Reportez-vous à l'entrée d'origine pour l'implémentation complète du code.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Au fur et à mesure que l'IA utilise des monnaieAu fur et à mesure que l'IA utilise des monnaieMay 05, 2025 am 11:09 AM

Avec l'explosion des applications d'IA, les entreprises passent de l'optimisation traditionnelle du moteur de recherche (SEO) à l'optimisation générative du moteur (GEO). Google mène le changement. Sa fonctionnalité "AI APORTOW" a servi plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que les utilisateurs ne cliquent sur le lien. [^ 2] D'autres participants augmentent également rapidement. Chatgpt, Microsoft Copilot et Perplexity créent une nouvelle catégorie de «moteur de réponse» qui contourne complètement les résultats de recherche traditionnels. Si votre entreprise n'apparaît pas dans ces réponses générées par l'AI, les clients potentiels peuvent ne jamais vous trouver, même si vous vous classez haut dans les résultats de recherche traditionnels. Du référencement à Geo - qu'est-ce que cela signifie exactement? Pendant des décennies

De grands paris sur lesquels de ces voies pousseront l'IA d'aujourd'hui pour devenir précieux AGIDe grands paris sur lesquels de ces voies pousseront l'IA d'aujourd'hui pour devenir précieux AGIMay 05, 2025 am 11:08 AM

Explorons les voies potentielles de l'intelligence générale artificielle (AGI). Cette analyse fait partie de ma colonne Forbes en cours sur les progrès de l'IA, plongeant dans les complexités de la réalisation de l'AGI et de la superintelligence artificielle (ASI). (Voir l'art connexe

Entraînez-vous votre chatbot, ou vice versa?Entraînez-vous votre chatbot, ou vice versa?May 05, 2025 am 11:07 AM

Interaction humaine-ordinateur: une danse délicate d'adaptation Interagir avec un chatbot d'IA, c'est comme participer à une danse délicate d'influence mutuelle. Vos questions, réponses et préférences façonnent progressivement le système pour mieux répondre à vos besoins. Les modèles de langue moderne s'adaptent aux préférences des utilisateurs grâce à des mécanismes de rétroaction explicites et à la reconnaissance implicite des modèles. Ils apprennent votre style de communication, se souviennent de vos préférences et ajustent progressivement leurs réponses pour s'adapter à vos attentes. Pourtant, alors que nous formons nos partenaires numériques, quelque chose de tout aussi important se produit dans le sens inverse. Nos interactions avec ces systèmes remodèlent subtilement nos propres modèles de communication, nos processus de réflexion et même les attentes de conversations interpersonnelles. Nos interactions avec les systèmes d'IA ont commencé à remodeler nos attentes d'interactions interpersonnelles. Nous nous sommes adaptés à une réponse instantanée,

La Californie tape AI pour accélérer les permis de récupération des incendies de forêtLa Californie tape AI pour accélérer les permis de récupération des incendies de forêtMay 04, 2025 am 11:10 AM

L'IA rationalise la récupération des incendies de forêt Le logiciel AI de la société de technologie australienne Archistar, utilisant l'apprentissage automatique et la vision par ordinateur, automatise l'évaluation des plans de construction de conformité aux réglementations locales. Cette signification de pré-validation

Ce que les États-Unis peuvent apprendre du gouvernement numérique propulsé par l'IA de l'EstonieCe que les États-Unis peuvent apprendre du gouvernement numérique propulsé par l'IA de l'EstonieMay 04, 2025 am 11:09 AM

Le gouvernement numérique de l'Estonie: un modèle pour les États-Unis? Les États-Unis luttent contre les inefficacités bureaucratiques, mais l'Estonie offre une alternative convaincante. Cette petite nation possède un gouvernement de près de 100% numérisé et centré sur les citoyens alimentés par l'IA. Ce n'est pas

Planification du mariage via une IA générativePlanification du mariage via une IA générativeMay 04, 2025 am 11:08 AM

Planifier un mariage est une tâche monumentale, souvent écrasante même les couples les plus organisés. Cet article, qui fait partie d'une série Forbes en cours sur l'impact de l'IA (voir le lien ici), explore comment l'IA génératrice peut révolutionner la planification de mariage. Le mariage PL

Que sont les agents de l'IA de la défense numérique?Que sont les agents de l'IA de la défense numérique?May 04, 2025 am 11:07 AM

Les entreprises exploitent de plus en plus les agents de l'IA pour les ventes, tandis que les gouvernements les utilisent pour diverses tâches établies. Cependant, les défenseurs des consommateurs mettent en évidence la nécessité pour les individus de posséder leurs propres agents d'IA comme une défense contre les

Guide d'un chef d'entreprise sur l'optimisation générative du moteur (GEO)Guide d'un chef d'entreprise sur l'optimisation générative du moteur (GEO)May 03, 2025 am 11:14 AM

Google mène ce changement. Sa fonction "AI AperSews" sert déjà plus d'un milliard d'utilisateurs, fournissant des réponses complètes avant que quiconque clique sur un lien. [^ 2] D'autres joueurs gagnent également du terrain rapidement. Chatgpt, Microsoft Copilot et PE

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

mPDF

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) ​​et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),