Mémoire et recherche hybride en chiffon à l'aide de Llamaindex-IA-php.cn

Maison

Périphériques technologiques

Mémoire et recherche hybride en chiffon à l'aide de Llamaindex

Joseph Gordon-Levitt

Apr 11, 2025 am 10:33 AM

Introduction

Les pipelines de génération augmentée (RAG) de récupération améliorent comment les systèmes d'IA interagissent avec les données personnalisées, mais deux composants critiques sur lesquels nous nous concentrerons ici: la mémoire et la recherche hybride. Dans cet article, nous explorerons comment l'intégration de ces fonctionnalités puissantes peut transformer votre système de chiffon à partir d'un simple outil de réponse aux questions en un agent conversationnel intelligent, conscient du contexte.

La mémoire dans RAG permet à votre système de maintenir et de tirer parti de l'historique des conversations, créant des interactions plus cohérentes et contextuellement pertinentes. Pendant ce temps, la recherche hybride combine la compréhension sémantique de la recherche vectorielle avec la précision des approches basées sur les mots clés, améliorant considérablement la précision de la récupération de votre pipeline de chiffon.

Dans cet article, nous utiliserons Llamaindex pour implémenter à la fois la mémoire et la recherche hybride en utilisant QDRANT comme magasin vectoriel et les Gémeaux de Google comme modèle de grande langue.

Objectifs d'apprentissage

Gagnez une compréhension de la mise en œuvre du rôle de la mémoire dans les systèmes de chiffon et son impact sur la génération de réponses contextuellement précises.
Apprenez à intégrer les incorporations rapides de Google Gemini LLM et QDRANT dans le cadre Llamaindex, cela est utile car OpenAI est le modèle LLM et intégration par défaut utilisé dans Llamaindex.
Développez la mise en œuvre de techniques de recherche hybride à l'aide de QDRANT Vector Store, combinant la recherche vectorielle et de mots clés pour améliorer la précision de récupération dans les applications de chiffon.
Explorez les capacités de QDRANT en tant que magasin vectoriel, en nous concentrant sur sa fonctionnalité de recherche hybride intégrée et ses fonctionnalités d'incorporation rapides.

Cet article a été publié dans le cadre du Blogathon de la science des données.

Table des matières

Recherche hybride dans Qdrant
Mémoire et recherche hybride à l'aide de Llamaindex
- Étape 1: Exigences d'installation
- Étape 2: Définissez le modèle LLM et le modèle d'intégration
- Étape 3: Chargement de vos données
- Étape 4: Configuration de Qdrant avec recherche hybride
- Étape 5: Indexation de votre document
- Étape 6: Interroger le moteur de requête index
- Étape 7: Définissez la mémoire
- Étape 8: Création d'un moteur de chat avec mémoire
- Étape 9: Tester la mémoire
Questions fréquemment posées

Recherche hybride dans Qdrant

Imaginez que vous construisez un chatbot pour un site de commerce électronique massif. Un utilisateur demande: «Montrez-moi le dernier modèle iPhone». Avec la recherche de vecteur traditionnelle, vous pourriez obtenir des résultats sémantiquement similaires, mais vous pouvez manquer la correspondance exacte. La recherche de mots clés, en revanche, pourrait être trop rigide. La recherche hybride vous donne le meilleur des deux mondes:

La recherche vectorielle capture le sens et le contexte sémantiques
La recherche de mots clés garantit la précision des termes spécifiques

Qdrant est notre magasin vectoriel de choix pour cet article, et une bonne raison:

QDrant facilite la mise en œuvre de la recherche hybride en permettant simplement des paramètres hybrides lorsqu'il est défini.
Il est livré avec des modèles d'incorporation optimisés en utilisant FastMed où le modèle est chargé au format ONNX.
La mise en œuvre de QDRANT hitiralise la protection des informations sensibles, offre des options de déploiement polyvalentes, minimise les temps de réponse et réduit les dépenses opérationnelles.

Mémoire et recherche hybride à l'aide de Llamaindex

Nous allons plonger dans la mise en œuvre pratique de la mémoire et de la recherche hybride dans le cadre Llamaindex, montrant comment ces fonctionnalités améliorent les capacités des systèmes de génération augmentée (RAG) de récupération. En intégrant ces composants, nous pouvons créer un agent conversationnel plus intelligent et au contexte qui utilise efficacement les données historiques et les techniques de recherche avancées.

Étape 1: Exigences d'installation

Très bien, décomposons cela étape par étape. Nous utiliserons Llamaindex, Qdrant Vector Store, FastMed à partir de Qdrant et le modèle Gemini de Google. Assurez-vous que ces bibliothèques sont installées:

 ! Pip install llama-index llama-index-llms-gemini llama-index-vector-stores-qdrant fastlembed
! Pip installer lama-index-embeddings-fastembed

Étape 2: Définissez le modèle LLM et le modèle d'intégration

Tout d'abord, importons nos dépendances et configurons notre clé API:

 Importer un système d'exploitation
De GetPass Import Getpass
De Llama_index.llms.gemini Import Gemini
de lama_index.embeddings.fastembed Import FacedEmbedding

Google_api_key = getPass ("Entrez votre API Gemini:")
os.environ ["google_api_key"] = google_api_key

llm = gemini () # gemini 1.5 flash
embed_model = fastEmbedEmbedding ()

Testons maintenant si l'API est actuellement définie en exécutant ce LLM sur un exemple de requête utilisateur.

 llm_response = llm.comPlete ("Quand une pièce a-t-elle commencé?"). Texte
print (llm_response)

Dans Llamaindex, OpenAI est le modèle LLM et d'intégration par défaut, pour remplacer que nous devons définir les paramètres de Llamaindex Core. Ici, nous devons remplacer le modèle LLM et intégré.

 de lama_index.core paramètres d'importation

Settings.llm = llm
Settings.embed_model = embed_model

Étape 3: Chargement de vos données

Pour cet exemple, supposons que nous avons un PDF dans un dossier de données, nous pouvons charger le dossier de données à l'aide du lecteur Simpledirectory dans Llamaindex.

 De Llama_index.Core Import SimpledirectoryReader
Documents = SimpleDirectoryReader ("./ Data /"). Load_Data ()

Étape 4: Configuration de Qdrant avec recherche hybride

Nous devons définir une instance QDrantvectorStore et le configurer en mémoire pour cet exemple. Nous pouvons également définir le client QDrant avec son service cloud ou localhost, mais dans notre article en mémoire, une définition avec un nom de collection devrait faire.

Assurez-vous que le perte_hybrid = true car cela nous permet d'utiliser les capacités de recherche hybrides de QDrant. Notre nom de collecte est «papier», car le dossier de données contient un PDF sur un document de recherche sur les agents.

 De Llama_index.core Import VectorStoreIndex, StorageContext
de lama_index.vector_stores.qdrant import qdrantvectorstore
Importer Qdrant_Client

client = qdrant_client.qdrantClient (
    location = ": mémoire:",
)

vector_store = qdrantvectorstore (
    collection_name = "papier",
    client = client,
    activer_hybrid = true, # La recherche hybride aura lieu
    Batch_size = 20,
)

Étape 5: Indexation de votre document

En implémentant la mémoire et la recherche hybride dans notre système de chiffon, nous avons créé un contexte plus intelligent et plus

 Storage_context = StorageContext.from_defaults (vector_store = vector_store)

index = vectorstoreindex.from_documents (
    documents,
    Storage_context = Storage_Context,
)

Étape 6: Interroger le moteur de requête index

L'indexation est la partie où nous définissons la chaîne Retriever et Generator à Llamaindex. Il traite chaque document de notre collection de documents et génère des intégres pour le contenu de chaque document. Ensuite, il stocke ces intérêts dans notre magasin de vecteur QDrant. Il crée une structure d'index qui permet une récupération efficace. Lors de la définition du moteur de requête, assurez-vous de demander le mode en hybride.

 Query_Engine = index.as_query_engine (
    vector_store_query_mode = "hybride"
)

Response1 = query_engine.query ("Quel est le sens de la vie?")
Print (Response1)
Response2 = query_engine.query ("Donnez le résumé dans les 2 phrases")
Print (Response2)

Dans le moteur de requête ci-dessus, nous exécutons deux requêtes l'une qui se trouve dans le contexte et l'autre en dehors du contexte. Voici la sortie que nous avons obtenue:

 Sortir

# Response-1
Le texte fourni se concentre sur l'utilisation de modèles de grands langues (LLMS) pour la planification chez les agents autonomes. 
Il ne discute pas du sens de la vie. 

# Response-2

Ce document explore l'utilisation de modèles de grande langue (LLM) comme agents pour résoudre des tâches complexes. 
Il se concentre sur deux approches principales: 
Méthodes de décomposition d'abord, 
où la tâche est décomposée en sous-tâches avant l'exécution, et 
Méthodes de décomposition entrelacées, qui ajustent dynamiquement la décomposition en fonction de la rétroaction.

Étape 7: Définissez la mémoire

Bien que notre chatbot fonctionne bien et offre des réponses améliorées, il manque toujours de conscience contextuelle sur plusieurs interactions. C'est là que la mémoire entre dans l'image.

 de Llama_index.core.Memory Import ChatMemoryBuffer

mémoire = chatMemoryBuffer.from_defaults (token_limit = 3000)

Étape 8: Création d'un moteur de chat avec mémoire

Nous allons créer un moteur de chat qui utilise à la fois la recherche hybride et la mémoire. Dans Llamaindex pour les applications basées sur des chiffons lorsque nous avons des données extérieures ou externes, assurez-vous que le mode de chat est un contexte.

 chat_engine = index.as_chat_engine (
    chat_mode = "contexte", 
    mémoire = mémoire,
    System_Prompt = (
        "Vous êtes un assistant d'IA qui répond aux questions des utilisateurs"
    ),
)

Étape 9: Tester la mémoire

Exécutons quelques requêtes et vérifions si la mémoire fonctionne comme prévu ou non.

 à partir d'Ipython.Display Import Markdown, affichage

check1 = Chat_Engine.chat ("Donnez le résumé dans les 2 phrases")

Check2 = Chat_Engine.Chat ("Continuez le résumé, ajoutez une phrase de plus aux deux phrases précédentes")

Check3 = Chat_Engine.Chat ("faire le résumé ci-dessus en poème")

Mémoire et recherche hybride en chiffon à l'aide de Llamaindex

Conclusion

Nous avons exploré comment l'intégration de la mémoire et de la recherche hybride dans les systèmes de génération augmentée (RAG) de récupération améliore considérablement leurs capacités. En utilisant Llamaindex avec QDRANT comme magasin vectoriel et les Gémeaux de Google comme modèle de grande langue, nous avons démontré comment la recherche hybride peut combiner les forces de la récupération basée sur le vecteur et les mots clés pour fournir des résultats plus précis. L'ajout de mémoire a encore amélioré la compréhension contextuelle, permettant au chatbot de fournir des réponses cohérentes sur plusieurs interactions. Ensemble, ces fonctionnalités créent un système plus intelligent et conscient du contexte, ce qui rend les pipelines de chiffon plus efficaces pour les applications d'IA complexes.

Principaux à retenir

La mise en œuvre d'un composant mémoire dans le pipeline de chiffons améliore considérablement la conscience contextuelle du chatbot et la capacité de maintenir des conversations cohérentes sur plusieurs interactions.
L'intégration de la recherche hybride à l'aide de QDRANT comme magasin vectoriel, combinant les forces de la recherche vectorielle et des mots clés pour améliorer la précision et la pertinence de la récupération dans le système de chiffon qui minimise le risque d'hallucination. Avertissement, il ne supprime pas complètement l'hallucination réduit plutôt le risque.
Utilisation de ChatMemoryBuffer de Llamaindex pour une gestion efficace de l'historique des conversations, avec des limites de jetons configurables pour équilibrer la rétention de contexte et les ressources informatiques.
L'incorporation du modèle Gémeaux de Google en tant que fournisseur de LLM et d'intégration dans le cadre Llamaindex présente la flexibilité de Llamaindex dans les différents modèles d'IA et les techniques d'intégration.

Questions fréquemment posées

Q 1. Qu'est-ce que la recherche hybride et pourquoi est-elle importante en chiffon?

A. La recherche hybride combine la recherche vectorielle pour la compréhension sémantique et la recherche de mots clés pour la précision. Il améliore la précision des résultats en permettant au système de considérer à la fois le contexte et les termes exacts, conduisant à de meilleurs résultats de récupération, en particulier dans les ensembles de données complexes.

Q2. Pourquoi utiliser Qdrant pour la recherche hybride en chiffon?

A. QDRANT prend en charge la recherche hybride hors de la boîte, est optimisée pour les incorporations rapides et est évolutive. Cela en fait un choix fiable pour implémenter à la fois la recherche vectorielle et basée sur les mots clés dans les systèmes de chiffon, garantissant les performances à grande échelle.

Q3. Comment la mémoire améliore-t-elle les systèmes de chiffon?

A. La mémoire dans les systèmes de chiffon permet la rétention de l'historique des conversations, permettant au chatbot de fournir des réponses plus cohérentes et contextuellement précises entre les interactions, améliorant considérablement l'expérience utilisateur.

Q 4. Puis-je utiliser des modèles locaux au lieu d'API basés sur le cloud pour les applications de chiffon?

A. Oui, vous pouvez exécuter un LLM local (comme Olllama ou HuggingFace) au lieu d'utiliser des API basées sur le cloud comme OpenAI. Cela vous permet de maintenir le contrôle total de vos données sans les télécharger sur des serveurs externes, ce qui est une préoccupation commune pour les applications sensibles à la confidentialité.

Les médias présentés dans cet article ne sont pas détenus par l'analytique vidhya et sont utilisés à la discrétion de l'auteur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn