llamaindex를 사용한 헝겊의 메모리 및 하이브리드 검색-일체 포함-php.cn

집

기술 주변기기

일체 포함

llamaindex를 사용한 헝겊의 메모리 및 하이브리드 검색

Joseph Gordon-Levitt

Apr 11, 2025 am 10:33 AM

소개

검색 증강 생성 (RAG) 파이프 라인은 AI 시스템이 사용자 정의 데이터와 상호 작용하는 방식을 향상시키고 있지만 여기에 중점을 둔 두 가지 중요한 구성 요소 (메모리 및 하이브리드 검색). 이 기사에서는 이러한 강력한 기능을 통합하면 RAG 시스템을 간단한 질문 응답 도구에서 상황을 인식하고 지능적인 대화 에이전트로 변환 할 수있는 방법을 살펴 봅니다.

Rag의 메모리를 통해 시스템은 대화 기록을 유지하고 활용하여보다 일관적이고 상황에 맞는 상호 작용을 만듭니다. 한편, 하이브리드 검색은 벡터 검색에 대한 의미 론적 이해를 키워드 기반 접근 방식의 정밀성과 결합하여 RAG 파이프 라인의 검색 정확도를 크게 향상시킵니다.

이 기사에서는 Llamaindex를 사용하여 Qdrant를 벡터 스토어로 사용하고 Google의 Gemini를 대형 언어 모델로 사용하여 메모리 및 하이브리드 검색을 모두 구현할 것입니다.

학습 목표

RAG 시스템에서 메모리의 역할에 대한 구현 이해와 상황에 맞는 정확한 응답을 생성하는 데 미치는 영향을 얻습니다.
Llamaindex 프레임 워크 내에서 Google의 Gemini LLM 및 Qdrant 빠른 임베딩을 통합하는 방법을 배우십시오. OpenAI가 Llamaindex에 사용되는 기본 LLM 및 Embed 모델이므로 유용합니다.
Qdrant Vector Store를 사용하여 하이브리드 검색 기술의 구현, 벡터 및 키워드 검색을 결합하여 RAG 응용 분야의 검색 정밀도를 향상시킵니다.
내장 하이브리드 검색 기능 및 빠른 임베딩 기능에 중점을 둔 벡터 스토어로서 Qdrant의 기능을 탐색하십시오.

이 기사는 Data Science Blogathon 의 일부로 출판되었습니다 .

qdrant에서 하이브리드 검색
llamaindex를 사용한 메모리 및 하이브리드 검색
- 1 단계 : 설치 요구 사항
- 2 단계 : LLM 및 임베딩 모델을 정의합니다
- 3 단계 : 데이터로드
- 4 단계 : 하이브리드 검색으로 Qdrant 설정
- 5 단계 : 문서 색인
- 6 단계 : 인덱스 쿼리 엔진 쿼리
- 7 단계 : 메모리 정의
- 8 단계 : 메모리가 포함 된 채팅 엔진 생성
- 9 단계 : 메모리 테스트
자주 묻는 질문

qdrant에서 하이브리드 검색

대규모 전자 상거래 사이트를위한 챗봇을 구축한다고 상상해보십시오. 사용자가“최신 iPhone 모델을 보여주세요.”라고 묻습니다. 전통적인 벡터 검색을 사용하면 의미 적으로 유사한 결과를 얻을 수 있지만 정확한 일치를 놓칠 수 있습니다. 반면에 키워드 검색은 너무 단단 할 수 있습니다. 하이브리드 검색은 두 세계의 최고를 제공합니다.

벡터 검색은 의미 론적 의미와 맥락을 포착합니다
키워드 검색은 특정 용어의 정밀도를 보장합니다

Qdrant는이 기사에서 선택한 벡터 저장소이며, 그 이유는 다음과 같습니다.

QDRANT는 정의 할 때 하이브리드 매개 변수를 활성화하여 하이브리드 검색을 쉽게 구현할 수 있습니다.
모델이 Onnx 형식으로로드되는 Fastembed를 사용하여 최적화 된 임베딩 모델이 제공됩니다.
QDRANT 구현은 민감한 정보 보호 우선 순위를 정하고 다용도 배치 옵션을 제공하며 응답 시간을 최소화하며 운영 비용을 줄입니다.

llamaindex를 사용한 메모리 및 하이브리드 검색

우리는 Llamaindex 프레임 워크 내에서 메모리 및 하이브리드 검색의 실제 구현을 통해 이러한 기능이 검색 증강 생성 (RAG) 시스템의 기능을 향상시키는 방법을 보여줍니다. 이러한 구성 요소를 통합함으로써, 우리는 과거 데이터와 고급 검색 기술을 효과적으로 활용하는보다 지능적이고 컨텍스트 인식 대화 에이전트를 만들 수 있습니다.

1 단계 : 설치 요구 사항

알았어, 이것을 단계별로 나체 봅시다. Llamaindex, Qdrant 벡터 스토어, Qdrant의 Fastembed 및 Google의 Gemini 모델을 사용할 것입니다. 이러한 라이브러리가 설치되어 있는지 확인하십시오.

 ! PIP 설치 LLAMA-Index Llama-index-Llms-Gemini llama-index-vector-Stores-qdrant fastembed
! PIP 설치 llama-index-embeddings-fastembed

2 단계 : LLM 및 임베딩 모델을 정의합니다

먼저 종속성을 가져 와서 API 키를 설정하겠습니다.

 OS 가져 오기
getpass import getpass에서
llama_index.llms.gemini import gemini에서
llama_index.embeddings.fastembed import fastembedembedding에서

Google_api_key = getpass ( "Gemini API를 입력하십시오 :")
os.environ [ "google_api_key"] = Google_api_key

llm = gemini () # gemini 1.5 플래시
embed_model = fastembedembedding ()

이제 API가 샘플 사용자 쿼리에서 해당 LLM을 실행하여 현재 정의되었는지 테스트 해 드리겠습니다.

 llm_response = llm.complete ( "한 조각이 시작 되었습니까?"). 텍스트
print (llm_response)

llamaindex에서 OpenAi는 Llamaindex 코어에서 설정을 정의해야한다는 것을 무시하기 위해 기본 LLM 및 임베딩 모델입니다. 여기서 우리는 LLM과 Embed 모델을 모두 무시해야합니다.

 llama_index에서 Core 가져 오기 설정

settings.llm = llm
settings.embed_model = embed_model

3 단계 : 데이터로드

이 예에서는 데이터 폴더에 PDF가 있다고 가정 해 봅시다. Llamaindex에서 Simpledirectory Reader를 사용하여 데이터 폴더를로드 할 수 있습니다.

 Llama_index에서 Core import SimpledirectoryReader
documents = simpledirectoryReader ( "./ data/"). load_data ()

4 단계 : 하이브리드 검색으로 Qdrant 설정

QdrantVectorStore 인스턴스를 정의 하고이 예제에 대해 메모리에서 설정해야합니다. 또한 클라우드 서비스 또는 LocalHost로 Qdrant 클라이언트를 정의 할 수 있지만 메모리의 기사에서는 수집 이름이있는 정의가 있어야합니다.

Qdrant의 하이브리드 검색 기능을 사용할 수 있으므로 enable_hybrid = true를 확인하십시오. 데이터 폴더에는 에이전트에 대한 연구 논문에 PDF가 포함되어 있으므로 수집 이름은`paper '입니다.

 Llama_index에서 Core import vectorstoreIndex, StorageContext
llama_index.vector_stores.qdrant import QdrantVectorStore에서
qdrant_client를 가져옵니다

클라이언트 = qdrant_client.qdrantclient (
    위치 = ": 메모리 :",
))

vector_store = qdrantVectorStore (
    collection_name = "종이",
    클라이언트 = 클라이언트,
    enable_hybrid = true, # 하이브리드 검색이 진행됩니다
    batch_size = 20,
))

5 단계 : 문서 색인

Rag 시스템에서 메모리 및 하이브리드 검색을 구현함으로써보다 지능적이고 컨텍스트를 만들었습니다.

 Storage_Context = StorageContext.from_defaults (vector_store = vector_store)

index = vectorstoreindex.from_documents (
    서류,
    Storage_Context = Storage_Context,
))

6 단계 : 인덱스 쿼리 엔진 쿼리

인덱싱은 Llamaindex에서 리트리버 및 발전기 체인을 정의하는 부분입니다. 문서 수집에서 각 문서를 처리하고 각 문서의 내용에 대한 임베딩을 생성합니다. 그런 다음 이러한 임베딩을 Qdrant 벡터 저장소에 저장합니다. 효율적인 검색을 허용하는 인덱스 구조를 만듭니다. 쿼리 엔진을 정의하는 동안 하이브리드에서 쿼리 모드를 확인하십시오.

 query_engine = index.as_query_engine (
    vector_store_query_mode = "하이브리드"
))

response1 = query_engine.query ( "삶의 의미는 무엇입니까?")
인쇄 (응답 1)
response2 = query_engine.query ( "2 문장 내에서 초록을 제공")
인쇄 (응답 2)

위의 쿼리 엔진에서 컨텍스트 내에있는 두 개의 쿼리와 컨텍스트 외부의 두 쿼리를 실행합니다. 우리가 얻은 출력은 다음과 같습니다.

 산출

#응답 -1
제공된 텍스트는 자율 에이전트 계획을위한 대형 언어 모델 (LLM)의 사용에 중점을 둡니다. 
그것은 삶의 의미에 대해 논의하지 않습니다. 

#응답 -2

이 문서는 복잡한 작업을 해결하기위한 대리인으로서 LLM (Langer Model)을 사용하는 것을 탐구합니다. 
두 가지 주요 접근 방식에 중점을 둡니다. 
분해 우선 방법, 
실행 전에 작업이 하위 작업으로 분해되는 경우 
피드백을 기반으로 분해를 동적으로 조정하는 인터리브 분해 방법.

7 단계 : 메모리 정의

챗봇이 잘 수행되고 개선 된 응답을 제공하는 동안 여전히 여러 상호 작용에 대한 상황 인식이 부족합니다. 이것은 메모리가 그림에 들어오는 곳입니다.

 llama_index.core.Memory import ChatMemoryBuffer

메모리 = chatmemorybuffer.from_defaults (token_limit = 3000)

8 단계 : 메모리가 포함 된 채팅 엔진 생성

하이브리드 검색과 메모리를 모두 사용하는 채팅 엔진을 만들 것입니다. 외부 또는 외부 데이터가있을 때 래그 기반 애플리케이션 용 Llamaindex에서 채팅 모드가 컨텍스트인지 확인하십시오.

 chat_engine = index.as_chat_engine (
    chat_mode = "컨텍스트", 
    메모리 = 메모리,
    system_prompt = (
        "당신은 사용자 질문에 답하는 AI 조수입니다."
    ),)
))

9 단계 : 메모리 테스트

몇 가지 쿼리를 실행하고 메모리가 예상대로 작동하는지 확인하겠습니다.

 IPYTHON. DISPLAY 가져 오기 MarkDown, Display

check1 = chat_engine.chat ( "2 문장 내에서 초록을 제공")

check2 = chat_engine.chat ( "초록을 계속하고, 이전 두 문장에 한 문장을 더 추가하십시오")

Check3 = chat_engine.chat ( "위의 초록을 시로 만듭니다")

llamaindex를 사용한 헝겊의 메모리 및 하이브리드 검색

결론

우리는 메모리 및 하이브리드 검색을 검색 증강 생성 (RAG) 시스템에 통합하면 기능을 크게 향상시키는 방법을 살펴 보았습니다. Qdrant와 함께 Llamaindex를 벡터 스토어로, Google의 Gemini를 큰 언어 모델로 사용함으로써 하이브리드 검색이 벡터의 강점과 키워드 기반 검색을 결합하여보다 정확한 결과를 제공 할 수있는 방법을 보여주었습니다. 메모리의 추가는 상황에 맞는 이해를 더욱 향상시켜 챗봇이 여러 상호 작용에 걸쳐 일관된 응답을 제공 할 수있게했습니다. 이러한 기능은 함께보다 지능적이고 상황을 인식하여 RAG 파이프 라인을 복잡한 AI 응용 프로그램에보다 효과적으로 만듭니다.

주요 테이크 아웃

RAG 파이프 라인에서 메모리 구성 요소를 구현하면 챗봇의 상황에 맞는 인식과 여러 상호 작용에서 일관된 대화를 유지하는 능력을 크게 향상시킵니다.
QDRANT를 벡터 저장소로 사용하여 하이브리드 검색의 통합으로 벡터 및 키워드 검색의 강점을 결합하여 환각의 위험을 최소화하는 RAG 시스템의 검색 정확도와 관련성을 향상시킵니다. 면책 조항, 환각을 완전히 제거하지는 않으면 위험이 줄어 듭니다.
컨텍스트 유지 및 계산 리소스의 균형을 맞추기 위해 구성 가능한 토큰 제한을 통해 대화 기록의 효율적인 관리를위한 Llamaindex의 ChatmemoryBuffer의 활용.
Llamaindex 프레임 워크 내의 LLM 및 임베딩 제공 업체로서 Google의 Gemini 모델을 통합하면 다양한 AI 모델을 수용하고 임베딩 기술을 수용 할 때 Llamaindex의 유연성을 보여줍니다.

자주 묻는 질문

Q 1. 하이브리드 검색이란 무엇이며 헝겊에 중요한 이유는 무엇입니까?

A. 하이브리드 검색은 시맨틱 이해를위한 벡터 검색과 정밀도에 대한 키워드 검색을 결합합니다. 시스템이 컨텍스트와 정확한 용어를 모두 고려하여 결과의 정확성을 향상시켜 특히 복잡한 데이터 세트에서 더 나은 검색 결과를 가져옵니다.

Q2. 헝겊에서 하이브리드 검색에 Qdrant를 사용하는 이유는 무엇입니까?

A. QDRANT는 하이브리드 검색을 상자에서 지원하고 빠른 임베딩에 최적화되며 확장 가능합니다. 이로 인해 RAG 시스템에서 벡터 및 키워드 기반 검색을 모두 구현하여 규모의 성능을 보장 할 수 있습니다.

Q3. 메모리는 어떻게 걸레 시스템을 향상 시킵니까?

A. RAG 시스템의 메모리는 대화 기록을 유지하여 챗봇이 상호 작용에 걸쳐보다 일관적이고 상황에 맞는 응답을 제공하여 사용자 경험을 크게 향상시킬 수 있도록합니다.

Q 4. RAG 응용 프로그램에 클라우드 기반 API 대신 로컬 모델을 사용할 수 있습니까?

A. 예, OpenAI와 같은 클라우드 기반 API를 사용하는 대신 로컬 LLM (예 : Ollama 또는 Huggingface)을 실행할 수 있습니다. 이를 통해 데이터를 외부 서버에 업로드하지 않고 데이터를 완전히 제어 할 수 있으며, 이는 개인 정보 보호 응용 프로그램의 일반적인 관심사입니다.

이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.

위 내용은 llamaindex를 사용한 헝겊의 메모리 및 하이브리드 검색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명