벡터 검색 시작하기(2부)-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

벡터 검색 시작하기(2부)

Linda Hamilton

Nov 10, 2024 am 02:07 AM

Getting Started with Vector Search (Part 2)

1부에서는 pgVector를 사용하여 PostgreSQL을 설정했습니다. 이제 벡터 검색이 실제로 어떻게 작동하는지 살펴보겠습니다.

내용물

임베딩이란 무엇인가요?
샘플 데이터 로드
벡터 검색 탐색
PostgreSQL 연산자 이해
다음 단계

임베딩이란 무엇입니까?

임베딩은 콘텐츠를 숫자로 스마트하게 요약한 것과 같습니다. 두 임베딩 사이의 거리는 유사성 수준을 나타냅니다. 거리가 작을수록 벡터가 매우 유사하다는 것을 나타내고, 거리가 멀면 관련성이 낮다는 것을 나타냅니다.

? Book A: Web Development  (Distance: 0.2) ⬅️ Very Similar!
? Book B: JavaScript 101   (Distance: 0.3) ⬅️ Similar!
? Book C: Cooking Recipes  (Distance: 0.9) ❌ Not Similar

샘플 데이터 로드

이제 데이터베이스를 일부 데이터로 채워 보겠습니다. 우리는 다음을 사용할 것입니다:

도서 데이터용 Open Library API
임베딩 생성을 위한 OpenAI API
저장하고 검색할 수 있는 pgVector

프로젝트 구조

pgvector-setup/             # From Part 1
  ├── compose.yml
  ├── postgres/
  │   └── schema.sql
  ├── .env                  # New: for API keys
  └── scripts/              # New: for data loading
      ├── requirements.txt
      ├── Dockerfile
      └── load_data.py

스크립트 만들기

외부 API에서 데이터를 로드하는 스크립트부터 시작해 보겠습니다. 전체 스크립트는 여기에 있습니다.

데이터 로딩 설정

.env 생성:

OPENAI_API_KEY=your_openai_api_key

compose.yml을 업데이트하여 데이터 로더를 추가하세요.

services:
  # ... existing db service from Part 1

  data_loader:
    build:
      context: ./scripts
    environment:
      - DATABASE_URL=postgresql://postgres:password@db:5432/example_db
      - OPENAI_API_KEY=${OPENAI_API_KEY}
    depends_on:
      - db

데이터 로드:

docker compose up data_loader

메타데이터가 포함된 프로그래밍 서적 10권을 보실 수 있습니다.

벡터 검색 탐색

데이터베이스에 연결:

docker exec -it pgvector-db psql -U postgres -d example_db

벡터 데이터 이해

임베딩이 실제로 어떤 모습인지 살펴보겠습니다.

-- View first 5 dimensions of an embedding
SELECT
    name,
    (embedding::text::float[])[1:5] as first_5_dimensions
FROM items
LIMIT 1;

각 임베딩의 크기는 1536개입니다(OpenAI 모델 사용)
값의 범위는 일반적으로 -1에서 1까지입니다
이 숫자는 의미적 의미를 나타냅니다

비슷한 책 찾기

간단한 유사성 검색을 시도해 보세요.

-- Find 3 books similar to any book about Web
SELECT name, metadata
FROM items
ORDER BY embedding  (
    SELECT embedding
    FROM items
    WHERE metadata->>'title' LIKE '%Web%'
    LIMIT 1
)
LIMIT 3;

제목에 '웹'이 포함된 책 찾기
해당 책의 임베딩(수학적 표현) 가져오기
이 임베딩을 다른 모든 책의 임베딩과 비교
가장 유사한 책 3권을 가져옵니다(최소 거리)

PostgreSQL 연산자 이해

벡터 검색 쿼리에 사용되는 연산자를 분석해 보겠습니다.

JSON 텍스트 연산자: ->>

JSON 필드에서 텍스트 값을 추출합니다.

예:

-- If metadata = {"title": "ABC"}, it returns "ABC"
SELECT metadata->>'title' FROM items;

벡터 거리 연산자:

두 벡터 간의 유사성을 측정합니다.

더 작은 거리 = 더 유사함
더 먼 거리 = 덜 유사함

예:

-- Find similar books
SELECT name, embedding  query_embedding as distance
FROM items
ORDER BY distance
LIMIT 3;

다음 단계

다음은 다음과 같습니다.

FastAPI 애플리케이션 구축
검색 엔드포인트 생성
API를 통해 벡터 검색에 액세스할 수 있도록 하세요

3부: "벡터 검색 API 구축"을 계속 지켜봐 주시기 바랍니다! ?

아래에 댓글을 남겨주세요! ?

위 내용은 벡터 검색 시작하기(2부)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 : 편집과 해석에 대한 깊은 다이빙May 12, 2025 am 12:14 AM

Pythonusesahybridmodelofilationandlostretation : 1) ThePyThoninterPretreCeterCompileSsourcodeIntOplatform-IndependentBecode.

Python은 해석 된 또는 편집 된 언어입니까? 왜 중요한가?May 12, 2025 am 12:09 AM

Pythonisbothingretedandcompiled.1) 1) it 'scompiledtobytecodeforportabilityacrossplatforms.2) thebytecodeisthentenningreted, withfordiNamictyTeNgreted, WhithItmayBowerShiledlanguges.

루프 대 파이썬의 루프 : 주요 차이점 설명May 12, 2025 am 12:08 AM

forloopsareideal when

루프를위한 것 및 기간 : 실용 가이드May 12, 2025 am 12:07 AM

forloopsareusedwhendumberofitessiskNowninadvance, whilewhiloopsareusedwhentheationsdepernationsorarrays.2) whiloopsureatableforscenarioScontiLaspecOndCond

파이썬 : 진정으로 해석 되었습니까? 신화를 파악합니다May 12, 2025 am 12:05 AM

pythonisnotpurelynlogreted; itusesahybrideprophorfbyodecodecompilationandruntime -INGRETATION.1) pythoncompilessourcecodeintobytecode, thepythonVirtualMachine (pvm)

동일한 요소를 가진 Python Concatenate 목록May 11, 2025 am 12:08 AM

ToconcatenatelistsinpythonwithesameElements, 사용 : 1) OperatorTokeEpduplicates, 2) asettoremovedUplicates, or3) listComperensionForControlOverDuplicates, 각 methodHasDifferentPerferformanCeanDorderImpestications.

해석 대 컴파일 언어 : Python 's PlaceMay 11, 2025 am 12:07 AM

PythonisancerpretedLanguage, 비판적 요소를 제시하는 PytherfaceLockelimitationsIncriticalApplications.1) 해석 된 언어와 같은 thePeedBackandbackandrapidProtoTyping.2) CompilledlanguagesLikec/C transformt 해석

루프를 위해 및 while 루프 : 파이썬에서 언제 각각을 사용합니까?May 11, 2025 am 12:05 AM

useforloopswhhenmerfiterationsiskNownInAdvance 및 WhileLoopSweHeniTesslationsDepoyConditionismet whilEroopsSuitsCenarioswhereTheLoopScenarioswhereTheLoopScenarioswhereTheLoopScenarioswhereTherInatismet, 유용한 광고 인 푸트 gorit

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.