1부에서는 pgVector를 사용하여 PostgreSQL을 설정했습니다. 이제 벡터 검색이 실제로 어떻게 작동하는지 살펴보겠습니다.
내용물
- 임베딩이란 무엇인가요?
- 샘플 데이터 로드
- 벡터 검색 탐색
- PostgreSQL 연산자 이해
- 다음 단계
임베딩이란 무엇입니까?
임베딩은 콘텐츠를 숫자로 스마트하게 요약한 것과 같습니다. 두 임베딩 사이의 거리는 유사성 수준을 나타냅니다. 거리가 작을수록 벡터가 매우 유사하다는 것을 나타내고, 거리가 멀면 관련성이 낮다는 것을 나타냅니다.
? Book A: Web Development (Distance: 0.2) ⬅️ Very Similar! ? Book B: JavaScript 101 (Distance: 0.3) ⬅️ Similar! ? Book C: Cooking Recipes (Distance: 0.9) ❌ Not Similar
샘플 데이터 로드
이제 데이터베이스를 일부 데이터로 채워 보겠습니다. 우리는 다음을 사용할 것입니다:
- 도서 데이터용 Open Library API
- 임베딩 생성을 위한 OpenAI API
- 저장하고 검색할 수 있는 pgVector
프로젝트 구조
pgvector-setup/ # From Part 1 ├── compose.yml ├── postgres/ │ └── schema.sql ├── .env # New: for API keys └── scripts/ # New: for data loading ├── requirements.txt ├── Dockerfile └── load_data.py
스크립트 만들기
외부 API에서 데이터를 로드하는 스크립트부터 시작해 보겠습니다. 전체 스크립트는 여기에 있습니다.
데이터 로딩 설정
- .env 생성:
OPENAI_API_KEY=your_openai_api_key
- compose.yml을 업데이트하여 데이터 로더를 추가하세요.
services: # ... existing db service from Part 1 data_loader: build: context: ./scripts environment: - DATABASE_URL=postgresql://postgres:password@db:5432/example_db - OPENAI_API_KEY=${OPENAI_API_KEY} depends_on: - db
- 데이터 로드:
docker compose up data_loader
메타데이터가 포함된 프로그래밍 서적 10권을 보실 수 있습니다.
벡터 검색 탐색
데이터베이스에 연결:
docker exec -it pgvector-db psql -U postgres -d example_db
벡터 데이터 이해
임베딩이 실제로 어떤 모습인지 살펴보겠습니다.
-- View first 5 dimensions of an embedding SELECT name, (embedding::text::float[])[1:5] as first_5_dimensions FROM items LIMIT 1;
- 각 임베딩의 크기는 1536개입니다(OpenAI 모델 사용)
- 값의 범위는 일반적으로 -1에서 1까지입니다
- 이 숫자는 의미적 의미를 나타냅니다
비슷한 책 찾기
간단한 유사성 검색을 시도해 보세요.
-- Find 3 books similar to any book about Web SELECT name, metadata FROM items ORDER BY embedding ( SELECT embedding FROM items WHERE metadata->>'title' LIKE '%Web%' LIMIT 1 ) LIMIT 3;
- 제목에 '웹'이 포함된 책 찾기
- 해당 책의 임베딩(수학적 표현) 가져오기
- 이 임베딩을 다른 모든 책의 임베딩과 비교
- 가장 유사한 책 3권을 가져옵니다(최소 거리)
PostgreSQL 연산자 이해
벡터 검색 쿼리에 사용되는 연산자를 분석해 보겠습니다.
JSON 텍스트 연산자: ->>
JSON 필드에서 텍스트 값을 추출합니다.
예:
-- If metadata = {"title": "ABC"}, it returns "ABC" SELECT metadata->>'title' FROM items;
벡터 거리 연산자:
두 벡터 간의 유사성을 측정합니다.
- 더 작은 거리 = 더 유사함
- 더 먼 거리 = 덜 유사함
예:
-- Find similar books SELECT name, embedding query_embedding as distance FROM items ORDER BY distance LIMIT 3;
다음 단계
다음은 다음과 같습니다.
- FastAPI 애플리케이션 구축
- 검색 엔드포인트 생성
- API를 통해 벡터 검색에 액세스할 수 있도록 하세요
3부: "벡터 검색 API 구축"을 계속 지켜봐 주시기 바랍니다! ?
아래에 댓글을 남겨주세요! ?
위 내용은 벡터 검색 시작하기(2부)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Pythonusesahybridmodelofilationandlostretation : 1) ThePyThoninterPretreCeterCompileSsourcodeIntOplatform-IndependentBecode.

Pythonisbothingretedandcompiled.1) 1) it 'scompiledtobytecodeforportabilityacrossplatforms.2) thebytecodeisthentenningreted, withfordiNamictyTeNgreted, WhithItmayBowerShiledlanguges.

forloopsareusedwhendumberofitessiskNowninadvance, whilewhiloopsareusedwhentheationsdepernationsorarrays.2) whiloopsureatableforscenarioScontiLaspecOndCond

pythonisnotpurelynlogreted; itusesahybrideprophorfbyodecodecompilationandruntime -INGRETATION.1) pythoncompilessourcecodeintobytecode, thepythonVirtualMachine (pvm)

ToconcatenatelistsinpythonwithesameElements, 사용 : 1) OperatorTokeEpduplicates, 2) asettoremovedUplicates, or3) listComperensionForControlOverDuplicates, 각 methodHasDifferentPerferformanCeanDorderImpestications.

PythonisancerpretedLanguage, 비판적 요소를 제시하는 PytherfaceLockelimitationsIncriticalApplications.1) 해석 된 언어와 같은 thePeedBackandbackandrapidProtoTyping.2) CompilledlanguagesLikec/C transformt 해석

useforloopswhhenmerfiterationsiskNownInAdvance 및 WhileLoopSweHeniTesslationsDepoyConditionismet whilEroopsSuitsCenarioswhereTheLoopScenarioswhereTheLoopScenarioswhereTheLoopScenarioswhereTherInatismet, 유용한 광고 인 푸트 gorit


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

WebStorm Mac 버전
유용한 JavaScript 개발 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기