찾다
백엔드 개발파이썬 튜토리얼SQL 마인드를 위한 ChromaDB

ChromaDB for the SQL Mind

안녕하세요. Chroma DB는 GenAI 애플리케이션 작업에 유용한 벡터 데이터베이스입니다. 이 기사에서는 MySQL의 유사한 관계를 살펴봄으로써 Chroma DB에서 쿼리를 실행할 수 있는 방법을 살펴보겠습니다.

개요

SQL과 달리 자체 스키마를 정의할 수 없습니다. Chroma에서는 각각 고유한 목적을 가진 고정된 열이 제공됩니다.

import chromadb

#setiing up the client
client = chromadb.Client() 
collection = client.create_collection(name="name")

collection.add(
    documents = ["str1","str2","str3",...]
    ids = [1,2,3,....]
    metadatas=[{"chapter": "3", "verse": "16"},{"chapter":"3", "verse":"5"}, ..]           
    embeddings = [[1,2,3], [3,4,5], [5,6,7]]
)

ID: 고유한 ID입니다. SQL과 달리 자동 증가가 없으므로 직접 제공해야 합니다.
문서: 임베딩을 생성하는 데 사용되는 텍스트 데이터를 삽입하는 데 사용됩니다. 텍스트를 제공하면 자동으로 임베딩이 생성됩니다. 또는 임베딩을 직접 제공하고 다른 곳에 텍스트를 저장할 수도 있습니다.
임베딩: 내 생각에는 유사성 검색을 수행하는 데 사용되는 임베딩이 데이터베이스에서 가장 중요한 부분입니다.
메타데이터: 추가 컨텍스트를 위해 데이터베이스에 추가할 수 있는 추가 데이터를 연결하는 데 사용됩니다.

이제 컬렉션의 기본 사항이 명확해졌으므로 CRUD 작업으로 넘어가서 데이터베이스를 쿼리하는 방법을 살펴보겠습니다.

CRUD 작업

참고: 컬렉션은 Chroma의 테이블과 같습니다

컬렉션을 생성하려면 create_collection()을 사용하고 필요에 따라 작업을 수행할 수 있지만 컬렉션이 이미 만들어져서 이를 다시 참조해야 하는 경우 get_collection()을 사용해야 합니다. 그렇지 않으면 오류가 발생합니다.

Create Table tablename 
#Create a collection
collection = client.create_collection(name="name")

#If a collection is already made and you need to use it again the use
collection = client.get_collection(name="name")
Insert into tablename
Values(... , ..., ...)
collection.add(
    ids = [1]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]
)

삽입된 데이터를 업데이트하거나 데이터를 삭제하려면 다음 명령을 사용할 수 있습니다

collection.update(
    ids = [2]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]            
)

# If the id does not exist update will do nothing. to add data if id does not exist use
collection.upsert(
    ids = [2]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]            
)

# To delete data use delete and refrence the document or id or the feild
collection.delete(
    documents = ["some text"]         
)

# Or you can delete from a bunch of ids using where that will apply filter on metadata
collection.delete(
    ids=["id1", "id2", "id3",...],
    where={"chapter": "20"}
)

쿼리

이제 특정 검색어가 어떻게 나타나는지 살펴보겠습니다

Select * from tablename

Select * from tablename limit value

Select Documents, Metadata from tablename
collection.get()

collection.get(limit = val)

collection.get(include = ["documents","metadata"])

더 고급 쿼리를 위해 대규모 테이블 세트를 가져오는 데 get()이 있지만 쿼리 방법을 사용해야 합니다

Select A,B from table
limit val
collection.query(
    n_results = val #limit
    includes = [A,B] 
)

이제 데이터를 필터링하는 세 가지 가능한 방법이 있습니다: 유사성 검색(주로 사용되는 벡터 데이터베이스), 메타데이터 필터 및 문서 필터

유사성 검색

텍스트나 임베딩을 기반으로 검색하여 가장 유사한 결과를 얻을 수 있습니다

collection.query(query_texts=["string"])

collection.query(query_embeddings=[[1,2,3]])

ChromaDB에서는 쿼리 중 결과를 필터링하는 데 where 및 where_document 매개변수가 사용됩니다. 이 필터를 사용하면 메타데이터 또는 특정 문서 콘텐츠를 기반으로 유사성 검색을 세분화할 수 있습니다.

메타데이터로 필터링

where 매개변수를 사용하면 관련 메타데이터를 기준으로 문서를 필터링할 수 있습니다. 메타데이터는 일반적으로 문서 삽입 중에 제공하는 키-값 쌍의 사전입니다.

카테고리, 작성자, 날짜 등의 메타데이터를 기준으로 문서를 필터링하세요.

import chromadb

#setiing up the client
client = chromadb.Client() 
collection = client.create_collection(name="name")

collection.add(
    documents = ["str1","str2","str3",...]
    ids = [1,2,3,....]
    metadatas=[{"chapter": "3", "verse": "16"},{"chapter":"3", "verse":"5"}, ..]           
    embeddings = [[1,2,3], [3,4,5], [5,6,7]]
)
Create Table tablename 

문서 내용으로 필터링

where_document 매개변수를 사용하면 문서 내용을 기준으로 직접 필터링할 수 있습니다.

특정 키워드가 포함된 문서만 검색합니다.

#Create a collection
collection = client.create_collection(name="name")

#If a collection is already made and you need to use it again the use
collection = client.get_collection(name="name")

주요 사항:

  • $contains, $startsWith 또는 $endsWith와 같은 연산자를 사용하세요.
    • $contains: 하위 문자열이 포함된 문서를 일치시킵니다.
    • $startsWith: 하위 문자열로 시작하는 문서를 일치시킵니다.
    • $endsWith: 하위 문자열로 끝나는 문서를 일치시킵니다.
  • 예:

    Insert into tablename
    Values(... , ..., ...)
    

일반적인 사용 사례:

다음과 같이 세 가지 필터를 모두 결합할 수 있습니다.

  1. 특정 카테고리 내에서 검색:

    collection.add(
        ids = [1]
        documents = ["some text"]
        metadatas = [{"key":"value"}]
        embeddings = [[1,2,3]]
    )
    
  2. 특정 용어가 포함된 문서 검색:

    collection.update(
        ids = [2]
        documents = ["some text"]
        metadatas = [{"key":"value"}]
        embeddings = [[1,2,3]]            
    )
    
    # If the id does not exist update will do nothing. to add data if id does not exist use
    collection.upsert(
        ids = [2]
        documents = ["some text"]
        metadatas = [{"key":"value"}]
        embeddings = [[1,2,3]]            
    )
    
    # To delete data use delete and refrence the document or id or the feild
    collection.delete(
        documents = ["some text"]         
    )
    
    # Or you can delete from a bunch of ids using where that will apply filter on metadata
    collection.delete(
        ids=["id1", "id2", "id3",...],
        where={"chapter": "20"}
    )
    
  3. 메타데이터와 문서 콘텐츠 필터 결합:

    Select * from tablename
    
    Select * from tablename limit value
    
    Select Documents, Metadata from tablename
    

이러한 필터는 유사성 검색의 정확성을 향상시켜 ChromaDB를 대상 문서 검색을 위한 강력한 도구로 만듭니다.

결론

나만의 프로그램을 만들려고 할 때 문서가 욕심이 많이 남는다고 느껴서 이 글을 썼습니다. 도움이 되었으면 좋겠습니다!

글을 읽어주셔서 감사합니다. 좋아요와 공유 부탁드립니다. 또한 귀하가 소프트웨어 아키텍처를 처음 접하고 더 많은 것을 알고 싶다면 저는 개인적으로 귀하와 함께 일할 그룹 기반 코호트를 시작하고 소그룹을 통해 소프트웨어 아키텍처 및 디자인 원칙에 대한 모든 것을 가르칠 것입니다. 관심이 있으시면 아래 양식을 작성해 주세요. https://forms.gle/SUAxrzRyvbnV8uCGA

위 내용은 SQL 마인드를 위한 ChromaDB의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법Mar 05, 2025 am 09:58 AM

이 튜토리얼은 Python을 사용하여 Zipf의 법칙의 통계 개념을 처리하는 방법을 보여주고 법을 처리 할 때 Python의 읽기 및 대형 텍스트 파일을 정렬하는 효율성을 보여줍니다. ZIPF 분포라는 용어가 무엇을 의미하는지 궁금 할 것입니다. 이 용어를 이해하려면 먼저 Zipf의 법칙을 정의해야합니다. 걱정하지 마세요. 지침을 단순화하려고 노력할 것입니다. Zipf의 법칙 Zipf의 법칙은 단순히 : 큰 자연어 코퍼스에서 가장 자주 발생하는 단어는 두 번째 빈번한 단어, 세 번째 빈번한 단어보다 세 번, 네 번째 빈번한 단어 등 4 배나 자주 발생합니다. 예를 살펴 보겠습니다. 미국 영어로 브라운 코퍼스를 보면 가장 빈번한 단어는 "TH입니다.

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?Mar 10, 2025 pm 06:54 PM

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Mar 10, 2025 pm 06:52 PM

이 기사는 딥 러닝을 위해 텐서 플로와 Pytorch를 비교합니다. 데이터 준비, 모델 구축, 교육, 평가 및 배포와 관련된 단계에 대해 자세히 설명합니다. 프레임 워크, 특히 계산 포도와 관련하여 주요 차이점

파이썬 객체의 직렬화 및 사제화 : 1 부파이썬 객체의 직렬화 및 사제화 : 1 부Mar 08, 2025 am 09:39 AM

파이썬 객체의 직렬화 및 사막화는 사소한 프로그램의 주요 측면입니다. 무언가를 Python 파일에 저장하면 구성 파일을 읽거나 HTTP 요청에 응답하는 경우 객체 직렬화 및 사태화를 수행합니다. 어떤 의미에서, 직렬화와 사제화는 세계에서 가장 지루한 것들입니다. 이 모든 형식과 프로토콜에 대해 누가 걱정합니까? 일부 파이썬 객체를 지속하거나 스트리밍하여 나중에 완전히 검색하려고합니다. 이것은 세상을 개념적 차원에서 볼 수있는 좋은 방법입니다. 그러나 실제 수준에서 선택한 직렬화 체계, 형식 또는 프로토콜은 속도, 보안, 유지 보수 상태 및 프로그램의 기타 측면을 결정할 수 있습니다.

파이썬의 수학 모듈 : 통계파이썬의 수학 모듈 : 통계Mar 09, 2025 am 11:40 AM

Python의 통계 모듈은 강력한 데이터 통계 분석 기능을 제공하여 생물 통계 및 비즈니스 분석과 같은 데이터의 전반적인 특성을 빠르게 이해할 수 있도록 도와줍니다. 데이터 포인트를 하나씩 보는 대신 평균 또는 분산과 같은 통계를보고 무시할 수있는 원래 데이터에서 트렌드와 기능을 발견하고 대형 데이터 세트를보다 쉽고 효과적으로 비교하십시오. 이 튜토리얼은 평균을 계산하고 데이터 세트의 분산 정도를 측정하는 방법을 설명합니다. 달리 명시되지 않는 한,이 모듈의 모든 함수는 단순히 평균을 합산하는 대신 평균 () 함수의 계산을 지원합니다. 부동 소수점 번호도 사용할 수 있습니다. 무작위로 가져옵니다 수입 통계 Fracti에서

파이썬으로 전문 오류 처리파이썬으로 전문 오류 처리Mar 04, 2025 am 10:58 AM

이 튜토리얼에서는 전체 시스템 관점에서 Python의 오류 조건을 처리하는 방법을 배웁니다. 오류 처리는 설계의 중요한 측면이며 최종 사용자까지 가장 낮은 수준 (때로는 하드웨어)에서 교차합니다. y라면

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까?인기있는 파이썬 라이브러리와 그 용도는 무엇입니까?Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

아름다운 수프로 파이썬에서 웹 페이지를 긁어 내기 : 검색 및 DOM 수정아름다운 수프로 파이썬에서 웹 페이지를 긁어 내기 : 검색 및 DOM 수정Mar 08, 2025 am 10:36 AM

이 튜토리얼은 간단한 나무 탐색을 넘어서 DOM 조작에 중점을 둔 아름다운 수프에 대한 이전 소개를 바탕으로합니다. HTML 구조를 수정하기위한 효율적인 검색 방법과 기술을 탐색하겠습니다. 일반적인 DOM 검색 방법 중 하나는 EX입니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전