SQL 마인드를 위한 ChromaDB-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

SQL 마인드를 위한 ChromaDB

Linda Hamilton

Dec 10, 2024 am 01:02 AM

ChromaDB for the SQL Mind

안녕하세요. Chroma DB는 GenAI 애플리케이션 작업에 유용한 벡터 데이터베이스입니다. 이 기사에서는 MySQL의 유사한 관계를 살펴봄으로써 Chroma DB에서 쿼리를 실행할 수 있는 방법을 살펴보겠습니다.

개요

SQL과 달리 자체 스키마를 정의할 수 없습니다. Chroma에서는 각각 고유한 목적을 가진 고정된 열이 제공됩니다.

import chromadb

#setiing up the client
client = chromadb.Client() 
collection = client.create_collection(name="name")

collection.add(
    documents = ["str1","str2","str3",...]
    ids = [1,2,3,....]
    metadatas=[{"chapter": "3", "verse": "16"},{"chapter":"3", "verse":"5"}, ..]           
    embeddings = [[1,2,3], [3,4,5], [5,6,7]]
)

ID: 고유한 ID입니다. SQL과 달리 자동 증가가 없으므로 직접 제공해야 합니다.
문서: 임베딩을 생성하는 데 사용되는 텍스트 데이터를 삽입하는 데 사용됩니다. 텍스트를 제공하면 자동으로 임베딩이 생성됩니다. 또는 임베딩을 직접 제공하고 다른 곳에 텍스트를 저장할 수도 있습니다.
임베딩: 내 생각에는 유사성 검색을 수행하는 데 사용되는 임베딩이 데이터베이스에서 가장 중요한 부분입니다.
메타데이터: 추가 컨텍스트를 위해 데이터베이스에 추가할 수 있는 추가 데이터를 연결하는 데 사용됩니다.

이제 컬렉션의 기본 사항이 명확해졌으므로 CRUD 작업으로 넘어가서 데이터베이스를 쿼리하는 방법을 살펴보겠습니다.

CRUD 작업

참고: 컬렉션은 Chroma의 테이블과 같습니다

컬렉션을 생성하려면 create_collection()을 사용하고 필요에 따라 작업을 수행할 수 있지만 컬렉션이 이미 만들어져서 이를 다시 참조해야 하는 경우 get_collection()을 사용해야 합니다. 그렇지 않으면 오류가 발생합니다.

Create Table tablename

#Create a collection
collection = client.create_collection(name="name")

#If a collection is already made and you need to use it again the use
collection = client.get_collection(name="name")

Insert into tablename
Values(... , ..., ...)

collection.add(
    ids = [1]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]
)

삽입된 데이터를 업데이트하거나 데이터를 삭제하려면 다음 명령을 사용할 수 있습니다

collection.update(
    ids = [2]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]            
)

# If the id does not exist update will do nothing. to add data if id does not exist use
collection.upsert(
    ids = [2]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]            
)

# To delete data use delete and refrence the document or id or the feild
collection.delete(
    documents = ["some text"]         
)

# Or you can delete from a bunch of ids using where that will apply filter on metadata
collection.delete(
    ids=["id1", "id2", "id3",...],
    where={"chapter": "20"}
)

쿼리

이제 특정 검색어가 어떻게 나타나는지 살펴보겠습니다

Select * from tablename

Select * from tablename limit value

Select Documents, Metadata from tablename

collection.get()

collection.get(limit = val)

collection.get(include = ["documents","metadata"])

더 고급 쿼리를 위해 대규모 테이블 세트를 가져오는 데 get()이 있지만 쿼리 방법을 사용해야 합니다

Select A,B from table
limit val

collection.query(
    n_results = val #limit
    includes = [A,B] 
)

이제 데이터를 필터링하는 세 가지 가능한 방법이 있습니다: 유사성 검색(주로 사용되는 벡터 데이터베이스), 메타데이터 필터 및 문서 필터

유사성 검색

텍스트나 임베딩을 기반으로 검색하여 가장 유사한 결과를 얻을 수 있습니다

collection.query(query_texts=["string"])

collection.query(query_embeddings=[[1,2,3]])

ChromaDB에서는 쿼리 중 결과를 필터링하는 데 where 및 where_document 매개변수가 사용됩니다. 이 필터를 사용하면 메타데이터 또는 특정 문서 콘텐츠를 기반으로 유사성 검색을 세분화할 수 있습니다.

메타데이터로 필터링

where 매개변수를 사용하면 관련 메타데이터를 기준으로 문서를 필터링할 수 있습니다. 메타데이터는 일반적으로 문서 삽입 중에 제공하는 키-값 쌍의 사전입니다.

카테고리, 작성자, 날짜 등의 메타데이터를 기준으로 문서를 필터링하세요.

import chromadb

#setiing up the client
client = chromadb.Client() 
collection = client.create_collection(name="name")

collection.add(
    documents = ["str1","str2","str3",...]
    ids = [1,2,3,....]
    metadatas=[{"chapter": "3", "verse": "16"},{"chapter":"3", "verse":"5"}, ..]           
    embeddings = [[1,2,3], [3,4,5], [5,6,7]]
)

Create Table tablename

문서 내용으로 필터링

where_document 매개변수를 사용하면 문서 내용을 기준으로 직접 필터링할 수 있습니다.

특정 키워드가 포함된 문서만 검색합니다.

#Create a collection
collection = client.create_collection(name="name")

#If a collection is already made and you need to use it again the use
collection = client.get_collection(name="name")

주요 사항:

$contains, $startsWith 또는 $endsWith와 같은 연산자를 사용하세요.
- $contains: 하위 문자열이 포함된 문서를 일치시킵니다.
- $startsWith: 하위 문자열로 시작하는 문서를 일치시킵니다.
- $endsWith: 하위 문자열로 끝나는 문서를 일치시킵니다.

예:

Insert into tablename
Values(... , ..., ...)

일반적인 사용 사례:

다음과 같이 세 가지 필터를 모두 결합할 수 있습니다.

특정 카테고리 내에서 검색:

collection.add(
    ids = [1]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]
)

특정 용어가 포함된 문서 검색:

collection.update(
    ids = [2]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]            
)

# If the id does not exist update will do nothing. to add data if id does not exist use
collection.upsert(
    ids = [2]
    documents = ["some text"]
    metadatas = [{"key":"value"}]
    embeddings = [[1,2,3]]            
)

# To delete data use delete and refrence the document or id or the feild
collection.delete(
    documents = ["some text"]         
)

# Or you can delete from a bunch of ids using where that will apply filter on metadata
collection.delete(
    ids=["id1", "id2", "id3",...],
    where={"chapter": "20"}
)

메타데이터와 문서 콘텐츠 필터 결합:

Select * from tablename

Select * from tablename limit value

Select Documents, Metadata from tablename

이러한 필터는 유사성 검색의 정확성을 향상시켜 ChromaDB를 대상 문서 검색을 위한 강력한 도구로 만듭니다.

결론

나만의 프로그램을 만들려고 할 때 문서가 욕심이 많이 남는다고 느껴서 이 글을 썼습니다. 도움이 되었으면 좋겠습니다!

글을 읽어주셔서 감사합니다. 좋아요와 공유 부탁드립니다. 또한 귀하가 소프트웨어 아키텍처를 처음 접하고 더 많은 것을 알고 싶다면 저는 개인적으로 귀하와 함께 일할 그룹 기반 코호트를 시작하고 소그룹을 통해 소프트웨어 아키텍처 및 디자인 원칙에 대한 모든 것을 가르칠 것입니다. 관심이 있으시면 아래 양식을 작성해 주세요. https://forms.gle/SUAxrzRyvbnV8uCGA

위 내용은 SQL 마인드를 위한 ChromaDB의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법Mar 05, 2025 am 09:58 AM

이 튜토리얼은 Python을 사용하여 Zipf의 법칙의 통계 개념을 처리하는 방법을 보여주고 법을 처리 할 때 Python의 읽기 및 대형 텍스트 파일을 정렬하는 효율성을 보여줍니다. ZIPF 분포라는 용어가 무엇을 의미하는지 궁금 할 것입니다. 이 용어를 이해하려면 먼저 Zipf의 법칙을 정의해야합니다. 걱정하지 마세요. 지침을 단순화하려고 노력할 것입니다. Zipf의 법칙 Zipf의 법칙은 단순히 : 큰 자연어 코퍼스에서 가장 자주 발생하는 단어는 두 번째 빈번한 단어, 세 번째 빈번한 단어보다 세 번, 네 번째 빈번한 단어 등 4 배나 자주 발생합니다. 예를 살펴 보겠습니다. 미국 영어로 브라운 코퍼스를 보면 가장 빈번한 단어는 "TH입니다.

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?Mar 10, 2025 pm 06:54 PM

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Mar 10, 2025 pm 06:52 PM

이 기사는 딥 러닝을 위해 텐서 플로와 Pytorch를 비교합니다. 데이터 준비, 모델 구축, 교육, 평가 및 배포와 관련된 단계에 대해 자세히 설명합니다. 프레임 워크, 특히 계산 포도와 관련하여 주요 차이점

파이썬 객체의 직렬화 및 사제화 : 1 부Mar 08, 2025 am 09:39 AM

파이썬 객체의 직렬화 및 사막화는 사소한 프로그램의 주요 측면입니다. 무언가를 Python 파일에 저장하면 구성 파일을 읽거나 HTTP 요청에 응답하는 경우 객체 직렬화 및 사태화를 수행합니다. 어떤 의미에서, 직렬화와 사제화는 세계에서 가장 지루한 것들입니다. 이 모든 형식과 프로토콜에 대해 누가 걱정합니까? 일부 파이썬 객체를 지속하거나 스트리밍하여 나중에 완전히 검색하려고합니다. 이것은 세상을 개념적 차원에서 볼 수있는 좋은 방법입니다. 그러나 실제 수준에서 선택한 직렬화 체계, 형식 또는 프로토콜은 속도, 보안, 유지 보수 상태 및 프로그램의 기타 측면을 결정할 수 있습니다.

파이썬의 수학 모듈 : 통계Mar 09, 2025 am 11:40 AM

Python의 통계 모듈은 강력한 데이터 통계 분석 기능을 제공하여 생물 통계 및 비즈니스 분석과 같은 데이터의 전반적인 특성을 빠르게 이해할 수 있도록 도와줍니다. 데이터 포인트를 하나씩 보는 대신 평균 또는 분산과 같은 통계를보고 무시할 수있는 원래 데이터에서 트렌드와 기능을 발견하고 대형 데이터 세트를보다 쉽고 효과적으로 비교하십시오. 이 튜토리얼은 평균을 계산하고 데이터 세트의 분산 정도를 측정하는 방법을 설명합니다. 달리 명시되지 않는 한,이 모듈의 모든 함수는 단순히 평균을 합산하는 대신 평균 () 함수의 계산을 지원합니다. 부동 소수점 번호도 사용할 수 있습니다. 무작위로 가져옵니다 수입 통계 Fracti에서

파이썬으로 전문 오류 처리Mar 04, 2025 am 10:58 AM

이 튜토리얼에서는 전체 시스템 관점에서 Python의 오류 조건을 처리하는 방법을 배웁니다. 오류 처리는 설계의 중요한 측면이며 최종 사용자까지 가장 낮은 수준 (때로는 하드웨어)에서 교차합니다. y라면

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.