대형 모델과 AI 데이터베이스의 결합은 대형 모델의 비용을 절감하고 효율성을 높이며 빅데이터를 진정한 지능화하는 마법의 무기가 되었습니다.
LLM(대형 모델)의 물결이 1년 넘게 급증하고 있으며, 특히 GPT-4, Gemini-1.5, Claude-3 등 아울렛으로 대표되는 모델이 그렇습니다. LLM 트랙에서 일부 연구는 모델 매개변수 증가에 중점을 두고 있으며 일부는 다중 양식에 열중하고 있습니다. 그중에서도 LLM의 컨텍스트 길이 처리 능력은 모델을 평가하는 데 중요한 지표가 되었습니다. 더 강력한 검색 성능. 예를 들어, 한 번에 최대 100만 개의 토큰을 처리할 수 있는 일부 모델의 기능으로 인해 많은 연구자들은 RAG(Retrieval-Augmented Generation) 방법이 여전히 필요한지에 대해 생각하게 되었습니다. 어떤 사람들은 RAG가 장기 컨텍스트 모델로 인해 사라질 것이라고 생각하지만, 이 견해는 많은 연구자와 건축가에 의해 반박되었습니다. 그들은 한편으로는 데이터 구조가 복잡하고 정기적으로 변경되며 많은 데이터가 중요한 시간 차원을 가지고 있어 LLM에 비해 너무 복잡할 수 있다고 믿습니다. 반면, 기업과 산업의 방대한 이기종 데이터를 모두 컨텍스트 창에 넣는 것은 비현실적입니다. 대형 모델과 AI 데이터베이스의 결합은 전문적이고 정확한 실시간 정보를 생성 AI 시스템에 주입하여 환상을 크게 줄이고 시스템의 실용성을 향상시킵니다. 동시에 데이터 중심 LLM 방법은 AI 데이터베이스의 대규모 데이터 관리 및 쿼리 기능을 활용하여 대규모 모델 교육 및 미세 조정 비용을 크게 줄이고 다양한 시나리오에서 소규모 샘플 조정을 지원할 수 있습니다. 체계. 요약하자면, 대형 모델과 AI 데이터베이스의 결합은 대형 모델의 비용을 절감하고 효율성을 높일 뿐만 아니라 빅데이터를 진정한 지능화로 만듭니다. 수년간의 개발과 반복 끝에 MyScaleDB는 마침내 오픈 소스가 되었습니다. RAG를 사용하면 LLM이 대규모 지식 기반에서 정보를 정확하게 추출하고 전문적이고 통찰력 있는 실시간 답변을 생성할 수 있습니다. 이와 함께 RAG 시스템의 핵심 기능 벡터 데이터베이스도 빠르게 발전했다. 벡터 데이터베이스의 설계 개념에 따르면 크게 전용 벡터 데이터베이스, 키워드와 벡터를 결합한 검색 시스템, SQL 벡터의 세 가지 범주로 나눌 수 있다. 데이터 베이스.
- Pinecone/Weaviate/Milvus로 대표되는 특수 벡터 데이터베이스는 처음부터 벡터 검색용으로 설계 및 구축되었으며, 벡터 검색 성능은 우수하지만 일반적인 데이터 관리 기능이 약합니다.
- Elasticsearch/OpenSearch로 대표되는 키워드 및 벡터 검색 시스템은 완전한 키워드 검색 기능으로 인해 프로덕션에서 널리 사용됩니다. 그러나 많은 시스템 리소스를 차지하고 키워드와 벡터의 공동 쿼리 정확도 및 성능이 만족스럽지 않습니다. 사람들은 행복합니다.
- pgVector(PostgreSQL용 벡터 검색 플러그인)로 대표되는 SQL 벡터 데이터베이스와 MyScale AI 데이터베이스는 SQL을 기반으로 하며 강력한 데이터 관리 기능을 갖추고 있습니다. 그러나 PostgreSQL 행 저장의 단점과 벡터 알고리즘의 한계로 인해 pgVector는 복잡한 벡터 쿼리에서 정확도가 낮습니다.
MyScaleDB(MyScaleDB)는 고성능 SQL 컬럼 스토리지 데이터베이스와 자체 개발한 고성능, 높은 데이터 밀도의 벡터 인덱스 알고리즘, SQL과 벡터의 공동 쿼리를 기반으로 검색 및 저장 엔진은 심층적인 연구, 개발 및 최적화를 거쳤으며, 종합적인 성능과 비용 효율성이 전용 벡터 데이터베이스를 훨씬 능가하는 세계 최초의 SQL 벡터 데이터베이스 제품입니다.
대량 구조화된 데이터 시나리오에서 SQL 데이터베이스를 장기적으로 개선한 덕분에 MyScaleDB는 문자열, JSON, 공간 및 여러 데이터 유형의 효율적인 저장 및 저장을 포함하여 대규모 벡터 및 구조화된 데이터
를 모두 지원합니다. RAG 시스템의 정확성을 더욱 향상시키고 Elasticsearch와 같은 시스템을 대체하기 위해 가까운 시일 내에 강력한 역테이블 및 키워드 검색 기능을 출시할 예정입니다.
약 6년간의 개발과 여러 버전의 반복 끝에 MyScaleDB는 최근 오픈 소스화되었습니다. 모든 개발자와 기업 사용자는 GitHub에 참여하여 SQL을 사용하여 프로덕션 수준 AI 애플리케이션을 구축하는 새로운 방법을 열 수 있습니다! 프로젝트 주소: https://github.com/myscale/myscaledbSQL과 완벽하게 호환되어 정확성 향상 및 비용 절감완벽한 SQL 데이터 관리 기능의 도움으로, 강력하고 효율적입니다. 구조화된 벡터 및 이기종 데이터 저장 및 쿼리 기능을 갖춘 MyScaleDB는 진정으로 대형 모델 및 빅 데이터를 지향하는 최초의 AI 데이터베이스가 될 것으로 예상됩니다. 반세기 전 SQL이 탄생한 이래 NoSQL, 빅데이터 등의 물결에도 불구하고 끊임없이 진화하는 SQL 데이터베이스가 여전히 대다수를 차지하고 있습니다. 데이터 관리 시장 점유율 1위를 차지하고 있으며 Elasticsearch, Spark 등 검색 및 빅데이터 시스템에서도 SQL 인터페이스를 잇달아 지원하고 있습니다. 전용 벡터 데이터베이스가 벡터용으로 최적화되고 시스템이 설계되었지만 쿼리 인터페이스에는 일반적으로 표준화가 부족하고 고급 쿼리 언어가 없습니다. 이로 인해 인터페이스의 일반화 기능이 약해집니다. 예를 들어 Pinecone의 쿼리 인터페이스에는 페이징 및 집계와 같은 일반적인 데이터베이스 기능은 물론 검색할 필드 지정도 포함되지 않습니다. 인터페이스의 일반화 능력이 약하다는 것은 인터페이스가 자주 변경되어 학습 비용이 증가한다는 것을 의미합니다. MyScale 팀은 체계적으로 최적화된 SQL 및 벡터 시스템이 벡터 검색에서 높은 성능을 보장하면서 완전한 SQL 지원을 유지할 수 있다고 믿고 있으며, 오픈 소스 평가 결과가 이를 충분히 입증했습니다.
실제로 복잡한 AI 응용 시나리오에서 SQL과 벡터의 조합은 데이터 모델링의 유연성을 크게 높이고 개발 프로세스를 단순화할 수 있습니다. 예를 들어, MyScale 팀과 베이징 과학 지능 연구소(Beijing Institute of Scientific Intelligence)가 협력하는 Science Navigator 프로젝트에서 MyScaleDB는 방대한 양의 과학 문헌 데이터를 검색하고 지능적인 질문 응답을 수행하는 데 사용됩니다. 벡터와 반전된 테이블 인덱스를 설정하고 기본 키와 외래 키를 사용하여 연결합니다. 실제 쿼리에서 시스템은 구조화된 벡터 및 키워드 데이터의 공동 쿼리뿐만 아니라 여러 테이블의 관련 쿼리도 포함합니다. 이러한 모델링과 상관 관계는 전용 벡터 데이터베이스에서는 달성하기 어렵기 때문에 최종 시스템의 반복 속도가 느려지고 쿼리가 비효율적이며 유지 관리가 어려워집니다.
NScience Navigator의 메인 테이블 구조 개략도(굵은 몸체의 열은 벡터 인덱스 또는 역 인덱스를 설정함) 구조화된 벡터 및 키워드와 기타 데이터 결합 쿼리를 지원합니다. 실제 RAG 시스템에서 검색의 정확성과 효과는 구현을 제한하는 주요 병목 현상입니다. 이를 위해서는 검색 정확도를 종합적으로 향상시키기 위해 구조화된 데이터, 벡터 데이터, 키워드 데이터의 공동 쿼리를 효율적으로 지원하는 AI 데이터베이스가 필요합니다.
예를 들어 금융 시나리오에서 사용자는 "2023년 특정 회사의 다양한 글로벌 비즈니스 수익은 얼마입니까?", "특정 회사", "2023년" 및 기타 구조화된 문서 라이브러리에 쿼리해야 합니다. 메타정보는 벡터가 잘 포착할 수 없으며 해당 단락에 직접 반영되지 않을 수도 있습니다. 전체 데이터베이스에 대해 직접 벡터 검색을 수행하면 많은 양의 노이즈 정보를 얻게 되며 시스템의 최종 정확도가 떨어집니다. 반면 회사명, 연도 등은 일반적으로 문서의 메타 정보로 얻을 수 있습니다. WHERE year=2023 AND company ILIKE "%%"를 벡터 쿼리의 필터 조건으로 사용할 수 있습니다. 정확한 위치 관련 정보를 얻을 수 있어 시스템의 신뢰성이 크게 향상됩니다. 금융, 제조, 과학 연구 및 기타 시나리오에서 MyScale 팀은 이기종 데이터 모델링 및 관련 쿼리의 힘을 관찰했으며 많은 시나리오에서 정확도가
60%에서 기존의 데이터베이스 제품들은 AI 시대에 점차 벡터 쿼리의 중요성을 깨닫고 데이터베이스에 벡터 기능을 추가하기 시작했지만, 여전히 공동 쿼리의 정확성에 심각한 문제가 있습니다. 예를 들어, 쿼리 필터링 시나리오에서 필터링 비율이 0.1일 때 Elasticsearch의 QPS는 약 5로 떨어지지만, 필터링할 때 PostgresSQL(pgVector 플러그인 사용)의 검색 정확도는 약 50%에 불과합니다. 비율이 0.01이므로 쿼리의 정확도/성능이 애플리케이션 시나리오를 크게 제한합니다. 그리고 MyScale은 pgVector 비용의 36%, ElasticSearch 비용의 12%만을 사용하며, 필터링 비율이 다른 다양한 시나리오에서 고성능 및 고정밀 쿼리를 달성할 수 있습니다. 场 다양한 필터링 비율에서 myscale은 낮은 비용으로 고정밀, 고성능 쿼리를 구현합니다.
실제 장면에서 성능과 비용의 균형이 중요하고 대규모 모델 애플리케이션에서 높은 관심을 받고 있습니다. 점점 더 많은 팀이 벡터 데이터베이스 트랙에 투자하고 있습니다. 모든 사람의 초기 초점은 순수 벡터 검색 시나리오에서 QPS를 개선하는 것이었지만 순수 벡터 검색만으로는 충분하지 않습니다! 실제 전투 시나리오에서는 데이터 모델링, 쿼리 유연성 및 정확성, 데이터 밀도, 쿼리 성능 및 비용의 균형이 더 중요한 문제입니다.
RAG 시나리오에서 순수 벡터 쿼리 성능은 10배 초과하고, 벡터는 막대한 리소스를 차지하며, 공동 쿼리 기능이 부족하고, 낮은 성능과 정확성은 현재 독점 벡터 데이터베이스의 표준인 경우가 많습니다. MyScaleDB는 실제 대규모 데이터 시나리오에서 AI 데이터베이스의 포괄적인 성능을 향상시키기 위해 최선을 다하고 있습니다. MyScale 벡터 데이터베이스 벤치마크는 업계 최초로 다양한 쿼리 시나리오에서 주류 벡터 데이터베이스 시스템의 포괄적인 성능과 비용 효율성을 비교합니다. 500만개 규모의 오픈소스 평가 시스템으로 누구나 관심을 갖고 문제를 제기할 수 있습니다. MyScale 팀은 실제 적용 시나리오에서 AI 데이터베이스를 최적화할 여지가 여전히 많다고 밝혔으며, 실제로 제품을 지속적으로 다듬고 평가 시스템을 개선하기를 희망합니다.
MyScale 벡터 데이터베이스 벤치마크 프로젝트 주소: https://github.com/myscale/Vector-db-benchmark아웃룩: AI 데이터베이스 지원 대형 모델 + 빅데이터 에이전트 플랫폼
머신 러닝 + 빅 데이터는 인터넷과 이전 세대 정보 시스템의 성공을 주도했습니다. 빅 모델 시대에 MyScale 팀은 차세대 빅 모델 + 빅 데이터 솔루션을 제안하는 데에도 전념하고 있습니다. 고성능 SQL + 벡터 데이터베이스를 견고한 지원으로 MyScaleDB는 대규모 데이터 처리, 지식 쿼리, 관찰 가능성, 데이터 분석 및 소규모 샘플 학습의 핵심 기능을 제공하고 AI 및 데이터 폐쇄 루프를 구축하여 next A가 됩니다. 대형 모델 생성 + 빅데이터 에이전트 플랫폼의 핵심 기반. MyScale 팀은 이미 과학 연구, 금융, 산업, 의료 및 기타 분야에서 이 솔루션의 구현을 탐색했습니다. 기술의 급속한 발전으로 앞으로 5~10년 안에 어느 정도 일반 인공지능(AGI)이 등장할 것으로 예상됩니다. 이 문제에 관해 우리는 다음과 같은 생각을 하지 않을 수 없습니다. 정적이고 가상이며 인간과 경쟁할 수 있는 대규모 모델이 필요한가요, 아니면 또 다른 보다 포괄적인 솔루션이 있습니까? 데이터는 의심할 여지없이 대형 모델, 세계 및 사용자 사이의 중요한 연결 고리입니다. MyScale 팀의 비전은 대형 모델과 빅 데이터를 유기적으로 결합하여 보다 전문적이고 실시간이며 효율적인 협업이 가능한 AI 시스템을 만드는 것입니다. 인간적인 따뜻함과 가치가 가득합니다.
위 내용은 긴 텍스트는 RAG를 죽일 수 없습니다: SQL+ 벡터는 대규모 모델과 빅 데이터의 새로운 패러다임을 구동하며 MyScale AI 데이터베이스는 공식 오픈 소스입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!