>기술 주변기기 >일체 포함 >수천억 개의 초대형 벡터 데이터베이스가 AI 진화를 가속화하고 있다

수천억 개의 초대형 벡터 데이터베이스가 AI 진화를 가속화하고 있다

WBOY
WBOY앞으로
2023-11-24 20:46:571505검색

'신들의 전쟁'이 대형 모델에서 시작되자 이를 시도한 유저들을 견딜 수 없게 만드는 치명적인 문제가 발생했다. 많은 대규모 모델에는 공통적으로 "말도 안 되는 소리를 하는 것"이라는 문제가 있습니다. 이것은 우리가 흔히 "AI 환상"이라고 부르는 것입니다. 그렇다면 대형 모델을 더 정확하고 스마트하며 횡설수설을 줄이려면 어떻게 해야 할까요? 모델 프레임워크, 데이터 및 알고리즘 외에도 주요 애플리케이션이 있는데 바로 벡터 데이터베이스입니다!

수천억 개의 초대형 벡터 데이터베이스가 AI 진화를 가속화하고 있다

데이터센터 뒤

벡터 데이터베이스와 대형 모델의 관계와 그 중요성에 대해 다양한 해석이 있습니다. 좀 더 생생한 표현으로 말하면, 대형 모델을 잊어버리기 쉬운 뇌에 비유한다면 벡터 데이터베이스는 그 안에 있는 '해마'에 해당하며 주로 저장 및 방향 기억과 같은 기능을 담당한다는 것입니다. . 해부학적인 관점에서 사람의 해마를 제거하면 장기 기억 능력이 상실되고 소리, 빛, 맛 등의 정보를 인지할 수 없게 됩니다.

직설적으로 말하면 대형 모델이 환각을 느끼는 근본적인 이유는 대형 모델의 벡터 데이터베이스가 충분히 강력하지 않기 때문입니다. 결과적으로 대형 모델은 추론 결과가 일반화되거나 말도 안되는 경우가 많습니다. , 이는 경험에 큰 영향을 미칩니다. 따라서 대형 모델이 스마트한지 아닌지는 벡터 데이터베이스가 강력한지 여부에 달려 있습니다. 이는 Tencent Cloud가 AGI "데이터 센터"를 구축하기 위해 벡터 데이터베이스에 중점을 두는 근본적인 이유이기도 합니다.

어떤 사람들은 이렇게 생각할 수도 있습니다. 데이터 센터 수준에서 데이터 예약 기능을 개선하면 기존 관계형 데이터베이스도 이를 지원할 수 있나요? 그러나 현실은 기업이 대규모 모델을 구축하고 사용할 때 먼저 대규모 데이터를 대규모 모델에 안전하고 효율적으로 연결해야 한다는 것입니다. 수많은 복잡한 데이터 중 단 20%만이 관계형 데이터베이스에 적합하고 나머지 80%는 구조화된 데이터입니다. .텍스트, 이미지, 비디오, 오디오 등 모두 구조화되지 않은 데이터입니다. 벡터 데이터베이스는 복잡한 비정형 데이터를 다차원 논리적 좌표값으로 처리하고 이를 대형 모델에 연결할 수 있어 데이터 처리 효율성이 기존 데이터베이스보다 10배 높습니다.

동시에 벡터 데이터베이스를 외부 지식 베이스로 활용하여 최신의 가장 정확하고 포괄적인 정보를 대형 모델에 전달하고, 실시간 Q&A에 효율적으로 대응하며, 대형 모델이 장기적으로 채팅 중 조각화를 방지하기 위한 메모리입니다. 이런 식으로 벡터 데이터베이스와 대형 모델이 최고의 파트너라는 것을 이해하기가 더 쉽습니다.

전문 벡터 데이터베이스 VS 기존 데이터베이스 벡터 플러그인

실제로 선도적인 기업들은 벡터 데이터베이스를 대형 모델의 주요 경로로 삼아 이미 혁신의 여정을 시작하고 있습니다. 예비 통계에 따르면 이미 50개 이상의 제조업체가 벡터 데이터베이스를 작업하고 있습니다. 특정 기술 경로에서 주로 두 가지 범주로 나뉩니다. 하나는 탄생 이후 벡터용으로 설계되었으며 벡터 데이터 구조를 저장, 잠금 해제 및 쿼리할 수 있는 전문적인 벡터 기반 데이터베이스입니다. 벡터 검색을 활성화하기 위해 벡터 플러그인이 추가되었습니다.

비교 분석에 따르면 두 가지 방법 모두 고유한 적용 시나리오가 있습니다. 예를 들어 회사가 막 시작했을 때 데이터의 양이 크지 않고 새 데이터베이스를 도입하고 싶지 않은 경우 기존 데이터베이스 + 벡터를 선택할 수 있습니다. 플러그인 방식. 그러나 기업이 많은 양의 데이터를 보유하고 있고 더 스마트한 대규모 모델을 구축하기를 원하며 성능 및 향후 개발에 대한 요구 사항이 더 높다면 Tencent Cloud와 같은 전문 벡터 데이터베이스 제품을 선택하는 것이 분명히 더 적합할 것입니다.

벡터 데이터베이스의 응용 관점에서는 여전히 더 많은 잠재력이 있습니다. 현재 많은 기업에서는 대형 모델의 착각, 지식 강화 등의 약점을 해결하기 위해 벡터 데이터베이스를 활용하고 있습니다. 그러나 향후 개발은 이러한 기능에 국한되지 않고 이미지 쿼리에서도 더 나은 성능을 달성할 수 있습니다. 예를 들어 이미지 검색 엔진과 유사하게 휴대폰에서 사진을 쿼리할 수 있는데 이는 실제로 벡터 쿼리입니다

전문 벡터 데이터베이스는 특히 대규모 시나리오에서 기존 데이터베이스를 대체할 수 없습니다. 전통적인 관계형 데이터베이스와 벡터 데이터베이스는 공동으로 개발하고 서로를 보완할 수 있습니다. 벡터 데이터베이스는 벡터화된 데이터를 사용하여 대규모 데이터, 짧은 대기 시간의 높은 동시 검색, 퍼지 일치 및 기존 관계형 데이터베이스로 처리하기 어려운 기타 필드의 요구 사항을 충족합니다. 벡터 데이터베이스는 새로운 데이터 유형만 지원하고 원본 데이터를 저장하지 않는 반면, 기존 데이터베이스는 숫자 값, 문자열, 시간과 같은 기존 데이터 유형을 지원합니다. 기존 데이터베이스가 지원하는 데이터 규모는 상대적으로 작아서 최대 1억 개의 데이터만 지원할 수 있는 반면, 벡터 데이터베이스는 대규모 데이터를 지원할 수 있으며 최종 결과는 1,000억 개의 데이터입니다. 기존 데이터베이스의 쿼리 방법은 조건을 충족하거나 조건을 충족하지 않는 정밀 검색인 반면, 벡터 데이터베이스는 쿼리 구조와 입력 조건이 최대한 유사해야 하며 컴퓨팅 성능에 대한 요구 사항은 다음과 같습니다. 또한 더 높습니다. 상위 계층 애플리케이션은 대규모 인공 지능 애플리케이션의 배포 및 사용에 더 적합한 통합 API 접근 방식을 사용할 수 있습니다

지능 진화

대형 모델은 처음부터 시작되지 않으며 벡터 데이터베이스도 마찬가지입니다. 그렇다면 벡터 데이터베이스는 어떻게 발전하게 되었나요? Tencent Cloud 데이터베이스 팀은 한때 깊이 생각했습니다!

Tencent Cloud Database의 부사장 Luo Yun은 대형 모델의 본질은 무한히 큰 저장 공간이 아니라 이전에는 프로그래밍 언어를 통해서만 접근할 수 있었던 기본 컴퓨팅 기능을 사용하는 지능형 컴퓨팅 기능을 갖춘 플랫폼이어야 한다고 믿습니다. . 자연어 스케줄링은 흥미로운 특이점이 될 것입니다. 인류가 디지털 변혁을 완성하는 과정에서 컴퓨팅 플랫폼 외에 다른 가능성은 없을까? AGI 시대의 기술적 핵심은 정확히 무엇인가? 요약하면, 기본 데이터의 지능적인 순환이 데이터 센터 활용의 황금 열쇠라는 것을 알 수 있습니다!

요즘 기업이 일반적인 지능형 컴퓨팅 기능을 갖추고 있으면 기본 데이터가 빠르게 흐를 수 있습니다. 파일 시스템에 파일을 저장할 수 있고, 관계형 데이터베이스의 테이블 데이터, 비관계형 데이터베이스의 KV 데이터 등을 호출할 수 있습니다. 지능적인 방식으로 순환되고 연결됩니다. 그러나 데이터가 인간과 대화하려면 컴퓨팅 플랫폼만으로는 충분하지 않으며, 자연어를 사용하여 데이터를 추출한 다음 계산을 위해 대규모 모델에 전달할 수 있는 지능형 데이터 플랫폼도 필요합니다. 이 목표는 벡터 데이터베이스의 중요한 허브가 됩니다.

벡터 데이터베이스가 이렇게 중요한데, 기존 데이터베이스 경험을 기반으로 한 데이터 플랫폼과 지능형 업그레이드를 통해 어떻게 대화해야 할까요? 이것이 바로 Tencent Cloud Database의 특징입니다! Tencent Cloud 벡터 데이터베이스 기술 서밋에서 Tencent Cloud는 제3자 조직과 협력하여 테스트를 완료했다고 발표했습니다. 이를 통해 Tencent Cloud 벡터 데이터베이스가 수천억 개의 데이터를 지원할 수 있고 초당 쿼리 속도를 크게 향상시켜 도달할 수 있음을 입증했습니다. 최대 용량

현재 Tencent Cloud 벡터 데이터베이스에는 Baichuan Intelligence, TAL, SalesEasy 등의 회사를 포함하여 이미 많은 사용자가 있습니다. 최근 그들은 Baichuan과 함께 AGI 출시 계획을 세웠으며 400만 개의 벡터 데이터베이스 인스턴스 토큰과 Baichuan2 대형 모델을 제공했습니다.

임베딩, 벡터 인덱싱, 분산 시스템 아키텍처 및 하드웨어 가속과 같은 핵심 기술을 통해 Tencent Cloud 벡터 데이터베이스는 바이오의약품, 위험 제어, 오디오, 다중 모드 및 기타 광범위한 시나리오를 포함한 텍스트, 이미지, 비디오의 특정 문제를 효과적으로 해결할 수 있습니다. . 예: 임베딩 기술을 사용하여 고차원 데이터(예: 텍스트, 그림, 오디오)를 저차원 공간에 매핑합니다. 즉, 그림, 사운드 및 텍스트를 벡터로 변환하여 이를 표현하고 이러한 벡터를 저장하여 벡터를 형성합니다. Embedding 프로세스를 구현하기 위한 데이터베이스 방법으로는 신경망, LSH(Locality Sensitive Hashing Algorithm) 등이 있습니다.

Tencent는 2019년부터 벡터 데이터베이스의 기능을 향상시키기 위해 노력해 왔으며 기업 비즈니스를 AGI 시대로 선도하고 있습니다. 현재까지 Tencent Cloud는 40개 이상의 내부 고객에게 서비스를 제공했으며 매일 1,600억 개가 넘는 벡터 데이터 검색을 지원했습니다. 동시에 Tencent Cloud는 1,000명의 외부 고객에게도 서비스를 제공하고 있으며 성장률은 놀랍습니다

미래를 바라보며 AGI는 놀라움과 도전을 가져오는 진화를 가속화하고 있습니다. Tencent Cloud Database는 앞으로도 변함없이 혁신을 탐구하고 선도할 것입니다. "AGI로 가는 길, 함께 가는 길" - 이 문장은 Tencent Cloud 기술팀의 현재 상태를 완벽하게 요약합니다!

위 내용은 수천억 개의 초대형 벡터 데이터베이스가 AI 진화를 가속화하고 있다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 sohu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제