首页  >  文章  >  科技周边  >  千亿级超大规模向量数据库正加速AI进化

千亿级超大规模向量数据库正加速AI进化

WBOY
WBOY转载
2023-11-24 20:46:571474浏览

在大型模型展开“诸神之战”时,出现了一个致命的问题,让那些尝试的用户无法忍受。很多大型模型都存在一个普遍的问题,即“一本正经地胡说八道”,这就是我们常说的“AI幻觉”。那么,如何让大型模型变得更准确、更聪明,而不是胡言乱语呢?除了模型框架、数据和算法之外,还有一个关键的应用,那就是向量数据库!

千亿级超大规模向量数据库正加速AI进化

数据中枢背后

关于向量数据库与大模型的关系以及其重要性,有多种不同的解读。一个比较形象的说法是,如果将大模型比喻为一个容易遗忘的大脑,那么向量数据库就相当于其中的“海马体”,主要负责存储和定向记忆等功能。从解剖学的角度来看,如果将一个人的海马区切除,该人将失去长时记忆的能力,并无法感知声音、光线、味觉等信息

说白了,大模型之所以有幻觉,根本原因是大模型的向量数据库不够强大,导致大模型只能从既定的数据中查找答案,推理的结果常常泛泛而谈,或者胡诌,极度影响体验。所以,大模型聪明与否,要看向量数据库是否给力,这也是腾讯云为什么发力向量数据库,构建AGI“数据中枢”的根本原因。

有人可能会想:我在数据中台层面提升数据调度能力,传统关系型数据库也可以支持呀?但现实情况是,企业在搭建和使用大模型时,首先需要把海量数据安全、高效地接入大模型,在诸多复杂数据中,适合关系型数据库的结构化数据仅有20%,其余80%都是文本、图像、视频、音频等非结构化的数据。而向量数据库可以把复杂的非结构化数据处理成多维逻辑的坐标值,与大模型进行连接,数据处理的效率要比传统数据库提升10倍。

同时,向量数据库也可以作为外部知识库给大模型输送最新、最准确、最全面的信息,高效应对实时问答,并且让大模型拥有长期记忆,避免聊天时的断片。如此一来,向量数据库与大模型是最 佳搭档的说法,就比较容易理解了。

专业向量数据库VS传统数据库向量插件

事实上,把向量数据库作为大模型背后的主要赛道,领先企业已经走在创新征程中了。初步统计,致力于向量数据库的厂商已经有50多家。而从具体的技术路线来看,主要分两大类:一类是专业的向量原生数据库,从诞生开始就为向量设计,可以做向量数据结构的存储、解锁、查询;另一类是传统数据库上加了一个向量插件,使其能够支持向量的检索。

对比分析,两种方式各有应用场景,比如:企业刚开始时候,数据量不大,不想引入新数据库,那就可以选择传统数据库+向量插件的方式。但如果企业数据量较大,想构建更聪明的大模型,对性能和未来发展有更高要求,那选择像腾讯云这样专业的向量数据库产品,显然会更适合。

在向量数据库的应用角度来看,还存在着更多的潜力。目前,许多企业正在使用向量数据库来解决大型模型的虚幻感以及知识增强等方面的弱点。然而,未来的发展不仅局限于这些能力,还可以在图像查询方面有更出色的表现。例如,可以对手机中的照片进行查询,类似于图像搜索引擎,这实际上也是一种向量查询

专业向量数据库并不能取代传统数据库,尤其是在大型场景下。传统关系型数据库和向量数据库可以相互协同发展、相互补充。向量数据库通过向量化数据来满足传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域的需求。向量数据库只支持新的数据类型,并不存储原始数据,而传统数据库支持数值、字符串、时间等传统数据类型。传统数据库支持的数据规模相对较小,最多只能支撑1亿条数据,而向量数据库可以支撑大规模的数据,底线是千亿条数据。传统数据库的查询方式为精确查找,要么符合条件,要么不符合;而向量数据库则是近似查找,查询结构和输入条件要尽可能相似,对计算能力要求也更高。上层应用程序可以使用统一的API方式,更适合于大规模人工智能应用程序的部署和使用

智能进化

大模型并不是从零开始,向量数据库也不是。那么,向量数据库到底是怎么发展起来的?腾讯云数据库团队曾经有过深刻的思考!

腾讯云数据库副总经理罗云认为,大模型的本质不应该是一个无限大的存储体,而是一个带有智算能力的平台,将之前只有编程语言才能触达的底层计算能力,用自然语言去调度,这应该是一个令人兴奋的奇点。兴奋之余再次冷静思考,人类在完成数字化改造过程中,除了计算平台,还有其他的可能性吗?到底什么才是AGI时代的技术内核?总结发现,底层数据的智能化流通才是撬动数据中枢的金钥匙!

如今,当企业有了通用的智能计算能力后,底层的数据可以快速流动起来,我们可以把文件存在文件系统,我们可以调用关系型数据库里面的表格数据、非关系型里面的KV数据,所有数据都可以通过智能化的方式流通和联动。但要想让数据和人类对话,光有计算平台还不够,还要有一个智能数据平台,可以用自然语言把数据取出来,然后交给大模型去计算,而要达成这样的目的,向量数据库就成为一个重要的枢纽。

既然向量数据库如此重要,我们应该如何通过智能化升级,在传统数据库经验基础上与数据平台对话呢?这正是腾讯云数据库的特长!在腾讯云向量数据库技术峰会上,腾讯云宣布与第三方机构合作完成了一项测试,证明腾讯云向量数据库可以支持千亿级别规模的数据,并且显著提高了每秒查询率,达到了500万的峰值能力

目前,腾讯云向量数据库已经有大量用户,包括百川智能、好未来、销售易等公司。最近,他们和百川一起做了个 AGI 启航计划,赠送向量数据库实例及 Baichuan2 大模型 400 万的 Tokens。

通过Embedding、向量索引、分布式系统架构、硬件加速等核心技术,腾讯云向量数据库可以有效解决文本、图像、视频,包括生物制药、风控、音频、多模态等广阔场景的特定问题。比如:利用Embedding技术将高维度的数据(例如文字、 图片、 音频)映射到低维度空间 ,即把图片、声音和文字转化为向量来表示,将这些向量存储起来就构成向量数据库,实现Embedding过程的方法包括神经网络、 LSH(局部敏感哈希算法)等。

腾讯从2019年开始致力于提升向量数据库的能力,引领企业业务迈向AGI时代。至今,腾讯云已经为40多家内部客户提供服务,每天支持的向量数据检索次数超过了1600亿次。同时,腾讯云还为1000家外部客户提供服务,增长速度可谓惊人

放眼未来,AGI正在加速进化,这中间有惊喜,也有挑战。腾讯云数据库将一如既往,不断探索,引领创新。“Road to AGI,Together on the Path”——这句话完美地概括了腾讯云技术团队的当前状态!

以上是千亿级超大规模向量数据库正加速AI进化的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文转载于:sohu.com。如有侵权,请联系admin@php.cn删除