>기술 주변기기 >일체 포함 >기초부터 실습까지 Elasticsearch 벡터 검색의 개발 이력을 검토해보세요.

기초부터 실습까지 Elasticsearch 벡터 검색의 개발 이력을 검토해보세요.

王林
王林앞으로
2023-10-23 17:17:01812검색

从基础到实践,回顾Elasticsearch 向量检索发展史

1. 소개

벡터 검색은 현대 검색 및 추천 시스템의 핵심 구성 요소가 되었습니다.

복잡한 객체(예: 텍스트, 이미지, 사운드)를 수치 벡터로 변환하고 다차원 공간에서 유사성 검색을 수행하여 효율적인 쿼리 매칭 및 추천을 가능하게 합니다.

从基础到实践,回顾Elasticsearch 向量检索发展史기본부터 실습까지 Elasticsearch 벡터 검색의 개발 내역을 검토합니다._elasticsearch

Elasticsearch는 널리 사용되는 오픈 소스 검색 엔진으로, 벡터 검색 분야의 개발은 항상 많은 관심을 받아왔습니다. 본 글에서는 각 단계의 특징과 진행 상황을 중심으로 Elasticsearch 벡터 검색의 개발 역사를 검토해 보겠습니다. 기록을 가이드로 활용하면 모든 사람이 Elasticsearch 벡터 검색을 완전히 이해하는 데 도움이 됩니다.

2. 초기 시도: 간단한 벡터 검색 도입

Elasticsearch는 처음에는 벡터 검색을 위해 특별히 설계되지 않았습니다. 그러나 머신러닝과 인공지능의 등장으로 고차원 벡터공간에 대한 질의 수요가 점차 늘어나고 있다.

Elasticsearch 버전 5.x에서 Elastic 열성팬들은 플러그인과 기본 수학 연산을 통해 간단한 벡터 검색 기능을 구현하려고 시도하기 시작했습니다. 예를 들어, elasticsearch-벡터-스코어링 및 fast-elasticsearch-벡터-스코어링과 같은 일부 초기 플러그인은 이러한 요구 사항을 충족하도록 설계되었습니다.

https://www.php.cn/link/7a677bb4477ae2dd371add568dd19e23

https://www.php.cn/link/7684e5225ab986f6b32ed950eec5621d

벡터 검색은 주로 기본 유사성 쿼리에 사용됩니다. 텍스트 유사성 계산으로. 기능은 상대적으로 제한되어 있지만 후속 개발을 위한 기반을 마련합니다.

자세한 설명: 머신러닝 기능에 관해서는 Elasticsearch 버전 변경에 관심이 있으신 분들은 당시 6.X 버전이 출시되어 매우 흥미로웠던 기억이 납니다. 그러나 오픈소스가 아닌 기능으로 인해 실제 국내 시청자는 아직 상대적으로 적습니다.

3. 공식 지원: 추가 개발

Elasticsearch 버전 7.0에는density_Vector 유형 등을 통해 벡터 필드에 대한 지원이 공식적으로 추가되었습니다. 이는 Elasticsearch가 공식적으로 벡터 검색 분야에 진출했으며 더 이상 플러그인에만 의존하지 않는다는 것을 의미합니다.

dense_Vector 가장 빠른 출시 시간: 2018년 12월 13일, 버전 7.6이 GA로 표시됩니다.

https://www.php.cn/link/648f4baa45889f9c5f4f7add35862841

https://www.php.cn/link/ac10ff1941c540cd87c107330996f4f6

관련 Dense_Vector 유형의 사용, 권장 자료: 고차원 벡터 검색: Elasticsearch 8.X에서 밀도_벡터를 사용하는 실제적인 탐색입니다.

이 단계의 주요 과제는 기존의 역 인덱스 구조에서 벡터 검색을 효과적으로 지원하는 방법입니다. 기존 전체 텍스트 검색 기능과 결합하면 Elasticsearch는 유연하고 강력한 솔루션을 제공합니다.

초기 플러그인과 기본 작업부터 이후 공식 지원과 통합까지, 이 단계는 벡터 검색에 있어서 Elasticsearch의 추가적인 혁신과 최적화를 위한 탄탄한 기반을 마련했습니다.

4. 전문화된 최적화: 향상된 유사성 계산

수요가 증가함에 따라 Elasticsearch 팀은 심층적인 연구를 수행하고 벡터 검색 성능을 최적화하기 시작했습니다. 여기에는 코사인 유사성, 유클리드 거리 등과 같은 보다 복잡한 유사성 계산 방법의 도입과 쿼리 실행 최적화가 포함됩니다.

Elasticsearch 버전 7.3부터 더욱 복잡한 유사성 계산 방법이 공식 도입되었습니다. 특히 script_score 쿼리의 향상된 기능을 통해 사용자는 Painless 스크립트를 통해 더욱 풍부한 유사성 계산을 사용자 정의할 수 있습니다.

/guide/en/elasticsearch/reference/7.3/query-dsl-script-score-query.html#Vector-functions

핵심 기능은 k개의 최근접 이웃을 사용하여 벡터 간의 각도를 통해 유사성을 계산할 수 있도록 하는 것입니다( k-NN) 유사성 검색 엔진에 대한 지원을 제공합니다. 텍스트 분석 및 추천 시스템에 널리 사용됩니다.

복잡한 유사성 요구 사항을 해결하는 데 주로 사용되며 더 많은 비즈니스 요구 사항을 충족하기 위해 보다 유연하고 강력한 유사성 계산 옵션을 제공합니다.

애플리케이션 시나리오는 다음에 반영됩니다.

(1)个性化推荐:通过余弦相似度分析用户的行为和兴趣,提供更个性化的推荐内容;(2)图像识别和搜索:使用欧几里得距离快速检索与给定图像相似的图像;(3)声音分析:在声音文件之间寻找相似模式,用于语音识别和分析。

다음에 언급할 가치가 있습니다. 처음에 벡터 검색에서 지원되는 차원은 1024였지만 Elasticsearch 버전 8.8까지 지원되는 차원은 2048로 변경되었습니다(이는 매우 인기 있는 요구입니다). .

https://www.php.cn/link/1bda7493c968ded9800b3a754fc07e5c

/t/Vector-knn-search-with-more-than-1024-dimensions/332819

Elasticsearch 7.x 版本的增强相似度计算功能标志着向量检索能力的显著进展。通过引入更复杂的相似度计算方法和查询优化,Elasticsearch 不仅增强了其在传统搜索场景中的功能,还为新兴的机器学习和 AI 应用打开了新的可能性。

但,这个时候你会发现,如果要实现复杂的向量搜索功能,自己实现的还很多。如果把后面马上提到的深度学习的集成和大模型的出现比作:飞行的汽车,当前的阶段还是 “拉驴车”,功能是有的,但用起来很费劲。


从基础到实践,回顾Elasticsearch 向量检索发展史从基础到实践,回顾Elasticsearch 向量检索发展史_Elastic_02

5.深度学习集成与未来展望

大模型时代,向量检索和多模态搜索成为 “兵家” 必争之地。

多模态检索是一种综合各种数据模态(如文本、图像、音频、视频等)的检索技术。换句话说,它不仅仅是根据文字进行搜索,还可以根据图像、声音或其他模态的输入来搜索相关内容。

为了更通俗地理解多模态检索,我们可以通过以下比喻和示例来加深认识:想象你走进一个巨大的图书馆,这里不仅有书籍,还有各种图片、录音和视频。你可以向图书馆员展示一张照片,她会为你找到与这张照片相关的所有书籍、音频和视频。或者,你可以哼一段旋律,图书馆员能找到相关的资料,或者提供类似的歌曲或视频。这就是多模态检索的魔力!

随着深度学习技术的不断发展和应用,Elasticsearch 已开始探索将深度学习模型直接集成到向量检索过程中。这不仅允许更复杂、更准确的相似度计算,还开辟了新的应用领域,例如基于图像或声音的搜索。尤其在 Elasticsearch 的 8.x 版本,这一方向得到了显著的推进。

5.1 向量化是前提

如下图所示,先从左往右看是写入,图像、文档、音频转化为向量特征表示,在 Elasticsearch 中通过 dense_vector 类型存储。

从右往左看是检索,先将检索语句转化为向量特征表示,然后借助 K 近邻检索算法(在 Elasticsearch 中借助 Knn search 实现),获取相似的结果。

看中间,Results 部分就是向量检索的结果。

综上,向量检索打破了传统倒排索引仅支持文本检索的缺陷,可以扩展支持文本、语音、图像、视频多种模态。

从基础到实践,回顾Elasticsearch 向量检索发展史图片来自:Elasticsearch 官方文档


相信你到这里,应该理解了向量检索和多模态。没有向量化的这个过程,多模态检索无从谈起。

5.2 模型是核心

深度学习模型集成总共可分为三步:

第一步:模型导入和管理:Elasticsearch 8.x 支持导入预训练的深度学习模型,并提供相应的模型管理工具,方便模型的部署和更新。第二步:向量表示与转换:通过深度学习模型,可以将非结构化数据如图像和声音转换为向量表示,从而进行有效的检索。第三步:自定义相似度计算:8.x 版本提供了基于深度学习模型的自定义相似度计算接口,允许用户根据实际需求开发和部署专门的相似度计算方法。

关于深度学习,可以是自训练模型,也可以是第三方模型库中的模型,举例:咱们图搜图案例中就是用的 HuggingFace 里的:clip-ViT-B-32-multilingual-v1 模型。

从基础到实践,回顾Elasticsearch 向量检索发展史从基础到实践,回顾Elasticsearch 向量检索发展史_Elastic_04

Elasticsearch 支持的第三方模型列表:

从基础到实践,回顾Elasticsearch 向量检索发展史

包括如下的 Hugging Face 模型库也都是支持的。

从基础到实践,回顾Elasticsearch 向量检索发展史从基础到实践,回顾Elasticsearch 向量检索发展史_elasticsearch_05

模型是 Elasticsearch 与深度学习集成的核心,它能将复杂的数据转化为 “指纹” 向量,使搜索更高效和智能。借助模型,Elasticsearch 可以理解和匹配各种非结构化数据,如图像和声音,提供更为准确和个性化的搜索结果,同时适应不断变化的数据和需求。“没有了模型,我们还需要黑暗中摸索很久”。

第三方模型官网介绍:/guide/en/machine-learning/8.9/ml-nlp-model-ref.html#ml-nlp-model-ref-text-embedding

值得一提的是:Elasticsearch 导入大模型需要专属 Python 客户端工具 Eland。

Eland 是一个 Python Elasticsearch 客户端,让用户能用类似 Pandas 的 API 来探索和分析 Elasticsearch 中的数据,还支持从常见机器学习库上传训练好的模型到 Elasticsearch。

Eland 是为了与 Elasticsearch 协同工作而开发的库。它不是 Elasticsearch 的一个特定版本产物,而是作为一个独立的项目来帮助 Python 开发者更方便地在 Elasticsearch 中进行数据探索和机器学习任务。

Eland 更多参见:

/guide/en/elasticsearch/client/eland/current/index.html

https://www.php.cn/link/47e57c4836ae0c44f774f9d8497e0b4f

5.3 ESRE 是 Elastic 的未来

前一段时间在分别给两位阿里云、腾讯云大佬聊天的时候,都提到了 Elasticsearch Relevance Engine (ESRE) 才是 Elastic 未来。

ESRE 官方介绍如下:——Elasticsearch Relevance Engine 将 AI 的最佳实践与 Elastic 的文本搜索进行了结合。ESRE 为开发人员提供了一整套成熟的检索算法,并能够与大型语言模型 (LLM) 集成。借助 ESRE,我们可以应用具有卓越相关性的开箱即用型语义搜索,与外部大型语言模型集成,实现混合搜索,并使用第三方或我们自己的模型。

ESRE 集成了高级相关性排序如 BM25f、强大的矢量数据库、自然语言处理技术、与第三方模型如 GPT-3 和 GPT-4 的集成,并支持开发者自定义模型与应用。其特点在于提供深度的语义搜索,与专业领域的数据整合,以及无缝的生成式 AI 整合,让开发者能够构建更吸引人、更准确的搜索体验。

在 Elasticsearch 8.9 版本上新了:Semantic search 语义检索功能,对官方文档熟悉的同学,你会发现如下截图内容,早期版本是没有的。

语义搜索不是根据搜索词进行字面匹配,而是根据搜索查询的意图和上下文含义来检索结果。

更进一步讲:语义搜索不仅仅是匹配你输入的关键字,而是试图理解你的真正意图,给你带来更准确、更有上下文的搜索结果。简单来说,如果你在英国搜索 “football”,系统知道你可能想要搜橄榄球,而不是足球(在美国 football 是足球)。

这种智能搜索方式,得益于强大的文本向量化等技术背景,使我们的在线搜索体验更加直观、方便和满意。

在文本里检索 connection speed requirement, 这点属于早期的倒排索引检索方式,或者叫全文检索中的短语 match_phrase 检索匹配 或者分词 match 检索匹配。这种可以得到结果。但是,中后半段视频显示,要是咱们要检索:“How fast should my internet be” 怎么办?

其实这里转换为向量检索,fast 和 speed 语义相近,should be 和 required、needs 语义相近,internet 和 connection、wifi 语义相近。所以依然能召回结果。

这突破了传统同义词的限制,体现了语义检索的妙处!

更进一步,我们给出语义检索和传统分词检索的区别,以期望大家更好的理解语义搜索。

从基础到实践,回顾Elasticsearch 向量检索发展史

总体而言,深度学习集成已经成为 Elasticsearch 向量检索能力的有力补充,促使它在搜索和分析领域的地位更加牢固,同时也为未来的发展提供了广阔的空间。

6.小结

Elasticsearch 的向量检索从最初的简单实现发展到现在的高效、多功能解决方案,反映了现代搜索和推荐系统的需求和挑战。随着技术的不断演进,我们可以期待 Elasticsearch 在向量检索方面将继续推动创新和卓越。

说一下最近的感触,向量检索、大模型等新技术的出现有种感觉 “学不完,根本学不完”,并且很容易限于 “皮毛论”(我自创的词)——所有技术都了解一点点,但经不起提问;浅了说,貌似啥都懂,深了说,一问三不知。

这种情况怎么办?我目前的方法是:以实践为目的去深入理解理论,必要时理解算法,然后不定期将所看、所思、所想梳理成文,以备忘和知识体系化。这个过程很慢、很累,但我相信时间越长、价值越大。

欢迎大家就向量检索等问题进行留言讨论交流,你的问题很可能就是下一次文章的主题哦!

7.参考

1、/cn/blog/text-similarity-search-with-vectors-in-elasticsearch

2、/guide/en/elasticsearch/reference/7.3/query-dsl-script-score-query.html#vector-functions-cosine

3、https://www.php.cn/link/8b0bb3eff8c1e5bf7f206125959921d7

위 내용은 기초부터 실습까지 Elasticsearch 벡터 검색의 개발 이력을 검토해보세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제