本文经Mark Brown、Vildan Softic和Moritz Kröger同行评审。感谢所有SitePoint的同行评审员,让SitePoint的内容尽善尽美!
Elasticsearch是一个开源搜索引擎,因其高性能和分布式架构而日益普及。本文将探讨其关键特性,并指导您如何使用它来创建一个Node.js搜索引擎。
关键要点
Elasticsearch简介
Elasticsearch构建在Apache Lucene之上,Apache Lucene是一个高性能的文本搜索引擎库。虽然Elasticsearch可以执行数据的存储和检索,但其主要目的不是充当数据库,而是一个搜索引擎(服务器),其主要目标是索引、搜索和提供数据的实时统计信息。
Elasticsearch具有分布式架构,可以通过添加更多节点并利用额外的硬件来实现水平扩展。它支持数千个节点来处理PB级的数据。它的水平扩展也意味着它具有高可用性,如果任何节点发生故障,它可以重新平衡数据。
导入数据后,它会立即可用以进行搜索。Elasticsearch是无模式的,将数据存储在JSON文档中,并且可以自动检测数据结构和类型。
Elasticsearch也是完全由API驱动的。这意味着几乎所有操作都可以通过使用HTTP上的JSON数据的简单的RESTful API来完成。它几乎为任何编程语言都提供了许多客户端库,包括Node.js。在本教程中,我们将使用官方客户端库。
Elasticsearch在硬件和软件需求方面非常灵活。虽然推荐的生产环境是64GB内存和尽可能多的CPU内核,但您仍然可以在资源受限的系统上运行它并获得不错的性能(假设您的数据集不是很大)。要遵循本文中的示例,具有2GB内存和单个CPU内核的系统就足够了。
您可以在所有主要操作系统(Linux、Mac OS和Windows)上运行Elasticsearch。为此,您需要安装最新版本的Java运行时环境(请参阅“安装Elasticsearch”部分)。要遵循本文中的示例,您还需要安装Node.js(v0.11.0之后的任何版本都可以),以及npm。
Elasticsearch术语
Elasticsearch使用它自己的术语,在某些情况下与典型的数据库系统不同。以下是Elasticsearch中常用术语及其含义的列表。
索引: 此术语在Elasticsearch上下文中具有两种含义。首先是添加数据的操作。当添加数据时,文本会被分解成标记(例如单词),并且每个标记都会被索引。但是,索引也指的是所有索引数据存储的位置。基本上,当您导入数据时,它会被索引到一个索引中。每次您想要对数据执行任何操作时,都需要指定其索引名称。
类型: Elasticsearch提供了对索引中文档的更详细的分类,称为类型。索引中的每个文档也应该有一个类型。例如,我们可以定义一个库索引,然后将多种类型的数据(例如文章、书籍、报告和演示文稿)索引到其中。由于索引几乎具有固定的开销,因此建议使用较少的索引和较多的类型,而不是较多的索引和较少的类型。
搜索: 此术语的含义可能与您想象的一样。您可以在不同的索引和类型中搜索数据。Elasticsearch提供了许多类型的搜索查询,例如术语、短语、范围、模糊,甚至地理数据的查询。
过滤器: Elasticsearch允许您根据不同的条件过滤搜索结果,以进一步缩小结果范围。如果您向一组文档添加新的搜索查询,它可能会根据相关性更改顺序,但如果您将相同的查询添加为过滤器,则顺序保持不变。
聚合: 这些提供了对聚合数据的不同类型的统计信息,例如最小值、最大值、平均值、总和、直方图等等。
建议: Elasticsearch为输入文本提供不同类型的建议。这些建议可以基于术语或短语,甚至可以完成建议。
安装Elasticsearch
Elasticsearch在Apache 2许可下可用;可以免费下载、使用和修改。在安装它之前,您需要确保您的计算机上安装了Java运行时环境(JRE)。Elasticsearch是用Java编写的,并依赖于Java库才能运行。要检查您的系统上是否安装了Java,您可以在命令行中键入以下内容。
<code>java -version</code>
建议使用最新稳定版本的Java(在撰写本文时为1.8)。您可以在此处找到有关在您的系统上安装Java的指南。
接下来,要下载最新版本的Elasticsearch(在撰写本文时为2.4.0),请访问下载页面并下载ZIP文件。Elasticsearch不需要安装,单个zip文件包含在所有受支持的操作系统上运行程序的完整文件集。解压缩下载的文件,就完成了!还有其他几种方法可以运行Elasticsearch,例如获取TAR文件或不同Linux发行版的软件包(请查看此处)。
如果您运行的是Mac OS X并且安装了Homebrew,则可以使用brew install elasticsearch安装Elasticsearch。Homebrew会自动将可执行文件添加到您的路径并安装所需的服務。它还可以帮助您使用单个命令更新应用程序:brew upgrade elasticsearch。
要在Windows上运行Elasticsearch,从解压缩的目录中,从命令行运行binelasticsearch.bat。对于其他所有操作系统,请从终端运行./bin/elasticsearch。此时它应该在您的系统上运行。
正如我前面提到的,几乎所有您可以使用Elasticsearch执行的操作都可以通过REST API来完成。Elasticsearch默认使用端口9200。要确保您正确运行它,请在浏览器中访问http://localhost:9200/,它应该显示有关您正在运行的实例的一些基本信息。
有关安装和故障排除的更多信息,您可以访问文档。
图形用户界面
Elasticsearch通过REST API提供几乎所有功能,并且不附带图形用户界面(GUI)。虽然我介绍了如何通过API和Node.js执行所有必要的操作,但有一些GUI工具可以提供有关索引和数据的可视化信息,甚至是一些高级分析。
由同一家公司开发的Kibana提供了数据的实时摘要,以及一些自定义的可视化和分析选项。Kibana是免费的,并且有详细的文档。
社区还开发了其他工具,包括elasticsearch-head、Elasticsearch GUI,甚至是一个名为ElasticSearch Toolbox的Chrome扩展程序。这些工具可以帮助您在浏览器中浏览索引和数据,甚至可以尝试不同的搜索和聚合查询。所有这些工具都提供了安装和使用的演练。
设置Node.js环境
Elasticsearch为Node.js提供了一个官方模块,称为elasticsearch。首先,您需要将模块添加到您的项目文件夹中,并保存依赖项以备将来使用。
<code>npm install elasticsearch --save</code>
然后,您可以按如下方式在脚本中导入模块:
<code>java -version</code>
最后,您需要设置处理与Elasticsearch通信的客户端。在本例中,我假设您在本地机器上运行Elasticsearch,IP地址为127.0.0.1,端口为9200(默认设置)。
<code>npm install elasticsearch --save</code>
log选项确保记录所有错误。在本文的其余部分,我将使用相同的esClient对象与Elasticsearch进行通信。此处提供了节点模块的完整文档。
注意:本教程的所有源代码都提供在GitHub上。最简单的遵循方法是将存储库克隆到您的PC并从那里运行示例:
<code>const elasticsearch = require('elasticsearch');</code>
导入数据
在本教程中,我将使用具有随机生成内容的学术文章数据集。数据以JSON格式提供,数据集中有1000篇文章。为了显示数据的样式,下面显示了数据集中的一项。
<code>const esClient = new elasticsearch.Client({ host: '127.0.0.1:9200', log: 'error' });</code>
字段名称是不言自明的。需要注意的唯一一点是此处未显示body字段,因为它包含完整的随机生成的文稿(包含100到200个段落)。您可以在此处找到完整的数据集。
虽然Elasticsearch提供了索引、更新和删除单个数据点的方法,但我们将使用Elasticserch的批量方法来导入数据,该方法用于更有效地对大型数据集执行操作:
<code>git clone https://github.com:sitepoint-editors/node-elasticsearch-tutorial.git cd node-elasticsearch-tutorial npm install</code>
在这里,我们调用bulkIndex函数,将library作为索引名称、article作为类型以及我们希望索引的JSON数据传递给它。bulkIndex函数依次调用esClient对象上的bulk方法。此方法将一个具有body属性的对象作为参数。提供给body属性的值是一个数组,每个操作有两个条目。在第一个条目中,操作的类型被指定为一个JSON对象。在这个对象中,index属性确定要执行的操作(在本例中是索引文档),以及索引名称、类型名称和文档ID。下一个条目对应于文档本身。
请注意,将来您可以通过这种方式向同一索引中添加其他类型的文档(例如书籍或报告)。我们还可以为每个文档分配一个唯一的ID,但这可选项——如果您不提供一个,Elasticsearch将为您为每个文档分配一个唯一的随机生成的ID。
假设您已经克隆了存储库,您现在可以通过从项目根目录执行以下命令来将数据导入Elasticsearch:
<code>{ "_id": "57508457f482c3a68c0a8ab3", "title": "Nostrud anim proident cillum non.", "journal": "qui ea", "volume": 54, "number": 11, "pages": "109-117", "year": 2014, "authors": [ { "firstname": "Allyson", "lastname": "Ellison", "institution": "Ronbert", "email": "Allyson@Ronbert.tv" }, ... ], "abstract": "Do occaecat reprehenderit dolore ...", "link": "http://mollit.us/57508457f482c3a68c0a8ab3.pdf", "keywords": [ "sunt", "fugiat", ... ], "body": "removed to save space" }</code>
检查数据是否已正确索引
Elasticsearch的一大特性是近乎实时的搜索。这意味着一旦文档被索引,它们就会在一秒钟内可用以进行搜索(请参阅此处)。一旦数据被索引,您可以通过运行indices.js(链接到源代码)来检查索引信息:
<code class="language-javascript">// index.js const bulkIndex = function bulkIndex(index, type, data) { let bulkBody = []; data.forEach(item => { bulkBody.push({ index: { _index: index, _type: type, _id: item.id } }); bulkBody.push(item); }); esClient.bulk({body: bulkBody}) .then(response => { console.log('here'); let errorCount = 0; response.items.forEach(item => { if (item.index && item.index.error) { console.log(++errorCount, item.index.error); } }); console.log( `Successfully indexed ${data.length - errorCount} out of ${data.length} items` ); }) .catch(console.err); }; const test = function test() { const articlesRaw = fs.readFileSync('data.json'); bulkIndex('library', 'article', articles); };</code>
客户端的cat对象中的方法提供了有关当前正在运行的实例的不同信息。indices方法列出了所有索引、它们的运行状况、文档数量以及它们在磁盘上的大小。v选项会向cat方法的响应添加标题。
当您运行上述代码片段时,您会注意到它输出一个颜色代码来指示集群的运行状况。红色表示集群出现问题并且没有运行。黄色表示集群正在运行,但存在警告,绿色表示一切正常。很可能(取决于您的设置)您在本地机器上运行时会获得黄色状态。这是因为默认设置包含集群的五个节点,但在您的本地机器上只有一个实例正在运行。虽然您应该始终在生产环境中争取绿色状态,但为了本教程的目的,您可以继续在黄色状态下使用Elasticsearch。
<code>java -version</code>
动态和自定义映射
正如我前面提到的,Elasticsearch是无模式的。这意味着您不必在导入数据之前定义数据的结构(类似于在SQL数据库中定义表),而是Elasticsearch会自动为您检测它。但是,尽管被称为无模式,但数据结构有一些限制。
Elasticsearch将数据的结构称为映射。如果不存在映射,则在索引数据时,Elasticsearch会查看JSON数据的每个字段,并根据其类型自动定义映射。如果该字段已存在映射条目,则它确保添加的新数据遵循相同的格式。否则,它将引发错误。
例如,如果已索引{"key1": 12},则Elasticsearch会自动将字段key1映射为long。现在,如果您尝试索引{"key1": "value1", "key2": "value2"},它会引发错误,因为它期望字段key1的类型为long。同时,对象{"key1": 13, "key2": "value2"}将被无问题地索引,并将类型为string的key2添加到映射中。
映射超出了本文的范围,在大多数情况下,自动映射工作得很好。我建议查看elasticsearch文档,其中提供了对映射的深入讨论。
构建搜索引擎
一旦数据被索引,我们就可以实现搜索引擎了。Elasticsearch提供了一个名为Query DSL的直观的全文搜索查询结构——它基于JSON——来定义查询。有许多类型的搜索查询可用,但在本文中,我们将研究其中几种更常见的查询。此处可以找到Query DSL的完整文档。
请记住,我为此处显示的每个示例都提供了代码链接。设置好环境并索引测试数据后,您可以克隆存储库并在您的机器上运行任何示例。为此,只需从命令行运行node filename.js即可。
返回一个或多个索引中的所有文档
为了执行搜索,我们将使用客户端提供的各种搜索方法。最简单的查询是match_all,它返回一个或多个索引中的所有文档。下面的示例显示了我们如何获取索引中的所有存储文档(链接到源代码)。
<code>java -version</code>
主要的搜索查询包含在query对象中。正如我们稍后将看到的,我们可以向此对象添加不同类型的搜索查询。对于每个查询,我们添加一个键,其中包含查询类型(在此示例中为match_all),其值为包含搜索选项的对象。此示例中没有选项,因为我们希望返回索引中的所有文档。
除了query对象之外,搜索主体还可以包含其他可选属性,包括size和from。size属性确定要包含在响应中的文档数量。如果此值不存在,则默认返回十个文档。from属性确定返回文档的起始索引。这对于分页很有用。
理解搜索API响应
如果您要记录搜索API的响应(上述示例中的results),它最初看起来可能很复杂,因为它包含大量信息。
<code>npm install elasticsearch --save</code>
在最高级别,响应包括一个took属性,用于表示查找结果所花费的毫秒数,timed_out,仅当在允许的最大时间内未找到结果时才为true,_shards,用于提供有关不同节点状态的信息(如果部署为节点集群),以及hits,其中包含搜索结果。
在hits属性中,我们有一个对象,其中包含以下属性:
它非常复杂,但好消息是,一旦您实现了一种提取结果的方法,无论您的搜索查询是什么,您都将始终以相同的格式获得结果。
另请注意,Elasticsearch的优点之一是它会自动为每个匹配的文档分配一个分数。此分数用于量化文档的相关性,并且默认情况下,结果按分数递减的顺序返回。在我们使用match_all检索所有文档的情况下,分数毫无意义,所有分数都计算为1.0。
匹配字段中包含特定值的文档
现在,让我们来看一些更有趣的例子。为了匹配字段中包含特定值的文档,我们可以使用match查询。下面显示了一个带有match查询的简单搜索主体(链接到源代码)。
<code>const elasticsearch = require('elasticsearch');</code>
正如我前面提到的,我们首先向一个query对象中添加一个条目,其中包含搜索类型,在此示例中为match。在搜索类型对象内,我们标识要搜索的文档字段,此处为title。在其中,我们放入与搜索相关的数据,包括query属性。我希望在测试了上述示例后,您会开始对搜索速度感到惊叹。
上述搜索查询返回其title字段与query属性中的任何单词匹配的文档。我们可以设置匹配项的最小数量,如下所示。
<code>java -version</code>
此查询匹配其标题中至少有三个指定单词的文档。如果查询中少于三个单词,则所有单词都必须出现在标题中才能匹配文档。另一个添加到搜索查询的有用功能是模糊性。如果用户在编写查询时输入错误,这将非常有用,因为模糊匹配将查找拼写相近的术语。对于字符串,模糊性值基于每个术语允许的最大莱文斯坦距离。下面是一个带有模糊性的示例。
<code>npm install elasticsearch --save</code>
在多个字段中搜索
如果您想在多个字段中搜索,可以使用multi_match搜索类型。它类似于match,只是我们不是将字段作为搜索查询对象中的键,而是添加一个fields键,这是一个要搜索的字段数组。在这里,我们在title、authors.firstname和authors.lastname字段中搜索。(链接到源代码)
<code>const elasticsearch = require('elasticsearch');</code>
multi_match查询支持其他搜索属性,例如minimum_should_match和fuzziness。Elasticsearch支持通配符(例如*)来匹配多个字段,因此我们可以将上述示例缩短为['title', 'authors.*name']。
匹配完整的短语
Elasticsearch还可以精确匹配输入的短语,而不会在术语级别进行匹配。此查询是常规match查询的扩展,称为match_phrase。下面是一个match_phrase的示例。(链接到源代码)
<code>const esClient = new elasticsearch.Client({ host: '127.0.0.1:9200', log: 'error' });</code>
组合多个查询
到目前为止,在示例中,我们每个请求只使用了一个查询。但是,Elasticsearch允许您组合多个查询。最常见的复合查询是bool。bool查询接受四种类型的键:must、should、must_not和filter。顾名思义,结果中的文档必须匹配must中的查询,不能匹配must_not中的查询,如果它们匹配should中的查询,则会获得更高的分数。上述每个元素都可以接收多个查询,形式为查询数组。
下面,我们将bool查询与一种新的查询类型query_string一起使用。这允许您使用AND和OR等关键字编写更高级的查询。此处可以找到query_string语法的完整文档。此外,我们使用范围查询(此处有文档),它允许我们将字段限制在给定范围内。(链接到源代码)
<code>git clone https://github.com:sitepoint-editors/node-elasticsearch-tutorial.git cd node-elasticsearch-tutorial npm install</code>
在上述示例中,查询返回作者的姓名包含term1或他们的姓氏包含term2,并且他们的标题包含term3,并且它们未在2011年、2012年或2013年发表的文档。此外,在其正文中包含给定短语的文档将获得更高的分数,并显示在结果的顶部(因为match查询位于should子句中)。
过滤器、聚合和建议
除了其高级搜索功能外,Elasticsearch还提供其他功能。在这里,我们来看三个更常见的特性。
过滤器
通常,您可能希望根据特定条件细化搜索结果。Elasticsearch通过过滤器提供此功能。在我们的文章数据中,假设您的搜索返回了几篇文章,您希望从中只选择在五个特定年份发表的文章。您可以简单地从搜索结果中过滤掉任何不符合您条件的内容,而无需更改搜索顺序。
过滤器与bool查询的must子句中的相同查询之间的区别在于,过滤器不会影响搜索分数,而must查询会影响。当返回搜索结果并且用户根据某些特定条件进行过滤时,他们不希望更改原始结果顺序,而是只希望从结果中删除不相关的文档。过滤器遵循与搜索相同的格式,但更常见的是,它们是在具有确定值的字段上定义的,而不是文本字符串。Elasticsearch建议通过bool复合搜索查询的filter子句添加过滤器。
继续上面的示例,假设我们想将搜索结果限制在2011年至2015年发表的文章。为此,我们只需要向原始搜索查询的filter部分添加一个范围查询即可。这将从结果中删除任何不匹配的文档。下面是一个过滤查询的示例。(链接到源代码)
<code>java -version</code>
聚合
聚合框架根据搜索查询提供各种聚合数据和统计信息。聚合的两种主要类型是度量和分组,其中度量聚合跟踪和计算一组文档上的度量,而分组聚合构建桶,每个桶都与一个键和一个文档条件相关联。度量聚合的示例包括平均值、最小值、最大值、总和和值计数。分组聚合的示例包括范围、日期范围、直方图和术语。此处可以找到聚合器的深入解释。
聚合放置在aggregations对象内,该对象本身直接放置在搜索对象主体中。在aggregations对象中,每个键都是用户为聚合器分配的名称。聚合器类型和选项应作为该键的值放置。下面,我们来看两个不同的聚合器,一个度量聚合器和一个桶聚合器。作为度量聚合器,我们尝试在数据集中找到最小年份值(最旧的文章),对于桶聚合器,我们尝试查找每个关键字出现的次数。(链接到源代码)
<code>npm install elasticsearch --save</code>
在上述示例中,我们将度量聚合器命名为min_year(此名称可以是任何名称),它是在year字段上进行的min类型的聚合。桶聚合器命名为keywords,它是在keywords字段上进行的terms类型的聚合。聚合的结果包含在响应中的aggregations元素中,在更深一层,它们包含每个定义的聚合器(此处为min_year和keywords)及其结果。以下是此示例的部分响应。
<code>const elasticsearch = require('elasticsearch');</code>
默认情况下,响应中最多返回10个桶。您可以在请求中的字段旁边添加size键来确定返回的桶的最大数量。如果您想接收所有桶,请将此值设置为0。
建议
Elasticsearch有多种类型的建议器,可以为输入的术语提供替换或完成建议(此处有文档)。我们将在此处查看术语和短语建议器。术语建议器为输入文本中的每个术语提供建议(如有),而短语建议器将输入文本视为一个完整的短语(而不是将其分解为术语),并提供其他短语建议(如有)。要使用建议API,我们需要调用Node.js客户端上的suggest方法。下面是一个术语建议器的示例。(链接到源代码)
<code>java -version</code>
在请求主体中,与所有其他客户端方法一致,我们有一个index字段,用于确定搜索的索引。在body属性中,我们添加了我们正在寻找建议的文本,并且(与聚合对象一样),我们为每个建议器指定一个名称(在本例中为titleSuggester)。它的值确定建议器的类型和选项。在本例中,我们正在为title字段使用术语建议器,并将每个标记的建议最大数量限制为五个(size: 5)。
suggest API的响应包含您请求的每个建议器的一个键,该键是一个数组,其大小与文本字段中术语的数量相同。对于该数组中的每个对象,都有一个options对象,其text字段中包含建议。以下是上述请求的部分响应。
<code>npm install elasticsearch --save</code>
要获取短语建议,我们可以遵循与上述相同的格式,只需将建议器类型替换为phrase即可。在下面的示例中,响应遵循与上面解释相同的格式。(链接到源代码)
<code>const elasticsearch = require('elasticsearch');</code>
进一步阅读
Elasticsearch提供了广泛的功能,远超本文的范围。在本文中,我试图从高级别解释其功能,并参考适当的资源以供进一步学习。Elasticsearch非常可靠,并且具有出色的性能(我希望您在运行示例时已经注意到这一点)。这加上不断增长的社区支持,增加了Elasticsearch在行业中的采用率,尤其是在处理实时数据或大数据的公司中。
在仔细阅读此处提供的示例后,我强烈建议您查看文档。他们提供了两个主要来源,一个是Elasticsearch及其功能的参考,另一个是更侧重于实现、用例和最佳实践的指南。您还可以在此处找到Node.js客户端的详细文档。
您是否已经在使用Elasticsearch?您的经验如何?或者您是否在阅读本文后打算尝试一下?请在下面的评论中告诉我。
关于搜索引擎Node Elasticsearch的常见问题解答 (FAQ)
Elasticsearch与其他搜索引擎(如Elasticlunr或Minisearch)有何区别?
Elasticsearch是一个功能强大、分布式且开源的搜索和分析引擎。它旨在处理大量数据并提供实时搜索结果。另一方面,Elasticlunr和Minisearch是用于JavaScript的轻量级客户端搜索库。它们专为较小的数据集而设计,通常用于基于浏览器的应用程序。虽然Elasticsearch提供了更高级的功能,例如分布式搜索、数据分析和机器学习功能,但Elasticlunr和Minisearch对于基本的搜索功能来说更简单易用。
如何在Node.js应用程序中实现Elasticsearch?
在Node.js应用程序中实现Elasticsearch涉及几个步骤。首先,您需要使用npm安装Elasticsearch包。然后,您需要创建一个Elasticsearch客户端实例并将其连接到您的Elasticsearch服务器。之后,您可以使用客户端的方法执行各种操作,例如索引文档、搜索数据和管理您的Elasticsearch集群。
我可以使用Elasticsearch在浏览器中构建搜索引擎吗?
虽然Elasticsearch主要设计用于服务器端应用程序,但借助Node.js服务器,可以在基于浏览器的应用程序中使用它。服务器可以在浏览器和Elasticsearch服务器之间充当代理,处理所有搜索请求和响应。但是,对于更简单的用例,像Elasticlunr或Minisearch这样的客户端搜索库可能是更好的选择。
Elasticsearch与其他npm搜索包相比如何?
Elasticsearch是npm上最流行的搜索包之一,这要归功于其强大的功能和可扩展性。它提供了一套全面的API,用于索引、搜索和分析数据。但是,它比其他npm搜索包更复杂且资源密集。如果您正在从事小型项目,或者您需要简单的搜索功能,则其他npm包(如search-index或js-search)可能更合适。
如何使用JavaScript构建简单的浏览器内搜索引擎?
使用JavaScript构建简单的浏览器内搜索引擎包括创建数据的索引、实现搜索功能和显示搜索结果。您可以使用像Elasticlunr或Minisearch这样的JavaScript搜索库来简化此过程。这些库提供了易于使用的API来索引和搜索数据,并且可以直接在浏览器中使用,无需服务器。
在我的应用程序中使用Elasticsearch进行搜索功能的优势是什么?
Elasticsearch为在您的应用程序中实现搜索功能提供了许多优势。它提供实时搜索结果,这意味着一旦文档被索引,它就会变得可搜索。它还支持复杂的搜索查询,允许您根据多个条件搜索数据。此外,Elasticsearch高度可扩展,可以处理大量数据而不会影响性能。
Elasticsearch如何处理数据索引?
Elasticsearch使用称为倒排索引的数据结构进行数据索引。这允许它快速查找与搜索查询匹配的文档。当文档被索引时,Elasticsearch会分析内容并创建唯一单词列表,然后将这些单词与有关它们在文档中位置的信息一起存储在倒排索引中。
我可以使用Elasticsearch进行数据分析吗?
是的,Elasticsearch不仅是一个搜索引擎,还是一个强大的数据分析工具。它支持聚合,允许您以各种方式汇总和分析您的数据。您可以使用Elasticsearch执行复杂的数据分析任务,例如计算平均值、总和或计数,查找最小值或最大值,根据特定条件对数据进行分组等等。
Elasticsearch是否适合大数据应用程序?
是的,Elasticsearch旨在处理大数据应用程序。它是一个分布式系统,这意味着它可以通过向集群添加更多节点来水平扩展。这允许它处理大量数据,即使在负载很重的情况下也能提供快速的搜索结果。此外,Elasticsearch支持分片和复制,这进一步增强了其可扩展性和可靠性。
如何优化Elasticsearch应用程序的性能?
有多种方法可以优化Elasticsearch应用程序的性能。首先,您应该正确配置Elasticsearch集群,包括节点、分片和副本的数量。其次,您应该通过使用批量索引、禁用刷新和使用正确的分析器来优化索引过程。最后,您应该通过尽可能使用过滤器而不是查询来优化搜索查询,避免繁重的聚合,并使用“explain”API来了解查询是如何执行的。
以上是使用Node.js和Elasticsearch构建搜索引擎的详细内容。更多信息请关注PHP中文网其他相关文章!