使用postgreSQL+bamboo搭建比lucene方便N倍的全文搜索-mysql教程-PHP中文网

首页

数据库

mysql教程

使用postgreSQL+bamboo搭建比lucene方便N倍的全文搜索

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 02:53 PM

lucene使用搭建

使用postgreSQL+bamboo搭建比lucene方便N倍的全文搜索所有用到到包有： cmake-2.6.4.tar.gz (编nlpbamboo用) CRF++-0.53.tar.gz(同上) nlpbamboo-1.1.1.tar.bz2（分词用） postgreSQL-8.3.3.tar.gz（索引用）安装pgsql tar -zxvf postgreSQL-8.3.3.tar.gz

使用postgreSQL+bamboo搭建比lucene方便N倍的全文搜索

所有用到到包有：

cmake-2.6.4.tar.gz (编nlpbamboo用)

CRF++-0.53.tar.gz(同上)

nlpbamboo-1.1.1.tar.bz2（分词用）

postgreSQL-8.3.3.tar.gz（索引用）

安装pgsql

tar -zxvf postgreSQL-8.3.3.tar.gz

cd postgre-8.3.3

./configure –prefix=/opt/pgsql

make

make install

useradd postgre

chown -R postgre.postgre /opt/pgsql

su – postgre

vi ~postgre/.bash_profile

添加

export PATH

PGLIB=/opt/pgsql/lib

PGDATA=/data/PGSearch

PATH=$PATH:/opt/pgsql/bin

MANPATH=$MANPATH:/opt/pgsql/man

export PGLIB PGDATA PATH MANPATH

# mkdir -p /data/PGSearch

# chown -R postgre.postgre /data/PGSearch

# chown -R postgre.postgre /opt/pgsql

#sudo -u postgre /opt/pgsql/bin/initdb –locale=zh_CN.UTF-8 –encoding=utf8 -D /data/PGSearch

#sudo -u postgre /opt/pgsql/bin/postmaster -i -D /data/PGSearch & //允许网络访问

#sudo -u postgre /opt/pgsql/bin/createdb kxgroup

# vim /data/PGSearch/pg_hba.conf 如下增加可访问的机器： www.2cto.com

host all all 10.2.19.178 255.255.255.0 trust

#su – postgre

$pg_ctl stop

$postmaster -i -D /data/PGSearch &

安装中文分词（Cmake CRF++ bamboo)

Cmake是为了编译bamboo,CRF++是bamboo依赖的。

tar -zxvf cmake-2.6.4.tar.gz

cd cmake-2.6.4

./configure

gmake

make install

tar -zxvf CRF++-0.53.tar.gz

cd CRF++-0.53

./configure

make

make install

tar -jxvf nlpbamboo-1.1.1.tar.bz2

cd nlpbamboo-1.1.1

mkdir build

cd build/

cmake .. -DCMAKE_BUILD_TYPE=release

make all

make install

cp index.tar.bz2 /opt/bamboo/

cd /opt/bamboo/

tar -jxvf index.tar.bz2

#/opt/bamboo/bin/bamboo

如果出现：

ERROR: libcrfpp.so.0: cannot open shared object file: No such file or directory

就执行：

ln -s /usr/local/lib/libcrfpp.so.* /usr/lib/

ldconfig

增加上中文分词扩展到pgsql

#vim /root/.bash_profile 也增加：

PGLIB=/opt/pgsql/lib

PGDATA=/data/PGSearch

PATH=$PATH:/opt/pgsql/bin

MANPATH=$MANPATH:/opt/pgsql/man

export PGLIB PGDATA PATH MANPATH

#source ~/.bash_profile

cd /opt/bamboo/exts/postgres/chinese_parser/

make

make install

su – postgre

cd /opt/pgsql/share/contrib/

touch /opt/pgsql/share/tsearch_data/chinese_utf8.stop

psql kxgroup

\i chinese_parser.sql 导入

再执行下面的sql，已经可以将一段话分词了：

SELECT to_tsvector(’chinesecfg’, ‘结果在命令行下执行bamboo才知道’);

先到这里，下一部分讲述对TEXT字段进行索引和查询，完整构造一整个搜索引擎。

www.2cto.com

一、基础篇

本回从一条sql开始：

select * from dbname where field_name @@ ‘aa|bb’ order by rank(field_name, ‘aa|bb’);

从这个sql字面意思讲解：从 dbname这个表中查field_name匹配aa或者是bb的词，并且按照他们的匹配的RANK排序。

基本上明白上面这段话后，来学习四个概念：tsvector、 tsquery、 @@ 、gin。

1.tsvector:

在postgreSQL 8.3自带支持全文检索功能，在之前的版本中需要安装配置tsearch2才能使用。它提供两个数据类型（tsvector,tsquery），并且通过动态检索自然语言文档的集合，定位到最匹配的查询结果，tsvector正是其中之一。

一个tsvector的值是唯一分词的分类列表，把一话一句词格式化为不同的词条，在进行分词处理的时候，tsvector会自动去掉分词中重复的词条，按照一定的顺序装入。例如

SELECT ‘a fat cat sat on a mat and ate a fat rat’::tsvector;

tsvector

—————————————————-

‘a’ ‘on’ ‘and’ ‘ate’ ‘cat’ ‘fat’ ‘mat’ ‘rat’ ’sat’

通过tsvector把一个字符串按照空格进行分词，这可以把分词后的词按照出现的次数排成一排（还会按词长度）。

对于英文和中文的全文检索我们还要看下面这条sql:

SELECT to_tsvector(’english’, ‘The Fat Rats’);

to_tsvector

—————–

‘fat’:2 ‘rat’:3

to_tsvector函数来是tsvector规格化的，在其中可指定所使用的分词。

2.tsquery：

顾名思义,tsquery,表示的应该是查询相关的.tsquery是存储用于检索的词条.并且可以联合使用boolean 操作符来连接, & (AND), | (OR), and ! (NOT). 使用括号(),可以强制分为一组.

同时,tsquery 在做搜索的时候,也可以使用权重,并且每个词都可以使用一个或者多个权重标记,这样在检索的时候,会匹配相同权重的信息.跟上面的tsvector相同,tsquery也有一个to_tsquery函数.

3.@@：

在postgresql中全文检索匹配操作使用@@ 操作符,如果一个

tsvector(document) 匹配到 tsquery(query)则返回true.

www.2cto.com

看一个简单的例子：

SELECT ‘a fat cat sat on a mat and ate a fat rat’::tsvector @@ ‘cat & rat’::tsquery;

?column?

———-

我们在处理索引的时候还是要使用他们的函数如下：

SELECT to_tsvector(’fat cats ate fat rats’) @@ to_tsquery(’fat & rat’);

?column?

———-

并且操作符 @@ 可以使用text作为tsvector和tsquery.如下操作符可以使使用的方法

tsvector @@ tsquery

tsquery @@ tsvector

text @@ tsquery

text @@ text

上面的前两种我们已经使用过了,但是后两种,

text @@ tsquery 等同于 to_tsvector(x) @@ y.

text @@ text 等同于 to_tsvector(x) @@ plainto_tsquery(y).（~）plainto_tsquery在后面讲。。。

4.gin:

gin是一种索引的名称，全文索引用的。

我们可以通过创建gin索引来加速检索速度.例如

CREATE INDEX pgweb_idx ON pgweb USING gin(to_tsvector(’english’, body));

创建索引可以有多种方式.索引的创建甚至可以连接两个列:

CREATE INDEX pgweb_idx ON pgweb USING gin(to_tsvector(’english’, title || body));

www.2cto.com

二、提高篇

基础知识学完了，应该上阵了，为了实现全文检索，我们需要把一个文档创建一个tsvector 格式，并且通过tsquery实现用户的查询，在查询中我们返回一个按照重要性排序的查询结果。

先看一个to_tsquery的sql:

SELECT to_tsquery(’english’, ‘Fat | Rats:AB’);

to_tsquery

——————

‘fat’ | ‘rat’:AB

可以看出，to_tsquery函数在处理查询文本的时候，查询文本的单个词之间要使用逻辑操作符（& (AND), | (OR) and ! (NOT)）连接（或者使用括号）。

如果执行下面这条sql就会出错：

SELECT to_tsquery(’english’, ‘Fat Rats’);

plainto_tsquery函数却可以提供一个标准的tsquery，如上面的例子，plainto_tsquery会自动加上逻辑&操作符。

SELECT plainto_tsquery(’english’, ‘Fat Rats’);

plainto_tsquery

—————–

‘fat’ & ‘rat’

但是plainto_tsquery函数不能够识别逻辑操作符和权重标记。

SELECT plainto_tsquery(’english’, ‘The Fat & Rats:C’);

plainto_tsquery

———————

‘fat’ & ‘rat’ & ‘c’

www.2cto.com

三、终结篇

看完上面的一堆后，千言万语汇成一句话，本文主要讲的是一条sql，在加了第一部分里所讲述的扩展后，使用下面的sql，从一个字段中搜一句话，还要排序出来：

select * from tabname where to_tsvector(’chinesecfg’,textname) @@ plainto_tsquery(’搜点啥’) order by ts_rank(to_tsvector(’chinesecfg’,textname),plainto_tsquery(’搜点啥’)) limit 10;

之前的create table create index就不写了。授人以渔才是关键。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何在Go中使用命名管道？May 11, 2023 pm 04:22 PM

命名管道是一种在操作系统中相对比较低级的进程通信方式，它是一种以文件为中介的进程通信方式。在Go语言中，通过os包提供了对命名管道的支持。在本文中，我们将介绍如何在Go中使用命名管道来实现进程间通信。一、命名管道的概念命名管道是一种特殊的文件，可以被多个进程同时访问。在Linux系统中，命名管道是一种特殊的文件类型，它们存在于文件系统的某个位置上，并且可以在

如何在Go中使用第三方库？May 11, 2023 pm 03:30 PM

在Go语言中，使用第三方库是非常方便的。许多优秀的第三方库和框架可以帮助我们快速地开发应用程序，同时也减少了我们自己编写代码的工作量。但是如何正确地使用第三方库，确保其稳定性和可靠性，是我们必须了解的一个问题。本文将从以下几个方面介绍如何使用第三方库，并结合具体例子进行讲解。一、第三方库的获取Go语言中获取第三方库有以下两种方式：1.使用goget命令首先

如何在PHP中使用协程？May 12, 2023 am 08:10 AM

随着传统的多线程模型在高并发场景下的性能瓶颈，协程成为了PHP编程领域的热门话题。协程是一种轻量级的线程，能够在单线程中实现多任务的并发执行。在PHP的语言生态中，协程得到了广泛的应用，比如Swoole、Workerman等框架就提供了对协程的支持。那么，如何在PHP中使用协程呢？本文将介绍一些基本的使用方法以及常见的注意事项，帮助读者了解协程的运作原理，以

如何在PHP中使用变量函数May 18, 2023 pm 03:52 PM

变量函数是指可以使用变量来调用函数的一种特殊语法。在PHP中，变量函数是非常有用的，因为它可以让我们更加灵活地使用函数。在本文中，我们将介绍如何在PHP中使用变量函数。定义变量函数在PHP中，变量函数的定义方式非常简单，只需要将要调用的函数名赋值给一个变量即可。例如，下面的代码定义了一个变量函数：$func='var_dump';这里将var_dump函

如何在 Windows 11 中按需使用 OneDrive 的文件Apr 14, 2023 pm 12:34 PM

<p>Windows 系统上的 OneDrive 应用程序允许您将文件存储在高达 5 GB 的云上。OneDrive 应用程序中还有另一个功能，它允许用户选择一个选项，是将文件保留在系统空间上还是在线提供，而不占用您的系统存储空间。此功能称为按需文件。在这篇文章中，我们进一步探索了此功能，并解释了有关如何在 Windows 11 电脑上的 OneDrive 中按需使用文件的各种选项。</p><h2>如何使用 On

如何在Go中使用WebSocket？May 11, 2023 pm 04:17 PM

近年来，WebSocket技术已经成为了Web开发中不可或缺的一部分。WebSocket是一种在单个TCP连接上进行全双工通信的协议，它使得客户端和服务器之间的通信更加流畅和高效。如今，很多现代的Web应用程序都使用了WebSocket技术，例如实时聊天、在线游戏以及实时数据可视化等。Go语言作为一个现代的编程语言，自然也提供了很好的支持WebSock

如何在Go中使用音频处理？May 11, 2023 pm 04:37 PM

随着音频处理在各种应用场景中的普及，越来越多的程序员开始使用Go编写音频处理程序。Go语言作为一种现代化的编程语言，具有优秀的并发性和高效率的特点，使用它进行音频处理十分方便。本文将介绍如何在Go中使用音频处理技术，包括读取、写入、处理和分析音频数据等方面的内容。一、读取音频数据在Go中读取音频数据有多种方式。其中比较常用的是使用第三方库进行读取，比如go-

如何在PHP中使用数据聚合函数May 18, 2023 pm 02:51 PM

数据聚合函数是一种用于处理数据库表中多行数据的函数。在PHP中使用数据聚合函数可以使得我们方便地进行数据分析和处理，例如求和、平均数、最大值、最小值等。下面将介绍如何在PHP中使用数据聚合函数。一、介绍常用的数据聚合函数COUNT()：计算某一列的行数。SUM()：计算某一列的总和。AVG()：计算某一列的平均值。MAX()：取出某一列的最大值。MIN()：

See all articles