PHP实现中文全文搜索的原理介绍-php教程-PHP中文网

首页

后端开发

php教程

PHP实现中文全文搜索的原理介绍

藏色散人

Apr 26, 2019 am 10:48 AM

php

一般的开发中的相关文章或内容都是通过关键词标签、标题来实现相关搜索的，但这样是搜索基本会使用低效的like语句，由于效率低下在稍微大一点的项目开发中我们无法进行文章或者相关内容的详情字段搜索（服务器压力过大、效率极低）。

常见的解决方案

1、sphinx + coreseek

优点 : 技术成熟、稳定

缺点 : sphinx 不支持中文 coressk 目前已经停止维护【如果是纯英文环境 sphinx 极佳】

2、迅搜(Xunsearch)

优点 : 技术成熟、稳定

缺点 : 安装过程复杂，配置不够灵活

3、mysql 全文搜索

有点：安装方便、效率高

缺点：对中文支持不够好

来自hcoder的解决方案（分词 + 自主配置）

优点 : 安装简单（php 组件）、底层由开发者自行编写更清晰底层、更容易的优化

缺点 : 需要开发者有 php + mysql 基础，需要自己编写整个过程的代码

原理

1、获取词语环节
文章数据表 -> 逐行读取文章信息 -> 组合所有文字内容 -> 分词、去重 -> 记录到新的数据表
2、搜索环节
搜索关键字记录表 -> 合并文章数据 -> 去重 -> 展示数据

使用到的第三方组件（scws）

http://www.xunsearch.com/scws/

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写（即：简易中文分词系统）。

这是一套基于词频词典的机械式中文分词引擎，它能将一整段的中文文本基本正确地切分成词。词是中文的最小语素单位，但在书写时并不像英语会在词之间用空格分开，所以如何准确并快速分词一直是中文分词的攻关难点。

SCWS 采用纯 C 语言开发，不依赖任何外部库函数，可直接使用动态链接库嵌入应用程序，支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块，可在 PHP 中快速而方便地使用分词功能。

分词算法上并无太多创新成分，采用的是自己采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词，经小范围测试准确率在 90% ~ 95% 之间，基本上能满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。

SCWS 由 hightman 开发，并以 BSD 许可协议开源发布，源码托管在 github。

以上是PHP实现中文全文搜索的原理介绍的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：hcoder。如有侵权，请联系admin@php.cn删除

如何防止会话固定攻击？Apr 28, 2025 am 12:25 AM

防止会话固定攻击的有效方法包括：1.在用户登录后重新生成会话ID；2.使用安全的会话ID生成算法；3.实施会话超时机制；4.使用HTTPS加密会话数据，这些措施能确保应用在面对会话固定攻击时坚不可摧。

您如何实施无会话身份验证？Apr 28, 2025 am 12:24 AM

实现无会话身份验证可以通过使用JSONWebTokens(JWT)来实现，这是一种基于令牌的认证系统，所有的必要信息都存储在令牌中，无需服务器端会话存储。1)使用JWT生成和验证令牌，2)确保使用HTTPS防止令牌被截获，3)在客户端安全存储令牌，4)在服务器端验证令牌以防篡改，5)实现令牌撤销机制，如使用短期访问令牌和长期刷新令牌。

PHP会议有哪些常见的安全风险？Apr 28, 2025 am 12:24 AM

PHP会话的安全风险主要包括会话劫持、会话固定、会话预测和会话中毒。1.会话劫持可以通过使用HTTPS和保护cookie来防范。2.会话固定可以通过在用户登录前重新生成会话ID来避免。3.会话预测需要确保会话ID的随机性和不可预测性。4.会话中毒可以通过对会话数据进行验证和过滤来预防。

您如何销毁PHP会议？Apr 28, 2025 am 12:16 AM

销毁PHP会话需要先启动会话，然后清除数据并销毁会话文件。1.使用session_start()启动会话。2.用session_unset()清除会话数据。3.最后用session_destroy()销毁会话文件，确保数据安全和资源释放。

如何更改PHP中的默认会话保存路径？Apr 28, 2025 am 12:12 AM

如何改变PHP的默认会话保存路径？可以通过以下步骤实现：在PHP脚本中使用session_save_path('/var/www/sessions');session_start();设置会话保存路径。在php.ini文件中设置session.save_path="/var/www/sessions"来全局改变会话保存路径。使用Memcached或Redis存储会话数据，如ini_set('session.save_handler','memcached');ini_set(

您如何修改PHP会话中存储的数据？Apr 27, 2025 am 12:23 AM

tomodifyDataNaphPsession，startTheSessionWithSession_start（），然后使用$ _sessionToset，修改，orremovevariables.1）startThesession.2）setthesession.2）使用$ _session.3）setormodifysessessvariables.3）emovervariableswithunset（）