分享mysql中文全文搜索：中文分词简单函数 -php手册-PHP中文網

首頁

php教程

php手册

分享mysql中文全文搜索：中文分词简单函数

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 am 11:40 AM

分享mysql中文全文搜索：中文分词简单函数
原文地址：http://www.jb100.net/html/content-22-400-1.html
前段时间研究中文全文搜索，结果发现mysql不支持中文的全文搜索。但是有一些解决办法，就是手动把中文单词用空格分开，然后搜索的时候加上 in boolean mode。但是这就带来一个问题，就是中文分词。这个是个很大的难题，貌似中科院有个小组就是专门做中文分词技术的。我们用 php来分词的话，要实现真正语义上的分词是非常困难的，就算实现了效率也不高。一般情况下，我们采用的是如下方法分词：

比如我们有一句话：你好我是刘春龙
那么我们可以这样来分词：你好好我我是是刘刘春春龙

这样虽然看起来有点傻，但是实际应用起来确实可行，因为我们搜索时候输入的关键词也是按照这个方法分词。

下面有个我自己写的函数，可以实现这种分词。传入三个参数，分别是：

1.需要分词的字符串，必须，英文，标点，数字，汉字，日语等都可以。编码为UTF-8
2.是否返回字符串，可选，默认是。如果传入false，那么将返回一个数组。
3.是否base64_encode中文，可选，默认是。Mysql的全文搜索有个配置是 ft_min_word_len 这个值一般是4，而我们分成的中文词语是两个字，就不会被mysql认为是一个词。而base64_encode过后，词语的长度为8，就不存在最小长度问题了。 base64_encode过后数据量会增大 50%。

注意，这里输入和输出的字符串编码都是UTF-8 function string2words($s,$return_string = true,$encode64 = true) { $re = ''; //匹配汉字 if (preg_match_all("/([x{4e00}-x{9fff}]{2,})/u",$s,$ms)) { foreach($ms[0] as $w) { //关键部分：分词 $l = strlen($w)/3; for($i=0;$i { $wi = substr($w,$i*3,6); if (strlen($wi) > 3) { $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; } } } } //匹配数字 if (preg_match_all("/(d+[.]?d+)/",$s,$ms)) { foreach($ms[0] as $wi) { if(strlen($wi) >= 2) { $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; } } $s = preg_replace("/(d+[.]?d+)/",' ',$s); } //去掉所有双字节字符 $s = preg_replace("/([^x{00}-x{ff}]+)/u",' ',$s); $re = $s.' '.$re; if (!$return_string) { $re = preg_replace("/([^d])([,.-?n])([^d])/",'$1 $3',$re); $re = trim(preg_replace("/[s]{2,}/",' ',$re)); $arr = explode(' ',$re); $re = array(); foreach($arr as $a) { if (strlen($a) >= 2) $re[] = $a; } return $re; } else { $re = trim(preg_replace("/[s,.]{2,}/",' ',$re)); return $re; } } 原文地址：http://www.jb100.net/html/content-22-400-1.html

AD：真正免费，域名+虚机+企业邮箱=0元

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

了解Python编程的入门级代码示例Jan 04, 2024 am 10:50 AM

了解Python编程的入门级代码示例Python是一种简单易学，功能强大的编程语言。对于初学者来说，了解Python编程的入门级代码示例是非常重要的。本文将为您提供一些具体的代码示例，帮助您快速入门。打印HelloWorldprint("HelloWorld")这是Python中最简单的代码示例。print()函数用于将指定的内容输出

PHP переменные в действии: 10 реальных примеров использованияFeb 19, 2024 pm 03:00 PM

PHP变量存储程序运行期间的值，对于构建动态且交互式的WEB应用程序至关重要。本文将深入探讨php变量，并通过10个真实的示例展示它们的实际应用。1.存储用户输入$username=$_POST["username"];$passWord=$_POST["password"];此示例从表单提交中提取用户名和密码，并将其存储在变量中以供进一步处理。2.设置配置值$database_host="localhost";$database_username="username";$database_pa

Go语言编程实例：Web开发中的代码示例Mar 04, 2024 pm 04:54 PM

《Go语言编程实例：Web开发中的代码示例》随着互联网的快速发展，Web开发已经成为各行业中必不可少的一部分。作为一门功能强大且性能优越的编程语言，Go语言在Web开发中越来越受到开发者们的青睐。本文将通过具体的代码示例，介绍如何利用Go语言进行Web开发，让读者能够更好地理解和运用Go语言来构建自己的Web应用。1.简单的HTTP服务器首先，让我们从一个

Java实现简单的冒泡排序代码Jan 30, 2024 am 09:34 AM

Java冒泡排序最简单的代码示例冒泡排序是一种常见的排序算法，它的基本思想是通过相邻元素的比较和交换来将待排序序列逐步调整为有序序列。下面是一个简单的Java代码示例，演示了如何实现冒泡排序：publicclassBubbleSort{publicstaticvoidbubbleSort(int[]arr){int

从入门到精通：Go语言中常用数据结构的代码实现Mar 04, 2024 pm 03:09 PM

标题：从入门到精通：Go语言中常用数据结构的代码实现数据结构在编程中起着至关重要的作用，它是程序设计的基础。在Go语言中，有许多常用的数据结构，掌握这些数据结构的实现方式对于成为一名优秀的程序员至关重要。本文将介绍Go语言中常用的数据结构，并给出相应的代码示例，帮助读者从入门到精通这些数据结构。1.数组（Array）数组是一种基本的数据结构，是一组相同类型

如何使用PHP编写库存管理系统中的库存分仓管理功能代码Aug 06, 2023 pm 04:49 PM

如何使用PHP编写库存管理系统中的库存分仓管理功能代码库存管理是许多企业中不可或缺的一部分。对于拥有多个仓库的企业来说，库存分仓管理功能尤为重要。通过合理管理和跟踪库存，企业可以实现不同仓库之间的库存调拨，优化运营成本，改善协同效率。本文将介绍如何使用PHP编写库存分仓管理功能的代码，并为您提供相关的代码示例。一、建立数据库在开始编写库存分仓管理功能的代码之

指导与示例：学习Java选择排序算法的实现Feb 18, 2024 am 10:52 AM

Java选择排序法代码编写指南及示例选择排序是一种简单直观的排序算法，其思想是每次从未排序的元素中选择最小（或最大）的元素进行交换，直到所有元素排序完成。本文将提供选择排序的代码编写指南，并附上具体的Java示例代码。算法原理选择排序的基本原理是将待排序数组分为已排序和未排序两部分，每次从未排序部分选择最小（或最大）的元素，将其放到已排序部分的末尾。重复上述

华为云边缘计算对接指南：Java代码示例快速实现接口Jul 05, 2023 pm 09:57 PM

华为云边缘计算对接指南：Java代码示例快速实现接口随着物联网技术的快速发展和边缘计算的兴起，越来越多的企业开始关注边缘计算的应用。华为云提供了边缘计算服务，为企业提供了高可靠的计算资源和便捷的开发环境，使得边缘计算应用更加容易实现。本文将介绍如何通过Java代码快速实现华为云边缘计算的接口。首先，我们需要准备好开发环境。确保你已经安装了Java开发工具包（

See all articles