>  기사  >  백엔드 개발  >  PHP에서 중국어 전체 텍스트 검색을 구현하는 원칙 소개

PHP에서 중국어 전체 텍스트 검색을 구현하는 원칙 소개

藏色散人
藏色散人앞으로
2019-04-26 10:48:025392검색

일반적으로 개발 중인 관련 기사나 콘텐츠는 키워드 태그와 제목을 통해 검색됩니다. 그러나 이 방식은 기본적으로 효율성이 낮기 때문에 약간 큰 프로젝트에서는 개발하기가 어렵습니다. 기사나 관련 내용에 대한 세부적인 현장 검색을 수행할 수 없습니다(서버의 압박이 너무 심하고 효율성이 매우 낮습니다).

공통 솔루션

1. sphinx + coreseek

장점: 성숙하고 안정적인 기술#🎜🎜 ## 🎜🎜#단점 : 스핑크스는 중국어 coressk를 지원하지 않으며 현재 유지보수가 중단되었습니다. [순수한 영어 환경이라면 스핑크스는 훌륭합니다]

2, Xunsearch(Xunsearch)#🎜🎜 ## 🎜🎜#

장점: 성숙하고 안정적인 기술단점: 설치 과정이 복잡하고 구성이 충분히 유연하지 않음

3 .mysql 전체 텍스트 검색#🎜🎜 #

장점: 쉬운 설치 및 높은 효율성

단점: 중국어 지원에 충분하지 않음

Solution from hcoder(단어 분할 + 독립적 구성)

장점: 간단한 설치(php 구성 요소), 하단 레이어는 개발자가 직접 작성, 하단 레이어가 더 명확하고 최적화가 더 쉬움

단점: 개발자는 PHP + mysql 기반이 필요하며 전체 프로세스에 대한 코드를 직접 작성해야 합니다

Principle

1、获取词语环节
文章数据表 -> 逐行读取文章信息 -> 组合所有文字内容 -> 分词、去重 -> 记录到新的数据表
2、搜索环节
搜索关键字记录表 -> 合并文章数据 -> 去重 -> 展示数据

#🎜🎜 #사용된 타사 구성 요소(scws)

http://www.xunsearch.com/scws/
SCWS는 Simple Chinese Word Segmentation(예: Simple Chinese Word Segmentation System)의 약어입니다.

이것은 단어 빈도 사전을 기반으로 한 기계적인 중국어 단어 분할 엔진으로, 기본적으로 중국어 텍스트의 전체 단락을 단어로 정확하게 분할할 수 있습니다. 단어는 중국어에서 가장 작은 형태소 단위이지만, 쓰여지면 영어처럼 단어를 공백으로 구분하지 않기 때문에 단어를 정확하고 빠르게 분할하는 방법은 중국어 단어 분할에서 항상 어려운 문제였습니다. SCWS는 순수 C 언어로 개발되었으며 외부 라이브러리 기능에 의존하지 않고 동적 링크 라이브러리를 직접 사용하여 GBK, UTF-8 등의 중국어 인코딩을 포함할 수 있습니다. 또한, PHP에서 단어 분할 기능을 빠르고 쉽게 사용할 수 있도록 PHP 확장 모듈을 제공합니다.

단어 분할 알고리즘에는 혁신적인 요소가 많지 않습니다. 자체적으로 수집한 단어 빈도 사전에 특정 고유명사, 인명, 지명, 디지털 연령 및 기타 규칙 인식을 추가하여 사용합니다. 기본 단어 분할을 달성합니다. 소규모 테스트 후 정확도는 90%~95%이며, 이는 기본적으로 일부 소규모 검색 엔진, 키워드 추출 및 기타 상황의 요구를 충족할 수 있습니다. 첫 번째 프로토타입 버전은 2005년 말에 출시되었습니다.

SCWS는 hightman에 의해 개발되었으며 BSD 라이선스에 따라 오픈 소스로 출시되었습니다. 소스 코드는 github에서 호스팅됩니다.

위 내용은 PHP에서 중국어 전체 텍스트 검색을 구현하는 원칙 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 hcoder.net에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제