PHP에서 중국어 전체 텍스트 검색을 구현하는 원칙 소개-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP에서 중국어 전체 텍스트 검색을 구현하는 원칙 소개

藏色散人

Apr 26, 2019 am 10:48 AM

php

일반적으로 개발 중인 관련 기사나 콘텐츠는 키워드 태그와 제목을 통해 검색됩니다. 그러나 이 방식은 기본적으로 효율성이 낮기 때문에 약간 큰 프로젝트에서는 개발하기가 어렵습니다. 기사나 관련 내용에 대한 세부적인 현장 검색을 수행할 수 없습니다(서버의 압박이 너무 심하고 효율성이 매우 낮습니다).

공통 솔루션

1. sphinx + coreseek

장점: 성숙하고 안정적인 기술#🎜🎜 ## 🎜🎜#단점 : 스핑크스는 중국어 coressk를 지원하지 않으며 현재 유지보수가 중단되었습니다. [순수한 영어 환경이라면 스핑크스는 훌륭합니다]

2, Xunsearch(Xunsearch)#🎜🎜 ## 🎜🎜#

장점: 성숙하고 안정적인 기술단점: 설치 과정이 복잡하고 구성이 충분히 유연하지 않음

3 .mysql 전체 텍스트 검색#🎜🎜 #

장점: 쉬운 설치 및 높은 효율성

단점: 중국어 지원에 충분하지 않음

Solution from hcoder(단어 분할 + 독립적 구성)

장점: 간단한 설치(php 구성 요소), 하단 레이어는 개발자가 직접 작성, 하단 레이어가 더 명확하고 최적화가 더 쉬움

단점: 개발자는 PHP + mysql 기반이 필요하며 전체 프로세스에 대한 코드를 직접 작성해야 합니다

Principle

1、获取词语环节
文章数据表 -> 逐行读取文章信息 -> 组合所有文字内容 -> 分词、去重 -> 记录到新的数据表
2、搜索环节
搜索关键字记录表 -> 合并文章数据 -> 去重 -> 展示数据

#🎜🎜 #사용된 타사 구성 요소(scws)

http://www.xunsearch.com/scws/

SCWS는 Simple Chinese Word Segmentation(예: Simple Chinese Word Segmentation System)의 약어입니다.

이것은 단어 빈도 사전을 기반으로 한 기계적인 중국어 단어 분할 엔진으로, 기본적으로 중국어 텍스트의 전체 단락을 단어로 정확하게 분할할 수 있습니다. 단어는 중국어에서 가장 작은 형태소 단위이지만, 쓰여지면 영어처럼 단어를 공백으로 구분하지 않기 때문에 단어를 정확하고 빠르게 분할하는 방법은 중국어 단어 분할에서 항상 어려운 문제였습니다. SCWS는 순수 C 언어로 개발되었으며 외부 라이브러리 기능에 의존하지 않고 동적 링크 라이브러리를 직접 사용하여 GBK, UTF-8 등의 중국어 인코딩을 포함할 수 있습니다. 또한, PHP에서 단어 분할 기능을 빠르고 쉽게 사용할 수 있도록 PHP 확장 모듈을 제공합니다.

단어 분할 알고리즘에는 혁신적인 요소가 많지 않습니다. 자체적으로 수집한 단어 빈도 사전에 특정 고유명사, 인명, 지명, 디지털 연령 및 기타 규칙 인식을 추가하여 사용합니다. 기본 단어 분할을 달성합니다. 소규모 테스트 후 정확도는 90%~95%이며, 이는 기본적으로 일부 소규모 검색 엔진, 키워드 추출 및 기타 상황의 요구를 충족할 수 있습니다. 첫 번째 프로토타입 버전은 2005년 말에 출시되었습니다.

SCWS는 hightman에 의해 개발되었으며 BSD 라이선스에 따라 오픈 소스로 출시되었습니다. 소스 코드는 github에서 호스팅됩니다.

위 내용은 PHP에서 중국어 전체 텍스트 검색을 구현하는 원칙 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 hcoder에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

세션 고정 공격을 어떻게 방지 할 수 있습니까?Apr 28, 2025 am 12:25 AM

세션 고정 공격을 방지하는 효과적인 방법은 다음과 같습니다. 1. 사용자 로그인 한 후 세션 ID 재생; 2. 보안 세션 ID 생성 알고리즘을 사용하십시오. 3. 세션 시간 초과 메커니즘을 구현하십시오. 4. HTTPS를 사용한 세션 데이터를 암호화합니다. 이러한 조치는 세션 고정 공격에 직면 할 때 응용 프로그램이 파괴 할 수 없도록 할 수 있습니다.

세션리스 인증을 어떻게 구현합니까?Apr 28, 2025 am 12:24 AM

서버 측 세션 스토리지가없는 토큰에 저장되는 토큰 기반 인증 시스템 인 JSONWEBTOKENS (JWT)를 사용하여 세션없는 인증 구현을 수행 할 수 있습니다. 1) JWT를 사용하여 토큰을 생성하고 검증하십시오. 2) HTTPS가 토큰이 가로 채지 못하도록하는 데 사용되도록, 3) 클라이언트 측의 토큰을 안전하게 저장, 4) 변조 방지를 방지하기 위해 서버 측의 토큰을 확인하기 위해 단기 접근 메커니즘 및 장기 상쾌한 토큰을 구현하십시오.

PHP 세션의 보안 위험에는 주로 세션 납치, 세션 고정, 세션 예측 및 세션 중독이 포함됩니다. 1. HTTPS를 사용하고 쿠키를 보호하여 세션 납치를 방지 할 수 있습니다. 2. 사용자가 로그인하기 전에 세션 ID를 재생하여 세션 고정을 피할 수 있습니다. 3. 세션 예측은 세션 ID의 무작위성과 예측 불가능 성을 보장해야합니다. 4. 세션 중독 데이터를 확인하고 필터링하여 세션 중독을 방지 할 수 있습니다.

PHP 세션을 어떻게 파괴합니까?Apr 28, 2025 am 12:16 AM

PHP 세션을 파괴하려면 먼저 세션을 시작한 다음 데이터를 지우고 세션 파일을 파괴해야합니다. 1. 세션을 시작하려면 세션 _start ()를 사용하십시오. 2. Session_Unset ()을 사용하여 세션 데이터를 지우십시오. 3. 마지막으로 Session_Destroy ()를 사용하여 세션 파일을 파괴하여 데이터 보안 및 리소스 릴리스를 보장하십시오.

PHP의 기본 세션 저장 경로를 어떻게 변경할 수 있습니까?Apr 28, 2025 am 12:12 AM

PHP의 기본 세션 저장 경로를 변경하는 방법은 무엇입니까? 다음 단계를 통해 달성 할 수 있습니다. session_save_path를 사용하십시오 ( '/var/www/sessions'); session_start (); PHP 스크립트에서 세션 저장 경로를 설정합니다. php.ini 파일에서 세션을 설정하여 세션 저장 경로를 전 세계적으로 변경하려면 세션을 설정하십시오. memcached 또는 redis를 사용하여 ini_set ( 'session.save_handler', 'memcached')과 같은 세션 데이터를 저장합니다. ini_set (

PHP 세션에 저장된 데이터를 어떻게 수정합니까?Apr 27, 2025 am 12:23 AM

tomodifyDatainAphPessess, startSessionstession_start (), 그런 다음 $ _sessionToset, modify, orremovevariables.

PHP 세션에 배열을 저장하는 예를 제시하십시오.Apr 27, 2025 am 12:20 AM

배열은 PHP 세션에 저장할 수 있습니다. 1. 세션을 시작하고 session_start ()를 사용하십시오. 2. 배열을 만들고 $ _session에 저장하십시오. 3. $ _session을 통해 배열을 검색하십시오. 4. 세션 데이터를 최적화하여 성능을 향상시킵니다.

Garbage Collection은 PHP 세션에 어떻게 효과가 있습니까?Apr 27, 2025 am 12:19 AM

PHP 세션 쓰레기 수집은 만료 된 세션 데이터를 정리하기위한 확률 메커니즘을 통해 트리거됩니다. 1) 구성 파일에서 트리거 확률 및 세션 수명주기를 설정합니다. 2) CRON 작업을 사용하여 고재 응용 프로그램을 최적화 할 수 있습니다. 3) 데이터 손실을 피하기 위해 쓰레기 수집 빈도 및 성능의 균형을 맞춰야합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.