PHP での中国語全文検索の実装原理の紹介-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP での中国語全文検索の実装原理の紹介

藏色散人

Apr 26, 2019 am 10:48 AM

php

一般的な開発ではキーワードタグやタイトルなどで関連する記事やコンテンツを検索しますが、基本的に非効率なlike文を使用した検索となりますので、効率が悪いため、少し大きなプロジェクトの開発では記事やコンテンツの詳細なフィールド検索ができません。関連コンテンツ (サーバーに過大な負荷がかかり、効率が非常に低くなります)。

一般的なソリューション

1. sphinx coreseek

利点: 成熟した安定したテクノロジー

欠点: sphinx は中国語の coressk をサポートしていません。は現在メンテナンスを停止しています [純粋な英語環境なら sphinx が優れています]

2. Xunsearch(Xunsearch)

利点: 成熟した安定した技術

欠点: インストールプロセスが複雑で、構成が十分に柔軟ではない

3. Mysql 全文検索

利点: 簡単なインストールと高い効率

短所: はい、中国語のサポートは十分ではありません

hcoder による解決策 (自己構成の単語分割)

長所: 簡単なインストール (php コンポーネント)、最下層は記述されています開発者自身によるより明確な最下層、より簡単な最適化

欠点: 開発者は PHP mysql 基盤を持っている必要があり、プロセス全体のコードを自分で記述する必要があります

原則

1、获取词语环节
文章数据表 -> 逐行读取文章信息 -> 组合所有文字内容 -> 分词、去重 -> 记录到新的数据表
2、搜索环节
搜索关键字记录表 -> 合并文章数据 -> 去重 -> 展示数据

サードパーティが使用したコンポーネント (scws)

http://www.xunsearch.com/scws/

SCWS は、Simple Chinese Word Segmentation (つまり、Simple Chinese Word Segmentation System) の頭字語です。

これは、単語頻度辞書に基づいた機械的な中国語単語分割エンジンであり、基本的に中国語テキストの段落全体を単語に正しく分割できます。 Word は中国語の最小の形態素単位ですが、英語のように単語をスペースで区切らずに表記するため、中国語の単語分割ではいかに正確かつ迅速に単語を分割するかが常に難しい問題でした。

SCWS は純粋な C 言語で開発されており、外部ライブラリ関数に依存しません。ダイナミックリンクライブラリを直接使用してアプリケーションを埋め込むことができます。サポートされている中国語エンコーディングには、GBK、UTF-8 などが含まれます。さらに、PHP の単語分割機能を迅速かつ簡単に使用できるように、PHP 拡張モジュールが提供されています。

単語分割アルゴリズムには革新的な要素はあまりありませんが、独自に収集した単語頻度辞書を使用し、特定の固有名、人名、地名、デジタル時代、その他のルール認識を補完して、基本的な認識を実現します。範囲テストの精度は 90% ～ 95% であり、基本的に一部の小規模な検索エンジン、キーワード抽出などのニーズを満たすことができます。最初のプロトタイプバージョンは 2005 年末にリリースされました。

SCWS は hightman によって開発され、BSD ライセンスの下でオープンソースとしてリリースされ、ソースコードは github でホストされています。

以上がPHP での中国語全文検索の実装原理の紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事はhcoderで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

セッション固定攻撃をどのように防ぐことができますか？Apr 28, 2025 am 12:25 AM

セッション固定攻撃を防ぐための効果的な方法には、次のものがあります。1。ユーザーがログインした後にセッションIDを再生します。 2。安全なセッションID生成アルゴリズムを使用します。 3。セッションタイムアウトメカニズムを実装します。 4。HTTPSを使用したセッションデータを暗号化します。これらの措置は、セッションの固定攻撃に直面するときにアプリケーションが破壊されないようにすることができます。

セッションレス認証をどのように実装しますか？Apr 28, 2025 am 12:24 AM

セッションのない認証の実装は、サーバー側のセッションストレージなしですべての必要な情報がトークンに保存されるトークンベースの認証システムであるJSonWebtokens（JWT）を使用することで実現できます。 1）JWTを使用してトークンを生成および検証する、2）トークンが傍受されるのを防ぐためにHTTPSが使用されることを確認する、3）クライアント側にトークンを安全に保存する、4）改ざんを防ぐためにサーバー側のトークンを検証する、5）短期アクセスや長期的なリフレイを使用するなどのトークンの取り消しメカニズムを実装する。

PHPセッションのセキュリティリスクには、主にセッションハイジャック、セッションの固定、セッション予測、およびセッション中毒が含まれます。 1。HTTPSを使用してCookieを保護することにより、セッションハイジャックを防ぐことができます。 2。ユーザーがログインする前にセッションIDを再生することにより、セッションの固定を回避できます。3。セッションの予測は、セッションIDのランダム性と予測不可能性を確保する必要があります。 4.セッションの中毒は、セッションデータを確認およびフィルタリングすることで防ぐことができます。

PHPセッションをどのように破壊しますか？Apr 28, 2025 am 12:16 AM

PHPセッションを破壊するには、最初にセッションを開始してから、データをクリアしてセッションファイルを破壊する必要があります。 1。Session_start（）を使用してセッションを開始します。 2。Session_unset（）を使用して、セッションデータをクリアします。 3.最後に、session_destroy（）を使用してセッションファイルを破壊して、データのセキュリティとリソースのリリースを確保します。

PHPのデフォルトセッションの保存パスをどのように変更できますか？Apr 28, 2025 am 12:12 AM

PHPのデフォルトセッションの保存パスを変更する方法は？次の手順で達成できます。Session_save_path（ '/var/www/sessions'）; session_start（）; PHPスクリプトで、セッション保存パスを設定します。 session.save_path = "/var/www/sessions"をphp.iniファイルに設定して、セッションの保存パスをグローバルに変更します。 memcachedまたはredisを使用して、ini_set（ 'session.save_handler'、 'memcached'）などのセッションデータを保存します。 ini_set（

PHPセッションに保存されているデータをどのように変更しますか？Apr 27, 2025 am 12:23 AM

tomodifydatainaphpsession、starthessession withsession_start（）、$ _sessiontoset、modify、orremovevariables.1）startthessession.2）

PHPセッションに配列を保存する例を示します。Apr 27, 2025 am 12:20 AM

配列はPHPセッションに保存できます。 1。セッションを開始し、session_start（）を使用します。 2。配列を作成し、$ _Sessionで保存します。 3. $ _Sessionを介して配列を取得します。 4.セッションデータを最適化してパフォーマンスを向上させます。

Garbage CollectionはPHPセッションでどのように機能しますか？Apr 27, 2025 am 12:19 AM

PHPセッションガベージコレクションは、有効期限が切れたセッションデータをクリーンアップするために確率メカニズムを通じてトリガーされます。 1）構成ファイルにトリガー確率とセッションのライフサイクルを設定します。 2）Cronタスクを使用して、高負荷アプリケーションを最適化できます。 3）データの損失を避けるために、ごみ収集の頻度とパフォーマンスのバランスを取る必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。