ホームページ  >  記事  >  バックエンド開発  >  PHPでキーワードを自動取得する方法 CMS_PHPチュートリアル

PHPでキーワードを自動取得する方法 CMS_PHPチュートリアル

WBOY
WBOYオリジナル
2016-07-15 13:30:21773ブラウズ

正しい学習方法PHP CMS はどのようにしてキーワードを自動的に取得しますか? 主なステップは次の 3 つのステップに分けることができます:

1. PHP CMS は、単語分割アルゴリズムを通じて、キーワードと頻度を抽出します。

コンテンツの単語分割段階では、現在、2 つの主要なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。

SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。

HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS は、最初の単語分割処理に「ICTCLAS 3.0 共通版中国語単語分割アルゴリズム」の API を使用し、その後、独自に作成した「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して、単語の分割処理を行います。単語の分割結果。現在、Linux/Unix システムのみがサポートされています。

2. PHP CMS は抽出結果を既存のシソーラスと比較して、ルールに最もよく準拠するキーワードを取得します

ここで重要なのは、シソーラスを独自に定義することも、既存のシソーラスを使用することもできます。シソーラスの成熟した辞書。

3. 次に、PHP CMS は 2 つのキーワード セットを比較して、現在のコンテンツに最も適合するキーワードを取得します。

この段階で、特定の状況が詳細に分析されます。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。その中で、DEDECMS の単語分割ソース コードは、インターネット上で最も広く流通しています。私も POPCMS でテストしましたが、「we」のような意味のない単語がキーワードとして抽出され、リストされる頻度は非常に良好でした。が高すぎて、スペースを含む HTML がキーワードとして使用されることもあるため、早急に改善する必要があります。しかし、補助機能としては、すでに非常に優れています。

また、PHP CMSやDISCUZのキーワード自動抽出機能も非常に強力です。


www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/446301.html技術記事 PHP CMS がキーワードを自動的に取得する方法を正しく学習するにはどうすればよいですか? 主なステップは次の 3 つのステップに分けることができます: 1. PHP CMS は単語分割アルゴリズムを通じてタイトルとコンテンツを分離します...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。