ホームページ  >  記事  >  バックエンド開発  >  PHP_PHP チュートリアルでキーワードを自動的に取得する具体的な方法についての詳細な説明

PHP_PHP チュートリアルでキーワードを自動的に取得する具体的な方法についての詳細な説明

WBOY
WBOYオリジナル
2016-07-15 13:31:141102ブラウズ

現在取り組んでいます今ではどのCMSにも収集機能が組み込まれており、コンテンツやタイトルの処理は比較的簡単ですが、キーワードの抽出は困難な場合がほとんどです。そのため、キーワードの自動取得は現在のPHPベースCMSにおける「伝統的な問題」となっています。

では、キーワードを自動的に取得するために PHP を実装するにはどうすればよいでしょうか? 主なステップは次の 3 つのステップに分けることができます:

PHP はキーワードを自動的に取得します 1. 単語分割アルゴリズムを使用して、タイトルとコンテンツをそれぞれ分割し、キーワードを抽出します。キーワードと頻度

コンテンツの単語分割段階では、現在 2 つの主なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。

SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。

PHPCWSは、最初の単語分割処理に「ICTCLAS 3.0共有版中国語単語分割アルゴリズム」のAPIを使用し、その後、独自に作成した「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して、単語の分割結果。現在、Linux/Unix システムのみがサポートされています。

PHP は自動的にキーワード 2 を取得し、抽出結果を既存のシソーラスと比較し、ルールに最もよく適合するキーワードを取得します

ここで重要なことは、シソーラスを自分で定義することも、使用することもできます。既存の成熟した辞書。

PHP はキーワード 3 を自動的に取得し、2 つのキーワード セットを比較して、現在のコンテンツに最も一致するキーワードを取得します。

この段階では、特定の状況を詳細に分析します。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。その中で、DEDECMS の単語分割ソース コードはインターネット上で最も広く流通しています。私も POPCMS でテストしましたが、その効果は非常に良好でした。ただし、「we」などの意味のない単語が抽出される頻度が高くなります。キーワードとしてリストされている文字数が多すぎ、スペースを含む HTML がキーワードとして使用される場合もあるため、早急に改善する必要があります。しかし、補助機能としては、すでに非常に優れています。
さらに、キーワードを自動的に取得するPHPCMSとDISCUZのPHP機能も非常に強力です。


www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/446232.html技術記事現在開発しているCMSはいずれも収集機能が組み込まれており、コンテンツやタイトルは比較的扱いやすいのですが、キーワードの抽出が難しい場合がほとんどです。そこでキーワードを自動取得するのが現状になります...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。