最近の CMS には収集機能が組み込まれており、コンテンツやタイトルは比較的簡単に処理できますが、キーワードを抽出するのは困難な場合がほとんどです。そのため、キーワードの自動取得は現在のPHPベースCMSにおける「伝統的な問題」となっています。では、どのようにしてキーワードを自動的に取得できるのでしょうか? 主なステップは次の 3 つのステップに分けることができます:
1. 単語分割アルゴリズムを使用してタイトルとコンテンツをそれぞれ分割し、コンテンツの単語分割段階で、現在 2 つの主要なアルゴリズムは中国科学院の ICTCLAS と Hidden Markov です。モデル。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。 SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS は、最初の単語分割処理に「ICTCLAS 3.0 共通版中国語単語分割アルゴリズム」の API を使用し、その後、独自に作成した「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して、単語の分割処理を行います。単語の分割結果。現在、Linux/Unix システムのみがサポートされています。
2. 抽出結果を既存のシソーラスと比較して、ルールに最も適合するキーワードを取得します。ここで重要なのは、シソーラスを自分で定義することも、既存の成熟したシソーラスを使用することもできます。
3. 次に、2 つのキーワード セットを比較して、現在のコンテンツに最も一致するキーワードを取得します。この段階では、特定の状況を詳細に分析します。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。その中で、DEDECMS の単語分割ソース コードはインターネット上で最も広く流通しています。私も POPCMS でテストしましたが、その効果は非常に良好でした。ただし、「we」のような意味のない単語が抽出されてリストされる頻度が高かったです。キーワードとしての値が高すぎ、スペースを含む HTML がキーワードとして使用されることもあるため、早急に改善する必要があります。しかし、補助機能としては、すでに非常に優れています。また、PHPCMSやDISCUZのキーワード自動抽出機能も非常に強力です。