PHP には、キーワード
を自動的に取得して生成する機能が実装されています。私はこれまで、プログラムを作成する際にこの問題を回避してきました。一部の怠け者のために、プログラムを使用する人は自分でタグを入力する必要があります。同様の機能で記事キーワードを自動生成したり、記事タグを自動取得したりできる機能があると思います。 今回、新しいプロジェクトの準備のため、徹夜でこの機能をいじって勉強しました。
キーワード自動取得機能を実現するには、大きく3つのステップに分かれます
1. 単語分割アルゴリズムを使用して、タイトルと内容をそれぞれ分割し、キーワードと頻度を抽出します。現在、2 つの主要なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。 SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS が初めて「ICTCLAS 3.0」を使用
最初の単語分割処理には「共通版中国語単語分割アルゴリズム」のAPIを使用し、その後、自作の「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して単語を取得します。残念ながら、現時点では Linux システムはまだ
に移植されていません。
2. 抽出結果を既存のシソーラスと比較し、処理し、不要な単語を削除して、ルールに最もよく適合するキーワードを取得します。ここで重要なのは、辞書を調べることです。辞書を自分で定義することも、既存の成熟したシソーラスを使用することもできます。たとえば、Sina ブログや NetEase ブログにはこの機能があります。これらはすべて大きな Web サイトなので、単語の分割に適した単語ライブラリが必要です。また、小規模のプログラマーである私にとって、信頼できるシソーラスを入手することは不可能です。そのため、既存のオープンソース プログラムから始めて、見てみるしかありません。 .彼らの辞書。
3. 処理された抽出結果から最終的なキーワードとして適切なものを選択し、現在のコンテンツに最も適合するキーワードを取得することは、いずれにしても、具体的な状況を詳細に分析することは不可能です。人間の知性のレベルに達すること。せいぜい。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。
DEDECMS のワード セグメンテーション ソース コードは現在インターネット上で最も広く流通していますが、テストを行ったところ、非常に鈍く、効果が非常に低いことがわかりました。まずキーワードの長さを設定し、取得するキーワードの数を決定し、タイトルに分割された単語が必要なキーワードであると考えて単語を取得し、設定された長さに達するまでテキストからキーワードを読み取ります。 , 最後のキーワードです。さらに、「we」などの意味のない単語が削除されず、キーワードとしてリストされることが多すぎるため、スペースを含む HTML がキーワードとして抽出されることもあるため、改善が必要です。しかし、補助機能としては、すでに非常に優れています。 Discuz の方がわずかに優れていますが、discuz はソース コードを提供せず、オンライン API のみを提供します。
dede の単語分割にはいくつかのバージョンがありますが、出現頻度がすべてなので、dede5.7 の単語分割の結果と
を比較してみましょう。
テスト例:
5 つの単語、最初の単語は「的」....
2 つの方法を比較すると、最初の dede とその後の処理の方が文書の内容に近く、わずかに優れているはずです。一方、discuz は記事の主題からは逸脱しますが、取得される単語には一定の人気があります。 。