ホームページ >バックエンド開発 >PHPチュートリアル >PHPでキーワードを自動取得・生成する機能を実現_PHPチュートリアル
タグはすべてプログラムのユーザーによって入力される必要があります。一部の怠け者のために、またプログラムのエクスペリエンスのために、記事のキーワードを自動的に生成し、記事のタグを自動的に取得する同様の機能が欲しいと考えています。新しいプロジェクトを迎えるために、一晩中いじってこの機能を研究しました。
キーワード自動取得機能を実現するには、大きく分けて3つのステップに分かれます
1. 単語分割アルゴリズムを使用してタイトルと内容をそれぞれ分割し、キーワードと頻度を抽出します。現在、2 つの主要なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。 SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS は、最初の単語分割処理に「ICTCLAS 3.0 共通版中国語単語分割アルゴリズム」の API を使用し、その後、独自に作成した「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して、単語の分割処理を行います。単語の分割結果。残念ながら、現在は Linux システムのみをサポートしており、Win プラットフォームにはまだ移植されていません。
2. 抽出結果を既存のシソーラスと比較して処理し、不要な単語を削除して、ルールに最もよく適合するキーワードを取得します。ここで重要なのは、シソーラスを確認することです。シソーラスを自分で定義することも、既存の成熟したシソーラスを使用することもできます。たとえば、Sina ブログや NetEase ブログにはこの機能があります。これらはすべて大きな Web サイトであり、一介のプログラマーである私には信頼できるシソーラスを入手できないため、単語の分割に適した単語ライブラリがあるはずです。そのため、既存のオープン ソース プログラムから始めて、辞書を調べるしかありません。 。
3. 処理された抽出結果から適切なキーワードを最終的なキーワードとして選択し、現在の内容に最も適合するキーワードを取得します。この段階では、いずれにせよ、人間の知性を達成することはできません。せいぜい。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。
DEDECMS のワード セグメンテーション ソース コードは現在インターネット上で最も広く流通していますが、テストを行ったところ、非常に鈍く、効果が非常に低いことがわかりました。まずキーワードの長さを設定し、取得するキーワードの数を決定し、タイトルに分割された単語が必要なキーワードであると考えて単語を取得し、設定された長さに達するまでテキストからキーワードを読み取ります。 , 最後のキーワードです。さらに、「we」などの意味のない単語が削除されず、キーワードとしてリストされることが多すぎるため、スペースを含む HTML がキーワードとして抽出されることもあるため、改善が必要です。しかし、補助機能としては、すでに非常に優れています。 Discuz の方がわずかに優れていますが、discuz はソース コードを提供せず、オンライン API のみを提供します。
dede の単語分割にもいくつかのバージョンがあります。出現頻度がすべて揃っているので、最新バージョンが最適です。dede5.7 の単語分割の結果と discuz の API を比較してみましょう。
テスト例:
$body="ThinkPHP フレームワークの開発、保守、サポートを改善するため、2012 年 5 月 1 日以降、2.0 およびそれ以前のバージョンの保守とサポートが中止されると公式が発表しました。エネルギー節約と低炭素化のため、公式 Web サイト
から対応するバージョンとドキュメントをダウンロードしてください。
私たちが長年にわたって一緒に開発した ThinkPHP バージョンを思い出しましょう。
ThinkPHP バージョン 2.0 について
ThinkPHP は 2006 年に誕生し、WEB アプリケーションの迅速な開発に注力しており、2009 年 10 月 1 日にバージョン 2.0 がリリースされました。これは、以前のバージョン 1.* をさらに進化させた画期的なバージョンでした。新しいバージョンは基礎を築き、フレームワークの急速な更新と新しいバージョン 2.1、2.2、および 3.0 の連続リリースにより、多数のユーザー グループと Web サイトを蓄積しました。 ThinkPHP の 3.0 時代と 2.0 ライフサイクルの終了の発表。ただし、基本的に 2.0 の機能の多くはバージョン 2.1 で継続または改善されており、バージョン 2.0 からバージョン 2.1 および 2.2 へのアップグレードは比較的簡単です。バージョン 2.2 はバージョン 2.* の最終バージョンであり、機能の更新は行われず、バグの修正のみが行われます。 ";
結果は次のようにソートされます
(
[THINKPHP] => 1
【公式】=>1
[近日公開] =>1
[停止] => 1
[ペア] => 1
[2.0] => 1
[バージョン] => 1
[の] => 1
[サポート] => 1
)
コンテンツ配列
(
[バージョン] => 12
[の] => 12
[そして] => 8
[ThinkPHP] => 5
[2.0] => 5
[また] => 3
[2.2] => 3
[2.1] => 3
[開発] => 3
[3.0] => 2
[はい] =>2
[クイック] => 2
[へ] => 2
[リリース] =>2
[メンテナンス] =>2
[前] => 2
[了] => 2
[新バージョン] =>2
[サポート] =>2
[フレーム] => 2
[同時に] => 2
[から] => 2
*******
最終的に必要なキーワードを抽出するにはどうすればよいですか? 最初のアイデアとしては、まず「of」と「some」という単語を削除し、内容の順序に従ってコンテンツを並べ替え、タイトルに出現するかどうかを確認します。このようにすると、ある程度の単語が取得できます。最後のキーワードとして出てきます。上記の結果が得られます
バージョン thinkphp 2.0 サポート停止
5つのキーワード。結果はまだ許容範囲内のようです。
2. discuz を見ると、API を使用して取得するのは XML ドキュメントであり、解析後に取得されるキーワードは
の、速い、バージョンアップグレード、開発、ユーザー
5つの単語、最初の単語は「的」です......
2 つの方法を比較すると、最初の dede+ の後続処理の方が文書の内容に近く、わずかに優れていることがわかります。一方、discuz は記事の主題から逸脱しますが、取得される単語には一定の人気があります。