ホームページ  >  記事  >  バックエンド開発  >  PHPキャッシングはキーワード関数を自動的に取得して生成します

PHPキャッシングはキーワード関数を自動的に取得して生成します

WBOY
WBOYオリジナル
2016-06-13 13:23:50858ブラウズ

PHP には、キーワード
を自動的に取得して生成する機能が実装されています。私はこれまで、プログラムを作成する際にこの問題を回避してきました。一部の怠け者のために、プログラムを使用する人は自分でタグを入力する必要があります。同様の機能で記事キーワードを自動生成したり、記事タグを自動取得したりできる機能があると思います。 今回、新しいプロジェクトの準備のため、徹夜でこの機能をいじって勉強しました。
キーワード自動取得機能を実現するには、大きく3つのステップに分かれます
1. 単語分割アルゴリズムを使用して、タイトルと内容をそれぞれ分割し、キーワードと頻度を抽出します。現在、2 つの主要なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。 SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS が初めて「ICTCLAS 3.0」を使用 最初の単語分割処理には「共通版中国語単語分割アルゴリズム」のAPIを使用し、その後、自作の「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して単語を取得します。残念ながら、現時点では Linux システムはまだ
に移植されていません。 2. 抽出結果を既存のシソーラスと比較し、処理し、不要な単語を削除して、ルールに最もよく適合するキーワードを取得します。ここで重要なのは、辞書を調べることです。辞書を自分で定義することも、既存の成熟したシソーラスを使用することもできます。たとえば、Sina ブログや NetEase ブログにはこの機能があります。これらはすべて大きな Web サイトなので、単語の分割に適した単語ライブラリが必要です。また、小規模のプログラマーである私にとって、信頼できるシソーラスを入手することは不可能です。そのため、既存のオープンソース プログラムから始めて、見てみるしかありません。 .彼らの辞書。
3. 処理された抽出結果から最終的なキーワードとして適切なものを選択し、現在のコンテンツに最も適合するキーワードを取得することは、いずれにしても、具体的な状況を詳細に分析することは不可能です。人間の知性のレベルに達すること。せいぜい。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。
DEDECMS のワード セグメンテーション ソース コードは現在インターネット上で最も広く流通していますが、テストを行ったところ、非常に鈍く、効果が非常に低いことがわかりました。まずキーワードの長さを設定し、取得するキーワードの数を決定し、タイトルに分割された単語が必要なキーワードであると考えて単語を取得し、設定された長さに達するまでテキストからキーワードを読み取ります。 , 最後のキーワードです。さらに、「we」などの意味のない単語が削除されず、キーワードとしてリストされることが多すぎるため、スペースを含む HTML がキーワードとして抽出されることもあるため、改善が必要です。しかし、補助機能としては、すでに非常に優れています。 Discuz の方がわずかに優れていますが、discuz はソース コードを提供せず、オンライン API のみを提供します。
dede の単語分割にはいくつかのバージョンがありますが、出現頻度がすべてなので、dede5.7 の単語分割の結果と
を比較してみましょう。 テスト例:

  1. $title="THINKPHP は正式にバージョン 2.0 のサポートを停止します";
  2. $body=「ThinkPHP フレームワークの開発、保守、サポートを改善するために、2012 年 5 月 1 日から 2.0 およびそれ以前のバージョンを保守およびサポートすることを公式が発表しました。エネルギーを節約し、低炭素化するために、対応するバージョンもキャンセルします」
  3. 当時一緒に開発した ThinkPHP のバージョンを思い出してみましょう。
  4. ThinkPHP 2.0 のバージョンについて。 🎜>
  5. ThinkPHP は 2006 年に誕生し、WEB アプリケーションの迅速な開発に取り組んでおり、その 2.0 バージョンは 2009 年 10 月 1 日にリリースされ、以前の 1.* バージョンを新たに構築し、飛躍的に進化しました。は当時としては画期的なバージョンであり、新しいバージョンの基礎を築きましたが、同時にフレームワークの急速な更新と新しいバージョンのリリースにより、多くのユーザーグループと Web サイトが蓄積されました。 2.1、2.2、および 3.0 は、ThinkPHP の 3.0 時代の到来を告げるものであり、2.0 のライフサイクルは終わりを迎えました。しかし、基本的に 2.0 の多くの機能はバージョン 2.1 で継続または改良されており、比較的簡単に変更できます。バージョン 2.0 からバージョン 2.1 および 2.2 にアップグレードします。* 最終バージョンでは機能の更新は行われず、バグの修正のみが行われます。";

1. デデ分詞
結果は次のようにソートされます

  1. タイトル配列
  2. (
  3. [THINKPHP] => 1
  4. 【公式】 => 1
  5. [もうすぐ] => 1
  6. [停止] => 1
  7. [はい] => 1
  8. [2.0] => 1
  9. [バージョン] => 1
  10. [の] => 1
  11. [サポート] => 1
  12. )
  13. コンテンツ配列
  14. (
  15. [バージョン] => 12
  16. [の] => 12
  17. [そして] => 8
  18. [ThinkPHP] => 5
  19. [2.0] => 5
  20. [また] => 3
  21. [2.2] => 3
  22. [2.1] => 3
  23. [開発] => 3
  24. [3.0] => 2
  25. [はい] => 2
  26. [クイック] => 2
  27. [to] => 2
  28. [リリース] => 2
  29. [メンテナンス] => 2
  30. [前] => 2
  31. [了] => 2
  32. [新バージョン] => 2
  33. [サポート] => 2
  34. [フレーム] => 2
  35. [同時に] => 2
  36. [から] => 2
  37. *******

最終的に必要なキーワードを抽出するにはどうすればよいですか? 最初のアイデアは、まず「of」と「some」という単語を削除し、次に内容の順序に従ってコンテンツを並べ替え、タイトルに出現するかどうかを確認することです。このようにすると、一定の数の単語が取得できます。を最後のキーワードとして出します。その結果、
を取得できます。
  1. バージョン thinkphp 2.0 サポート 停止

5 つのキーワード。結果は許容範囲内のようです。
2. discuz を見ると、API を使用して取得するのは XML 文書であり、解析後に得られるキーワードは
です。
  1. の、高速、バージョン アップグレード、開発、ユーザー


5 つの単語、最初の単語は「的」....
2 つの方法を比較すると、最初の dede とその後の処理の方が文書の内容に近く、わずかに優れているはずです。一方、discuz は記事の主題からは逸脱しますが、取得される単語には一定の人気があります。 。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。