検索
ホームページバックエンド開発PHPチュートリアルPHPキャッシングはキーワード関数を自動的に取得して生成します

PHP には、キーワード
を自動的に取得して生成する機能が実装されています。私はこれまで、プログラムを作成する際にこの問題を回避してきました。一部の怠け者のために、プログラムを使用する人は自分でタグを入力する必要があります。同様の機能で記事キーワードを自動生成したり、記事タグを自動取得したりできる機能があると思います。 今回、新しいプロジェクトの準備のため、徹夜でこの機能をいじって勉強しました。
キーワード自動取得機能を実現するには、大きく3つのステップに分かれます
1. 単語分割アルゴリズムを使用して、タイトルと内容をそれぞれ分割し、キーワードと頻度を抽出します。現在、2 つの主要なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。 SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS が初めて「ICTCLAS 3.0」を使用 最初の単語分割処理には「共通版中国語単語分割アルゴリズム」のAPIを使用し、その後、自作の「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して単語を取得します。残念ながら、現時点では Linux システムはまだ
に移植されていません。 2. 抽出結果を既存のシソーラスと比較し、処理し、不要な単語を削除して、ルールに最もよく適合するキーワードを取得します。ここで重要なのは、辞書を調べることです。辞書を自分で定義することも、既存の成熟したシソーラスを使用することもできます。たとえば、Sina ブログや NetEase ブログにはこの機能があります。これらはすべて大きな Web サイトなので、単語の分割に適した単語ライブラリが必要です。また、小規模のプログラマーである私にとって、信頼できるシソーラスを入手することは不可能です。そのため、既存のオープンソース プログラムから始めて、見てみるしかありません。 .彼らの辞書。
3. 処理された抽出結果から最終的なキーワードとして適切なものを選択し、現在のコンテンツに最も適合するキーワードを取得することは、いずれにしても、具体的な状況を詳細に分析することは不可能です。人間の知性のレベルに達すること。せいぜい。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。
DEDECMS のワード セグメンテーション ソース コードは現在インターネット上で最も広く流通していますが、テストを行ったところ、非常に鈍く、効果が非常に低いことがわかりました。まずキーワードの長さを設定し、取得するキーワードの数を決定し、タイトルに分割された単語が必要なキーワードであると考えて単語を取得し、設定された長さに達するまでテキストからキーワードを読み取ります。 , 最後のキーワードです。さらに、「we」などの意味のない単語が削除されず、キーワードとしてリストされることが多すぎるため、スペースを含む HTML がキーワードとして抽出されることもあるため、改善が必要です。しかし、補助機能としては、すでに非常に優れています。 Discuz の方がわずかに優れていますが、discuz はソース コードを提供せず、オンライン API のみを提供します。
dede の単語分割にはいくつかのバージョンがありますが、出現頻度がすべてなので、dede5.7 の単語分割の結果と
を比較してみましょう。 テスト例:

  1. $title="THINKPHP は正式にバージョン 2.0 のサポートを停止します";
  2. $body=「ThinkPHP フレームワークの開発、保守、サポートを改善するために、2012 年 5 月 1 日から 2.0 およびそれ以前のバージョンを保守およびサポートすることを公式が発表しました。エネルギーを節約し、低炭素化するために、対応するバージョンもキャンセルします」
  3. 当時一緒に開発した ThinkPHP のバージョンを思い出してみましょう。
  4. ThinkPHP 2.0 のバージョンについて。 🎜>
  5. ThinkPHP は 2006 年に誕生し、WEB アプリケーションの迅速な開発に取り組んでおり、その 2.0 バージョンは 2009 年 10 月 1 日にリリースされ、以前の 1.* バージョンを新たに構築し、飛躍的に進化しました。は当時としては画期的なバージョンであり、新しいバージョンの基礎を築きましたが、同時にフレームワークの急速な更新と新しいバージョンのリリースにより、多くのユーザーグループと Web サイトが蓄積されました。 2.1、2.2、および 3.0 は、ThinkPHP の 3.0 時代の到来を告げるものであり、2.0 のライフサイクルは終わりを迎えました。しかし、基本的に 2.0 の多くの機能はバージョン 2.1 で継続または改良されており、比較的簡単に変更できます。バージョン 2.0 からバージョン 2.1 および 2.2 にアップグレードします。* 最終バージョンでは機能の更新は行われず、バグの修正のみが行われます。";

1. デデ分詞
結果は次のようにソートされます

  1. タイトル配列
  2. (
  3. [THINKPHP] => 1
  4. 【公式】 => 1
  5. [もうすぐ] => 1
  6. [停止] => 1
  7. [はい] => 1
  8. [2.0] => 1
  9. [バージョン] => 1
  10. [の] => 1
  11. [サポート] => 1
  12. )
  13. コンテンツ配列
  14. (
  15. [バージョン] => 12
  16. [の] => 12
  17. [そして] => 8
  18. [ThinkPHP] => 5
  19. [2.0] => 5
  20. [また] => 3
  21. [2.2] => 3
  22. [2.1] => 3
  23. [開発] => 3
  24. [3.0] => 2
  25. [はい] => 2
  26. [クイック] => 2
  27. [to] => 2
  28. [リリース] => 2
  29. [メンテナンス] => 2
  30. [前] => 2
  31. [了] => 2
  32. [新バージョン] => 2
  33. [サポート] => 2
  34. [フレーム] => 2
  35. [同時に] => 2
  36. [から] => 2
  37. *******

最終的に必要なキーワードを抽出するにはどうすればよいですか? 最初のアイデアは、まず「of」と「some」という単語を削除し、次に内容の順序に従ってコンテンツを並べ替え、タイトルに出現するかどうかを確認することです。このようにすると、一定の数の単語が取得できます。を最後のキーワードとして出します。その結果、
を取得できます。
  1. バージョン thinkphp 2.0 サポート 停止

5 つのキーワード。結果は許容範囲内のようです。
2. discuz を見ると、API を使用して取得するのは XML 文書であり、解析後に得られるキーワードは
です。
  1. の、高速、バージョン アップグレード、開発、ユーザー


5 つの単語、最初の単語は「的」....
2 つの方法を比較すると、最初の dede とその後の処理の方が文書の内容に近く、わずかに優れているはずです。一方、discuz は記事の主題からは逸脱しますが、取得される単語には一定の人気があります。 。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
セッションに関連するクロスサイトスクリプティング(XSS)攻撃からどのように保護できますか?セッションに関連するクロスサイトスクリプティング(XSS)攻撃からどのように保護できますか?Apr 23, 2025 am 12:16 AM

セッション関連のXSS攻撃からアプリケーションを保護するには、次の測定が必要です。1。セッションCookieを保護するためにHTTPonlyとセキュアフラグを設定します。 2。すべてのユーザー入力のエクスポートコード。 3.コンテンツセキュリティポリシー(CSP)を実装して、スクリプトソースを制限します。これらのポリシーを通じて、セッション関連のXSS攻撃を効果的に保護し、ユーザーデータを確保できます。

PHPセッションのパフォーマンスを最適化するにはどうすればよいですか?PHPセッションのパフォーマンスを最適化するにはどうすればよいですか?Apr 23, 2025 am 12:13 AM

PHPセッションのパフォーマンスを最適化する方法は次のとおりです。1。遅延セッション開始、2。データベースを使用してセッションを保存します。これらの戦略は、高い並行性環境でのアプリケーションの効率を大幅に改善できます。

session.gc_maxlifetime構成設定とは何ですか?session.gc_maxlifetime構成設定とは何ですか?Apr 23, 2025 am 12:10 AM

thesession.gc_maxlifettinginttinginphpdethinesthelifsessessiondata、setinseconds.1)it'sconfiguredinphp.iniorviaini_set()。 2)AbalanceSneededToAvoidPerformanceIssues andunexpectedLogouts.3)php'sgarbagecollectionisisprobabilistic、影響を受けたBygc_probabi

PHPでセッション名をどのように構成しますか?PHPでセッション名をどのように構成しますか?Apr 23, 2025 am 12:08 AM

PHPでは、session_name()関数を使用してセッション名を構成できます。特定の手順は次のとおりです。1。session_name()関数を使用して、session_name( "my_session")などのセッション名を設定します。 2。セッション名を設定した後、session_start()を呼び出してセッションを開始します。セッション名の構成は、複数のアプリケーション間のセッションデータの競合を回避し、セキュリティを強化することができますが、セッション名の一意性、セキュリティ、長さ、設定タイミングに注意してください。

セッションIDをどのくらいの頻度で再生する必要がありますか?セッションIDをどのくらいの頻度で再生する必要がありますか?Apr 23, 2025 am 12:03 AM

セッションIDは、機密操作の前、30分ごとにログイン時に定期的に再生する必要があります。 1.セッション固定攻撃を防ぐためにログインするときにセッションIDを再生します。 2。安全性を向上させるために、敏感な操作の前に再生します。 3.定期的な再生は長期的な利用リスクを減らしますが、ユーザーエクスペリエンスの重量を量る必要があります。

PHPでセッションCookieパラメーターをどのように設定しますか?PHPでセッションCookieパラメーターをどのように設定しますか?Apr 22, 2025 pm 05:33 PM

PHPのセッションCookieパラメーターの設定は、session_set_cookie_params()関数を通じて達成できます。 1)この関数を使用して、有効期限、パス、ドメイン名、セキュリティフラグなどのパラメーターを設定します。 2)session_start()を呼び出して、パラメーターを有効にします。 3)ユーザーログインステータスなど、ニーズに応じてパラメーターを動的に調整します。 4)セキュリティを改善するために、セキュアとhttponlyフラグを設定することに注意してください。

PHPでセッションを使用する主な目的は何ですか?PHPでセッションを使用する主な目的は何ですか?Apr 22, 2025 pm 05:25 PM

PHPでセッションを使用する主な目的は、異なるページ間でユーザーのステータスを維持することです。 1)セッションはsession_start()関数を介して開始され、一意のセッションIDを作成し、ユーザーCookieに保存します。 2)セッションデータはサーバーに保存され、ログインステータスやショッピングカートのコンテンツなど、さまざまなリクエスト間でデータを渡すことができます。

サブドメイン間でセッションをどのように共有できますか?サブドメイン間でセッションをどのように共有できますか?Apr 22, 2025 pm 05:21 PM

サブドメイン間でセッションを共有する方法は?一般的なドメイン名にセッションCookieを設定することにより実装されます。 1.セッションCookieのドメインをサーバー側の.example.comに設定します。 2。メモリ、データベース、分散キャッシュなど、適切なセッションストレージ方法を選択します。 3. Cookieを介してセッションIDを渡すと、サーバーはIDに基づいてセッションデータを取得および更新します。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!