PHPの記事トピックキーワード自動取得・生成機能を徹底分析_PHPチュートリアル
私はこれまでプログラムを書くときにこの問題を避けてきました。プログラムを使用する人は、一部の怠け者やプログラムの経験のために、記事のキーワードを自動的に生成し、記事のタグを自動的に取得することを望んでいます。同様の機能ですが、今回は新しいプロジェクトの準備のため、一晩中いじってこの機能を勉強しました。
キーワード自動取得機能を実現するには、大きく3つのステップに分かれます
1. 単語分割アルゴリズムを使用してタイトルと内容をそれぞれ分割し、キーワードと頻度を抽出します。 現在の 2 つの主要なアルゴリズムは、中国科学院の ICTCLAS と隠れマルコフ モデルです。しかし、どちらもハイエンドすぎるため、一定のしきい値があり、どちらも C++/JAVA のみをサポートしています。現在、PHP ベースの PSCWS と HTTPCWS の 2 つが推奨されています。 SCWS は 2008 年 3 月 8 日に正式バージョン 1.0.0 をリリースし、現在最新バージョンは 1.0.4 です。 PSCWS はその PHP バージョンです。 HTTPCWS は Zhang Yan によって開発され、以前は PHPCWS と呼ばれていました。 PHPCWS は、最初の単語分割処理に「ICTCLAS 3.0 共通版中国語単語分割アルゴリズム」の API を使用し、その後、独自に作成した「逆最大一致アルゴリズム」を使用して単語の分割と結合を行い、句読点フィルタリング機能を追加して、単語の分割処理を行います。単語の分割結果。残念ながら、現在は Linux システムのみをサポートしており、Win プラットフォームにはまだ移植されていません。
2. 抽出結果を既存の辞書と比較し、不要な単語を処理して削除し、ルールに最もよく適合するキーワードを取得します。 ここで重要なのは、シソーラスを確認することです。シソーラスを自分で定義することも、既存の成熟したシソーラスを使用することもできます。たとえば、Sina ブログや NetEase ブログにはこの機能があります。これらはすべて大きな Web サイトであり、一介のプログラマーである私には信頼できるシソーラスを入手できないため、単語の分割に適した単語ライブラリがあるはずです。そのため、既存のオープン ソース プログラムから始めて、辞書を調べるしかありません。 。
3. 処理された抽出結果から最終的なキーワードとして適切なものを選択し、現在のコンテンツに最も適合するキーワードを取得します。いずれにしても、特定の状況を詳細に分析することは不可能です。人間の知性のレベルに達する。せいぜい。現在、すべての PHP CMS には独自のキーワード抽出システムがあります。 DEDECMS のワード セグメンテーション ソース コードは現在インターネット上で最も広く流通していますが、テストを行ったところ、非常に鈍く、効果が非常に低いことがわかりました。まずキーワードの長さを設定し、取得するキーワードの数を決定し、タイトルに分割された単語が必要なキーワードであると考えて単語を取得し、設定された長さに達するまでテキストからキーワードを読み取ります。 , 最後のキーワードです。さらに、「we」などの意味のない単語が削除されず、キーワードとしてリストされることが多すぎるため、スペースを含む HTML がキーワードとして抽出されることもあるため、改善が必要です。しかし、補助機能としては、すでに非常に優れています。 Discuz の方がわずかに優れていますが、discuz はソース コードを提供せず、オンライン API のみを提供します。
dede の単語分割にはいくつかのバージョンがあります。出現頻度がすべて揃っているのが最新バージョンです。
テスト例:
$title="THINKPHP はバージョン 2.0 のサポートを正式に終了します";$body="ThinkPHP フレームワークの開発、保守、サポートを改善するために、2012 年 5 月 1 日からバージョン 2.0 のサポートを終了すると公式が発表しました。 2.0 およびそれ以前のバージョンのサポートは、省エネと低炭素化のため、公式 Web サイトからの対応バージョンとドキュメントのダウンロードも中止されます。
当時一緒に開発した ThinkPHP のバージョンを思い出してください。
ThinkPHP 2.0 について。バージョン
ThinkPHP の誕生 2006 年、WEB アプリケーションの迅速な開発に注力し、その 2.0 バージョンが 2009 年 10 月 1 日にリリースされました。それは、以前の 1.* バージョンを新たに再構築し、飛躍的に進化しました。当時としては画期的なバージョンであり、新しいバージョンの基礎を築き、フレームワークの急速な更新と新しいバージョン 2.1、2.2 の連続リリースにより、多くのユーザー グループと Web サイトが構築されました。 3.0 は、ThinkPHP の 3.0 時代の到来と 2.0 ライフサイクルの終わりを告げるものですが、基本的に 2.0 の多くの機能はバージョン 2.1 で継続または改良されており、バージョン 2.0 からバージョン 2.1 および 2.1 へのアップグレードは比較的簡単です。 2.2. バージョン 2.2 はバージョン 2.* の最終バージョンであり、機能は更新されず、バグのみが修正されます。";
1.単語分割をデデ
結果は以下のようにソートされます
Title Array (
[THINKPHP] => 1
[Official] => 1
[Coming] => 1
[Stop ] = > 1
[2.0] => 1
[バージョン] => 1
[サポート] => 1
(
[バージョン] => 12
[その] => 12
[そして] => 8
[ThinkPHP] => 5
[2.0] => 5
[また] => 3
[2.2 ] => 3
[2.1] => 3
[開発] => 3
[3.0] => 2
[はい] => 2
[クイック] => 2
[へ] => 2
[リリース] => 2
[メンテナンス] => 2
[上へ] => 2
[サポート] => 2
[同時に] => 2
[From] => 2
最初のアイデアは、「of」と「some」を削除することです。このようにして、最終的なキーワードとして特定の単語を取り出すことができます。
バージョン thinkphp 2.0 のサポートが終了します。
結果は許容範囲内であるようです
次に、discuz を見ると、取得された API は XML ドキュメントであり、解析後に取得されたキーワードは
、高速、バージョン アップグレード、開発、ユーザーです。 5 つの単語、最初の言葉は「of」です... これら 2 つの方法を比較すると、最初の dede+ 以降の処理が文書の内容に近く、多少は優れているはずであることがわかりましたが、トピックから逸脱しています。の記事ですが、取り上げられている言葉がかなり人気です
http://www.bkjia.com/PHPjc/327239.html

phpssionscanStorestrings、numbers、arrays、andobjects.1.strings:textdatalikeusernames.2.numbers:integersorfloatsforcounters.3.arrays:listslikeshoppingcarts.4.objects:complextructuresthataresialized。

tostartaphpsession、outsession_start()atthescript'sbeginning.1)placeitbe foreanyouttosetthesscookie.2)usesionsionsionsionserdatalikelogintatussorshoppingcarts.3)再生セッションインドストップレベントフィックスアタック

セッション再生とは、新しいセッションIDを生成し、セッション固定攻撃の場合にユーザーが機密操作を実行するときに古いIDを無効にすることを指します。実装の手順には次のものが含まれます。1。感度操作を検出、2。新しいセッションIDを生成する、3。古いセッションIDを破壊し、4。ユーザー側のセッション情報を更新します。

PHPセッションは、アプリケーションのパフォーマンスに大きな影響を与えます。最適化方法には以下が含まれます。1。データベースを使用してセッションデータを保存して応答速度を向上させます。 2。セッションデータの使用を削減し、必要な情報のみを保存します。 3.非ブロッキングセッションプロセッサを使用して、同時実行機能を改善します。 4.セッションの有効期限を調整して、ユーザーエクスペリエンスとサーバーの負担のバランスを取ります。 5.永続的なセッションを使用して、データの読み取り時間と書き込み時間を減らします。

phpsesionsareserver-side、whilecookiesareclient-side.1)Sessionsionsionsoredataontheserver、aremoresecure.2)cookiesstoredataontheclient、cookiestoresecure、andlimitedinsizeisize.sesionsionsionivationivationivationivationivationivationivationivate

phpidentifiesauser'ssessionsingsinssessionCookiesIds.1)whensession_start()iscalled、phpgeneratesauniquesidstoredsored incoookienadphpsessidontheuser'sbrowser.2)thisidallowsphptortorieSessiondatadata fromthata

PHPセッションのセキュリティは、次の測定を通じて達成できます。1。session_regenerate_id()を使用して、ユーザーがログインまたは重要な操作である場合にセッションIDを再生します。 2. HTTPSプロトコルを介して送信セッションIDを暗号化します。 3。Session_Save_Path()を使用して、セッションデータを保存し、権限を正しく設定するためのSecure Directoryを指定します。

phpsessionFilesToredInthededirectoryspecifiedBysession.save_path、通常/tmponunix-likesystemsorc:\ windows \ temponwindows.tocustomizethis:1)uesession_save_path()tosetaCustomdirectory、ensuringit'swritadistradistradistradistradistra


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

ホットトピック









