Webページのテキストコンテンツを抽出するphpの例
難しいのは、Webページの記事部分をどのように特定して保持し、その他の無駄な情報を削除するかであり、普遍的である必要があり、コレクションを定式化できないためです検索エンジンの結果にはさまざまなWebページがあるため、機関車規則などの目的の駅に基づいて検索できます。
ページのデータを取得してテキスト部分を照合するにはどうすればよいですか? Zheng Xiao は仕事を終える途中に次のアイデアを思いつきました。
1. bodyタグ部分を抽出 –>すべてのリンクを削除 –>すべての空白タグを削除 –>結果を取得します。2. div、p、h タグに一致する、リンクされていない中国語部分を直接一致させます???
ボトム情報など、他にも多くの冗長な情報がまだあります。 。 どうすればいいですか?何かアイデアや提案はありますか?
このクラスは、インターネット上で見つかったPHPで実装されたWebページのテキスト部分を抽出するアルゴリズムで、Zheng Xiaoもローカルでテストしており、精度が非常に高いです。
クラスの可読性 {
// 判定結果のマークビット名を保存
const DOM_DEFAULT_CHARSET = "utf-8";
const MESSAGE_CAN_NOT_GET = "このページのコンテンツを読みやすく解析できませんでした。";
保護された $DOM = null;
protected $source = "";
private $parentNodes = array(); // 削除する必要があるタグ private $junkTags = Array("style", "form", "iframe", "script", "button", "input", "textarea", //削除する必要がある属性
// DOM 解析クラスは UTF-8 形式の文字のみを処理できます // HTML タグを前処理し、冗長なタグを削除します。 //DOM 解析クラスを生成する foreach ($this->DOM->childNodes as $item) { //適切に挿入
// 二重化されたすべての の付いたタグタグを削除し、フォントを削除します。 ", $string ); // @https://github.com/feelinglucky/php-readability/issues/7を参照 トリムを返す($string);
/** $i = 0; $RootNode を返す; /** // すべての段落を調べて、最高のスコアを持つチャンクを見つけます。 の数、カンマ、特殊クラスなど // 特別なクラス名を探します // 特別なIDを探してください // 見つかった段落にポイントを追加します //保存父元素の判定得分 // 保存章节的父元素,便次快速获取 $topBox = null; if ($contentScore && $contentScore > $orgContentScore) {
if ($titleNodes->length null を返す;
if ($images->length && $leadImage = $images->item(0)) { null を返す;
//ページタイトルを取得します // ページのメインコンテンツを取得します //不要なタグを削除 //不要な属性を削除 $content = mb_convert_encoding($Target->saveHTML(), Readability::DOM_DEFAULT_CHARSET, "HTML-ENTITIES"); //配列の形式で返される複数のデータ 関数 __destruct() { } |
使い方も非常に簡単で、インスタンス化するときに、Web ページの HTML ソース コードと対応するエンコーディングを渡し、その getContent メソッドを直接呼び出して、抽出されたテキスト部分を返します。リンクをしてください。後で変更します

tomodifydatainaphpsession、starthessession withsession_start()、$ _sessiontoset、modify、orremovevariables.1)startthessession.2)

配列はPHPセッションに保存できます。 1。セッションを開始し、session_start()を使用します。 2。配列を作成し、$ _Sessionで保存します。 3. $ _Sessionを介して配列を取得します。 4.セッションデータを最適化してパフォーマンスを向上させます。

PHPセッションガベージコレクションは、有効期限が切れたセッションデータをクリーンアップするために確率メカニズムを通じてトリガーされます。 1)構成ファイルにトリガー確率とセッションのライフサイクルを設定します。 2)Cronタスクを使用して、高負荷アプリケーションを最適化できます。 3)データの損失を避けるために、ごみ収集の頻度とパフォーマンスのバランスを取る必要があります。

PHPでのユーザーセッションアクティビティの追跡は、セッション管理を通じて実装されます。 1)SESSION_START()を使用してセッションを開始します。 2)$ _Sessionアレイを介してデータを保存およびアクセスします。 3)セッションを終了するには、session_destroy()を呼び出します。セッショントラッキングは、ユーザーの動作分析、セキュリティ監視、パフォーマンスの最適化に使用されます。

データベースを使用してPHPセッションデータを保存すると、パフォーマンスとスケーラビリティが向上します。 1)MySQLを構成してセッションデータを保存します:PHP.iniまたはPHPコードでセッションプロセッサを設定します。 2)カスタムセッションプロセッサを実装します:データベースと対話するために、開いて、閉じ、読み取り、書き込み、その他の機能を定義します。 3)最適化とベストプラクティス:インデックス、キャッシュ、データ圧縮、分散ストレージを使用して、パフォーマンスを向上させます。

phpssionsStrackuserdataacrossmultiplepagerequestsusingauniqueidstoredinacookie.here'showtomanageetheemefectively:1)Startassession withsession_start()andstoredatain $ _ session.2)RegeneratesseSsessidafterloginwithsession_id(the topreventes_id)

PHPでは、次の手順を通じてセッションデータを繰り返すことができます。1。session_start()を使用してセッションを開始します。 2。$ _Sessionアレイのすべてのキー価値ペアを介してforeachループを反復します。 3.複雑なデータ構造を処理する場合、is_array()またはis_object()関数を使用し、print_r()を使用して詳細情報を出力します。 4.トラバーサルを最適化する場合、ページングを使用して、一度に大量のデータの処理を避けることができます。これにより、実際のプロジェクトでPHPセッションデータをより効率的に管理および使用するのに役立ちます。

このセッションは、サーバー側の状態管理メカニズムを介してユーザー認証を実現します。 1)セッションの作成と一意のIDの生成、2)IDはCookieを介して渡されます。3)サーバーストアとIDを介してセッションデータにアクセスします。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック









