php_PHP チュートリアルを使用して Web ページの本文コンテンツを抽出する例-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

php_PHP チュートリアルを使用して Web ページの本文コンテンツを抽出する例

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:12 AM

php例コンテンツ抽出する文章のウェブページ識別する困難

Webページのテキストコンテンツを抽出するphpの例

難しいのは、Webページの記事部分をどのように特定して保持し、その他の無駄な情報を削除するかであり、普遍的である必要があり、コレクションを定式化できないためです検索エンジンの結果にはさまざまなWebページがあるため、機関車規則などの目的の駅に基づいて検索できます。

ページのデータを取得してテキスト部分を照合するにはどうすればよいですか? Zheng Xiao は仕事を終える途中に次のアイデアを思いつきました。

1. bodyタグ部分を抽出 –>すべてのリンクを削除 –>すべての空白タグを削除 –>結果を取得します。

2. div、p、h タグに一致する、リンクされていない中国語部分を直接一致させます???

ボトム情報など、他にも多くの冗長な情報がまだあります。。どうすればいいですか？何かアイデアや提案はありますか?

このクラスは、インターネット上で見つかったPHPで実装されたWebページのテキスト部分を抽出するアルゴリズムで、Zheng Xiaoもローカルでテストしており、精度が非常に高いです。

コードは次のとおりです

クラスの可読性 {

// 判定結果のマークビット名を保存
const ATTR_CONTENT_SCORE = "コンテンツスコア";

// DOM 解析クラスは現在 UTF-8 エンコーディングのみをサポートしています

const DOM_DEFAULT_CHARSET = "utf-8";

//判定失敗時の表示内容

const MESSAGE_CAN_NOT_GET = "このページのコンテンツを読みやすく解析できませんでした。";

// DOM 解析クラス (PHP5 に組み込まれています)

保護された $DOM = null;

//解析が必要なソースコード

protected $source = "";

//章の親要素のリスト

private $parentNodes = array();

// 削除する必要があるタグ
// 注: http://www.45it.net から追加のタグを追加しました

private $junkTags = Array("style", "form", "iframe", "script", "button", "input", "textarea",
「noscript」、「select」、「option」、「object」、「applet」、「basefont」、
"bgsound"、"blink"、"canvas"、"command"、"menu"、"nav"、"datalist"、
"埋め込み"、"フレーム"、"フレームセット"、"keygen"、"ラベル"、"マーキー"、"リンク");

//削除する必要がある属性
private $junkAttrs = Array("style", "class", "onclick", "onmouseover", "align", "border", "margin");

/**
*コンストラクター
* @param $input_char 文字列のエンコーディング。デフォルトはutf-8ですが、省略可能です
*/
function __construct($source, $input_char = "utf-8") {
$this->source = $source;

// DOM 解析クラスは UTF-8 形式の文字のみを処理できます
$source = mb_convert_encoding($source, 'HTML-ENTITIES', $input_char);

// HTML タグを前処理し、冗長なタグを削除します。
$source = $this->preparSource($source);

//DOM 解析クラスを生成する
$this->DOM = new DOMDocument('1.0', $input_char);
試してみてください{
//libxml_use_internal_errors(true);
// いくつかのエラーメッセージが表示されますが、問題ありません :^)
if (!@$this->DOM->loadHTML(''.$source)) {
throw new Exception("HTML 解析エラー!");
}

foreach ($this->DOM->childNodes as $item) {
if ($item->nodeType == XML_PI_NODE) {
$this->DOM->removeChild($item) // ハックを削除します
; }
}

//適切に挿入
$this->DOM->encoding = 可読性::DOM_DEFAULT_CHARSET;
} catch (例外 $e) {
// ...
}
}

/**
* DOM 解析クラスで正確に処理できるように HTML タグを前処理します
*
* @return 文字列
*/
プライベート関数 preparSource($string) {
// 解析エラーを避けるために、冗長な HTML エンコードタグを削除します
preg_match("/charset=([\w|\-]+);?/", $string, $match);
if (isset($match[1])) {
$string = preg_replace("/charset=([\w|\-]+);?/", "", $string, 1);
}

// 二重化されたすべての
を置き換えます。

の付いたタグタグを削除し、フォントを削除します。
$string = preg_replace("/
[ \r\n\s]*
/i", "

", $string );
$string = preg_replace("/gt;]*>/i", "", $string);

// @https://github.com/feelinglucky/php-readability/issues/7を参照
// - http://stackoverflow.com/questions/7130867/remove-script-tag-from-html-content から
$string = preg_replace("#<script>(.*?)</script>#is", "", $string);

トリムを返す($string);
}

/**
* DOM 要素からすべての $TagName タグを削除します
*
* @return DOMDocument
*/
プライベート関数removeJunkTag($RootNode, $TagName) {

$Tags = $RootNode->getElementsByTagName($TagName);

//注: タグを削除すると結果からもタグが削除されるため、常にインデックス 0 を指定してください。
while($Tag = $Tags->item(0)){
$parentNode = $Tag->parentNode;
$parentNode->removeChild($Tag);
}

$RootNode を返します;

}

/**
* 要素から不要な属性をすべて削除します
*/
プライベート関数removeJunkAttr($RootNode, $Attr) {
$Tags = $RootNode->getElementsByTagName("*");

$i = 0;
while($Tag = $Tags->item($i++)) {
$Tag->removeAttribute($Attr);
}

$RootNode を返す;
}

/**
* 評価に基づいてページのメインコンテンツのボックスモデルを取得します
* 決定アルゴリズムは http://code.google.com/p/arc90labs-readability/
から取得しました。 ※鄭暁さんのブログから転載させていただきました
* @return DOMNode
*/
プライベート関数 getTopBox() {
// 获得页面全部的章节
$allParagraphs = $this->DOM->getElementsByTagName("p");

// すべての段落を調べて、最高のスコアを持つチャンクを見つけます。
// スコアは次のようなものによって決定されます:

の数、カンマ、特殊クラスなど
$i = 0;
while($paragraph = $allParagraphs->item($i++)) {
$parentNode = $paragraph->parentNode;
$contentScore = intval($parentNode->getAttribute(Readability::ATTR_CONTENT_SCORE));
$className = $parentNode->getAttribute("クラス");
$id = $parentNode->getAttribute("id");

// 特別なクラス名を探します
if (preg_match("/(コメント|メタ|フッター|脚注)/i", $className)) {
$contentScore -= 50;
else if(preg_match(
"/((^|\\s)(post|hentry|entry[-]?(content|text|body)?|article[-]?(content|text|body)?)(\\s|$) )/私"、
$className)) {
$contentScore += 25;
}

// 特別なIDを探してください
if (preg_match("/(コメント|メタ|フッター|脚注)/i", $id)) {
$contentScore -= 50;
else if (preg_match(
"/^(post|hentry|entry[-]?(content|text|body)?|article[-]?(content|text|body)?)$/i",
$id)) {
$contentScore += 25;
}

// 見つかった段落にポイントを追加します
// この段落内のカンマにポイントを追加します
if (strlen($paragraph->nodeValue) > 10) {
$contentScore += strlen($paragraph->nodeValue);
}

//保存父元素の判定得分
$parentNode->setAttribute(Readability::ATTR_CONTENT_SCORE, $contentScore);

// 保存章节的父元素，便次快速获取
array_push($this->parentNodes, $parentNode);
}

$topBox = null;

// パフォーマンスのためのインデックスからの代入
// http://www.peachpit.com/articles/article.aspx?p=31567&seqNum=5 を参照してください
for ($i = 0, $len = sizeof($this->parentNodes); $i $parentNode = $this->parentNodes[$i];
$contentScore = intval($parentNode->getAttribute(Readability::ATTR_CONTENT_SCORE));
$orgContentScore = intval($topBox ? $topBox->getAttribute(Readability::ATTR_CONTENT_SCORE) : 0);

if ($contentScore && $contentScore > $orgContentScore) {
$topBox = $parentNode;
}
}

// この時点で$topBoxが決定されたページコンテンツのメイン要素となるはずです
$topBox を返します;
}

/**
* HTML ページのタイトルを取得します
*
* @return 文字列
*/
パブリック関数 getTitle() {
$split_point = ' - ';
$titleNodes = $this->DOM->getElementsByTagName("title");

if ($titleNodes->length
&& $titleNode = $titleNodes->item(0)) {
// @ http://stackoverflow.com/questions/717328/how-to-explode-string-right-to-left を参照
$title = トリム($titleNode->nodeValue);
$result = array_map('strrev',explode($split_point, strrev($title)));
サイズを返します($result) > 1? array_pop($result) : $title;
}

null を返す;
}

/**
* 先頭の画像 URL を取得します
*
* @return 文字列
*/
パブリック関数 getLeadImageUrl($node) {
$images = $node->getElementsByTagName("img");

if ($images->length && $leadImage = $images->item(0)) {
return $leadImage->getAttribute("src");
}

null を返す;
}

/**
* ページのメインコンテンツ (Readability 後のコンテンツ) を取得します
*
* @return 配列
*/
パブリック関数 getContent() {
if (!$this->DOM) が false を返す;

//ページタイトルを取得します
$ContentTitle = $this->getTitle();

// ページのメインコンテンツを取得します
$ContentBox = $this->getTopBox();

// 適切なトップボックスが見つかったかどうかを確認します。
if($ContentBox === null)
throw new RuntimeException(Readability::MESSAGE_CAN_NOT_GET);

// コンテンツを新しい DOMDocument にコピーします
$Target = 新しい DOMDocument;
$Target->appendChild($Target->importNode($ContentBox, true));

//不要なタグを削除
foreach ($this->junkTags を $tag として) {
$Target = $this->removeJunkTag($Target, $tag);
}

//不要な属性を削除
foreach ($this->junkAttrs as $attr) {
$Target = $this->removeJunkAttr($Target, $attr);
}

$content = mb_convert_encoding($Target->saveHTML(), Readability::DOM_DEFAULT_CHARSET, "HTML-ENTITIES");

//配列の形式で返される複数のデータ
配列を返す(
'lead_image_url' => $this->getLeadImageUrl($Target),
'word_count' => mb_strlen(strip_tags($content), 可読性::DOM_DEFAULT_CHARSET),
'タイトル' => $ContentTitle : null,
'コンテンツ' => $コンテンツ
);
}

関数 __destruct() { }
}

使い方も非常に簡単で、インスタンス化するときに、Web ページの HTML ソースコードと対応するエンコーディングを渡し、その getContent メソッドを直接呼び出して、抽出されたテキスト部分を返します。リンクをしてください。後で変更します

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPセッションに保存されているデータをどのように変更しますか？Apr 27, 2025 am 12:23 AM

tomodifydatainaphpsession、starthessession withsession_start（）、$ _sessiontoset、modify、orremovevariables.1）startthessession.2）

PHPセッションに配列を保存する例を示します。Apr 27, 2025 am 12:20 AM

配列はPHPセッションに保存できます。 1。セッションを開始し、session_start（）を使用します。 2。配列を作成し、$ _Sessionで保存します。 3. $ _Sessionを介して配列を取得します。 4.セッションデータを最適化してパフォーマンスを向上させます。

Garbage CollectionはPHPセッションでどのように機能しますか？Apr 27, 2025 am 12:19 AM

PHPセッションガベージコレクションは、有効期限が切れたセッションデータをクリーンアップするために確率メカニズムを通じてトリガーされます。 1）構成ファイルにトリガー確率とセッションのライフサイクルを設定します。 2）Cronタスクを使用して、高負荷アプリケーションを最適化できます。 3）データの損失を避けるために、ごみ収集の頻度とパフォーマンスのバランスを取る必要があります。

どのようにしてPHPでセッションアクティビティをトレースできますか？Apr 27, 2025 am 12:10 AM

PHPでのユーザーセッションアクティビティの追跡は、セッション管理を通じて実装されます。 1）SESSION_START（）を使用してセッションを開始します。 2）$ _Sessionアレイを介してデータを保存およびアクセスします。 3）セッションを終了するには、session_destroy（）を呼び出します。セッショントラッキングは、ユーザーの動作分析、セキュリティ監視、パフォーマンスの最適化に使用されます。

データベースを使用してPHPセッションデータを保存するにはどうすればよいですか？Apr 27, 2025 am 12:02 AM

データベースを使用してPHPセッションデータを保存すると、パフォーマンスとスケーラビリティが向上します。 1）MySQLを構成してセッションデータを保存します：PHP.iniまたはPHPコードでセッションプロセッサを設定します。 2）カスタムセッションプロセッサを実装します：データベースと対話するために、開いて、閉じ、読み取り、書き込み、その他の機能を定義します。 3）最適化とベストプラクティス：インデックス、キャッシュ、データ圧縮、分散ストレージを使用して、パフォーマンスを向上させます。

PHPセッションの概念を簡単に説明してください。Apr 26, 2025 am 12:09 AM

phpssionsStrackuserdataacrossmultiplepagerequestsusingauniqueidstoredinacookie.here'showtomanageetheemefectively：1）Startassession withsession_start（）andstoredatain $ _ session.2）RegeneratesseSsessidafterloginwithsession_id（the topreventes_id）

PHPセッションに保存されているすべての値をどのようにループしますか？Apr 26, 2025 am 12:06 AM

PHPでは、次の手順を通じてセッションデータを繰り返すことができます。1。session_start（）を使用してセッションを開始します。 2。$ _Sessionアレイのすべてのキー価値ペアを介してforeachループを反復します。 3.複雑なデータ構造を処理する場合、is_array（）またはis_object（）関数を使用し、print_r（）を使用して詳細情報を出力します。 4.トラバーサルを最適化する場合、ページングを使用して、一度に大量のデータの処理を避けることができます。これにより、実際のプロジェクトでPHPセッションデータをより効率的に管理および使用するのに役立ちます。

ユーザー認証にセッションを使用する方法を説明します。Apr 26, 2025 am 12:04 AM

このセッションは、サーバー側の状態管理メカニズムを介してユーザー認証を実現します。 1）セッションの作成と一意のIDの生成、2）IDはCookieを介して渡されます。3）サーバーストアとIDを介してセッションデータにアクセスします。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。