ホームページ  >  記事  >  バックエンド開発  >  PHP を解析し、正規表現を使用してコンテンツ収集の問題を解決するレイアウト_PHP チュートリアル

PHP を解析し、正規表現を使用してコンテンツ収集の問題を解決するレイアウト_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-21 15:04:57929ブラウズ

コレクションを行うときに遭遇する一般的な問題は、HTML タグとスタイルを正規表現に置き換える関数を作成することに時間を費やしました。それを共有します。

コードをコピーします コードは次のとおりです:

/**
* コンテンツのフォーマット
* @param string $content コンテンツには utf-8 エンコーディングを使用するのが最善です
* @return string
* この関数は Tidy 拡張機能を有効にする必要があります
!*/
function RemoveFormat($content) {
$replaces = array (
"/ '',
"//i" => '',
"//i" => '',
"/
;/i" => '',
"//i" => '',
"//i" => '',
"/ /i" => "

",
"/

/i" => "

",
"/*-->/i"=>'',
/* "/ "//i" => '',
"//i" => を有効にします。 /tbody>/i" = > '',
"//i" => '

',
"//i" => '

' ,
"//i" => '', */
"/style=.+?['|"]/i" => ' ',
"/class= .+?['|"]/i" => '',
"/id=.+?['|"]/i"=>",
"/lang =.+?['| "]/i"=>'',
//"/width=.+?['|"]/i"=>'',//制御が難しく、コメントアウトしてください
//"/height=. +?['|"]/i"=>'',
"/border=.+?['|"]/i"=>'',
"/face=.+?['|" ]/i"=>'',
"/[ ]*/i" => "

;",
"/.*/i" => '',
"/ /i" => ' ',//スペースを
に置き換えます "/ [ |x {3000}|rn]*/ui" => '

',//半角、全角のスペース、改行を置換し、削除するために使用します。データベースへの書き込み時に発生するエンコードの問題

);
$config = array (
本体のみを取得します
'wrap' => 0
);
$content = tiny_repair_string($content, $config, 'utf8' ); // まず php に付属のきちんとしたクラス ライブラリを使用して html タグを修復するか、そうでない場合は置き換えます さまざまな奇妙な状況が発生しやすくなります
$content =rim($content);
foreach ( $replaces as $k => ; $v ) {
$content = preg_replace ( $k, $v, $content );
}

if(strpos($content,'

')>6)//一部のコンテンツが欠落している可能性があります先頭の

タグ
$content = '

'.$content;

$ content = tiny_repair_string($content, $config, 'utf8');// HTML を削除するために再度修復します空のタグ
$content = trim($content);
return $content;
}




http://www.bkjia.com/PHPjc/327743.html

www.bkjia.com本当http://www.bkjia.com/PHPjc/327743.html技術記事コレクションを実行するときに遭遇する一般的な問題は、HTML タグとスタイルを正規表現に置き換える関数を作成することに時間を費やしました。それを共有します。 コードをコピーします。コードは次のとおりです: /** * コンテンツの書式設定...
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
前の記事:PHP スクリューを使用して PHP ソース コードを暗号化する方法を分析する_PHP チュートリアル次の記事:PHP スクリューを使用して PHP ソース コードを暗号化する方法を分析する_PHP チュートリアル

関連記事

続きを見る