ホームページ  >  記事  >  バックエンド開発  >  PHP を使用して単純なコンテンツ コレクター コードを作成する_PHP チュートリアル

PHP を使用して単純なコンテンツ コレクター コードを作成する_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-21 15:54:01778ブラウズ

コレクターは通常泥棒プログラムと呼ばれ、主に他の人の Web ページのコンテンツをキャプチャするために使用されます。コレクターの作成に関しては、正規表現の知識があれば、収集する Web ページをリモートで開き、必要なコンテンツに一致する正規表現を使用するだけで済みます。自分だけのコレクターを作ることができます。

数日前に小説を連載するためのプログラムを作りました。更新の手間が怖かったので、八路中国語ネットワークから情報を収集するためにコレクターを作成しました。機能は比較的単純で、ルールはありません。カスタマイズすることはできますが、一般的なアイデアはその中に含まれており、定義ルールは自分で拡張できます。

PHP をコレクターとして使用するには、主に file_get_contents() と preg_match_all() の 2 つの関数を使用します。前者は Web ページのコンテンツをリモートで読み取るためのものですが、後者は通常の関数です。必要なコンテンツを抽出します。

それでは関数の実装についてステップごとに説明していきます。

小説を収集しているので、最初に本のタイトル、著者、ジャンルを抽出する必要があります。その他の情報は必要に応じて抽出できます。

ここでの目標は「明王朝に戻って王子になる」です。まず参考文献ページを開き、リンク: http://www.86zw.com/Book/3727/Index.aspx

いくつか開いたら、さらに多くの本を参照すると、その本の名前の基本的な形式は http://www.86zw.com/Book/书号/Index.aspx なので、スタート ページを作成して 収集が必要なデータを入力します。今後、収集が必要な書籍番号を $_POST['number'] の形式で受け取ることができます。書籍番号を受け取ったら、次に参考文献ページを作成します: $url=http://www.86zw.com/Book/$_POST['number']/Index.aspx もちろん、これはです。簡単に説明すると、$_POST['number'] の正当性を実際に作成するときに確認するのが最善です。

URLを構築したら、書籍情報の収集を開始できます。 file_get_contents() 関数を使用して書誌ページ $content=file_get_contents($url) を開きます。これにより、書誌ページのすべてのコンテンツを読み取ることができます。次のステップは、本のタイトル、著者、ジャンルなどの情報を照合することです。ここでは本のタイトルを例に挙げますが、それ以外はすべて同じです。参考文献ページを開いてソース ファイルを表示し、「「Back to the Ming Nursing as a Prince」」を見つけます。これは抽出する本のタイトルです。 。本のタイトルを抽出するための正規表現: /(.*?)/ の場合は、preg_match_all() 関数を使用して本のタイトルを抽出します: preg_match_all("/< span class ="newstitle">(.*?)/is",$contents,$title); このように、$title[0][0] の内容が必要なタイトルになります ( preg_match_all 関数の使用方法は、Baidu にアクセスして確認できます。ここでは詳しく説明しません)。書籍情報を取得したら、次のステップは章のコンテンツを取得することです。章のコンテンツを取得するには、まず各章のアドレスを見つけて、リモートで章を開き、通常のルールを使用してコンテンツを取得します。それをデータベースに保存するか、HTML 静的ファイルを直接生成します。これは章リストのアドレスです: http://www.86zw.com/Html/Book/18/3727/List.shtm これは参考文献ページと同じであり、次のルールがあることがわかります。 http://www.86zw.com/Html/Book/分類番号/書籍番号/List.shtm で見つかります。書籍番号は先ほど取得しました。ここで重要なのは、分類番号を見つけることです。分類番号は、

preg_match_all("/Html/Book/[0-9]) で見つけることができます。 {1,}/[0- 9]{1,}/List.shtm/is",$contents,$typeid); これだけでは不十分です。切り取り機能も必要です:
PHP コードは次のとおりです:

コードをコピーします コードは次のとおりです:

function Cut($string,$start,$end){
$message =explode($start,$string); end,$message[1]); return $message[0];} このうち、$string は切り取る内容、$start は開始位置、$end は終了位置です。カテゴリ番号を取得します:

$start = "Html/Book/";
$end
= "List.shtm";
$typeid = Cut($typeid[0][0],$start,$end);
$typeid =explode("/",$typeid);[/php]

このように、$typeid[0]が探している分類番号になります。次のステップは、章リストのアドレスを構築することです: $chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST['number']/List.shtm。これで各章のアドレスがわかります。方法は次のとおりです:


コードをコピーします コードは次のとおりです:この記事は Webmaster Information Network からのものです 元のリンク: http://webdevelop.chinahtml.com/2/2007/php-119440156516960.shtml


http://www.bkjia.com/PHPjc/318572.html

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/318572.html技術記事コレクターは通常泥棒プログラムと呼ばれ、主に他の人の Web ページのコンテンツをキャプチャするために使用されます。コレクターの作成に関しては、実際には、収集する Web ページをリモートで開き、通常の... を使用するだけです。