PHP を使用して単純なコンテンツコレクターコードを作成する_PHP チュートリアル-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP を使用して単純なコンテンツコレクターコードを作成する_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 21, 2016 pm 03:54 PM

phpホストコードコンテンツ利用作るデバイスクロールのプログラム単純ウェブページコレクション

コレクターは通常泥棒プログラムと呼ばれ、主に他の人の Web ページのコンテンツをキャプチャするために使用されます。コレクターの作成に関しては、正規表現の知識があれば、収集する Web ページをリモートで開き、必要なコンテンツに一致する正規表現を使用するだけで済みます。自分だけのコレクターを作ることができます。

数日前に小説を連載するためのプログラムを作りました。更新の手間が怖かったので、八路中国語ネットワークから情報を収集するためにコレクターを作成しました。機能は比較的単純で、ルールはありません。カスタマイズすることはできますが、一般的なアイデアはその中に含まれており、定義ルールは自分で拡張できます。

PHP をコレクターとして使用するには、主に file_get_contents() と preg_match_all() の 2 つの関数を使用します。前者は Web ページのコンテンツをリモートで読み取るためのものですが、後者は通常の関数です。必要なコンテンツを抽出します。

それでは関数の実装についてステップごとに説明していきます。

小説を収集しているので、最初に本のタイトル、著者、ジャンルを抽出する必要があります。その他の情報は必要に応じて抽出できます。

ここでの目標は「明王朝に戻って王子になる」です。まず参考文献ページを開き、リンク: http://www.86zw.com/Book/3727/Index.aspx

いくつか開いたら、さらに多くの本を参照すると、その本の名前の基本的な形式は http://www.86zw.com/Book/书号/Index.aspx なので、スタートページを作成して収集が必要なデータを入力します。今後、収集が必要な書籍番号を $_POST['number'] の形式で受け取ることができます。書籍番号を受け取ったら、次に参考文献ページを作成します: $url=http://www.86zw.com/Book/$_POST['number']/Index.aspx もちろん、これはです。簡単に説明すると、$_POST['number'] の正当性を実際に作成するときに確認するのが最善です。

URLを構築したら、書籍情報の収集を開始できます。 file_get_contents() 関数を使用して書誌ページ $content=file_get_contents($url) を開きます。これにより、書誌ページのすべてのコンテンツを読み取ることができます。次のステップは、本のタイトル、著者、ジャンルなどの情報を照合することです。ここでは本のタイトルを例に挙げますが、それ以外はすべて同じです。参考文献ページを開いてソースファイルを表示し、「「Back to the Ming Nursing as a Prince」」を見つけます。これは抽出する本のタイトルです。。本のタイトルを抽出するための正規表現: /(.*?)/ の場合は、preg_match_all() 関数を使用して本のタイトルを抽出します: preg_match_all("/(.*?)/is",$contents,$title); このように、$title[0][0] の内容が必要なタイトルになります ( preg_match_all 関数の使用方法は、Baidu にアクセスして確認できます。ここでは詳しく説明しません）。書籍情報を取得したら、次のステップは章のコンテンツを取得することです。章のコンテンツを取得するには、まず各章のアドレスを見つけて、リモートで章を開き、通常のルールを使用してコンテンツを取得します。それをデータベースに保存するか、HTML 静的ファイルを直接生成します。これは章リストのアドレスです: http://www.86zw.com/Html/Book/18/3727/List.shtm これは参考文献ページと同じであり、次のルールがあることがわかります。 http://www.86zw.com/Html/Book/分類番号/書籍番号/List.shtm で見つかります。書籍番号は先ほど取得しました。ここで重要なのは、分類番号を見つけることです。分類番号は、

preg_match_all("/Html/Book/[0-9]) で見つけることができます。 {1,}/[0- 9]{1,}/List.shtm/is",$contents,$typeid); これだけでは不十分です。切り取り機能も必要です:
PHP コードは次のとおりです:

コードをコピーしますコードは次のとおりです:

 function Cut($string,$start,$end){ 
$message =explode($start,$string); end,$message[1]); return $message[0];} このうち、$string は切り取る内容、$start は開始位置、$end は終了位置です。カテゴリ番号を取得します: 

$start = "Html/Book/"; 
$end 
= "List.shtm"; 
$typeid = Cut($typeid[0][0],$start,$end); 
 $typeid =explode("/",$typeid);[/php] 

このように、$typeid[0]が探している分類番号になります。次のステップは、章リストのアドレスを構築することです: $chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST['number']/List.shtm。これで各章のアドレスがわかります。方法は次のとおりです:

コードをコピーしますコードは次のとおりです:

$ustart = """;
$uend
= """;
//t はタイトルの略称を表します
$tstart = ">";
$tend
//Getパス、例: 123.shtm,2342.shtm,233.shtm
preg_match_all("/"[0-9]{1,}.(shtm)"/is",$chapterurl,$url); /タイトルを取得します。例: 第 1 章善良な人々の 9 つの世界
preg_match_all("// is",$file,$ title);
$count = count($url[0]);
for($i=0;$i{
$u = Cut($ url[0][$i],$ustart,$uend);
$t = Cut($title[0][$i],$tstart,$tend);
}

$ 配列配列はすべてのチャプターアドレスです。この時点で、コレクターは半分完了し、各チャプターアドレスをループして読み取り、内容を照合します。これは比較的単純なので、ここでは詳しく説明しません。さて、今日はこれで終わりにしましょう。これほど長い記事を書くのは初めてなので、言葉の整理に問題があることは避けられません。

この記事は Webmaster Information Network からのものです元のリンク: http://webdevelop.chinahtml.com/2/2007/php-119440156516960.shtml

http://www.bkjia.com/PHPjc/318572.html

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

セッションを保存するためにデータベースを使用することの利点は何ですか？Apr 24, 2025 am 12:16 AM

データベースストレージセッションを使用することの主な利点には、持続性、スケーラビリティ、セキュリティが含まれます。 1。永続性：サーバーが再起動しても、セッションデータは変更されないままになります。 2。スケーラビリティ：分散システムに適用され、セッションデータが複数のサーバー間で同期されるようにします。 3。セキュリティ：データベースは、機密情報を保護するための暗号化されたストレージを提供します。

PHPでカスタムセッション処理をどのように実装しますか？Apr 24, 2025 am 12:16 AM

PHPでのカスタムセッション処理の実装は、SessionHandlerInterfaceインターフェイスを実装することで実行できます。具体的な手順には、次のものが含まれます。1）CussentsessionHandlerなどのSessionHandlerInterfaceを実装するクラスの作成。 2）セッションデータのライフサイクルとストレージ方法を定義するためのインターフェイス（オープン、クローズ、読み取り、書き込み、破壊、GCなど）の書き換え方法。 3）PHPスクリプトでカスタムセッションプロセッサを登録し、セッションを開始します。これにより、データをMySQLやRedisなどのメディアに保存して、パフォーマンス、セキュリティ、スケーラビリティを改善できます。

セッションIDとは何ですか？Apr 24, 2025 am 12:13 AM

SessionIDは、ユーザーセッションのステータスを追跡するためにWebアプリケーションで使用されるメカニズムです。 1.ユーザーとサーバー間の複数のインタラクション中にユーザーのID情報を維持するために使用されるランダムに生成された文字列です。 2。サーバーは、ユーザーの複数のリクエストでこれらの要求を識別および関連付けるのに役立つCookieまたはURLパラメーターを介してクライアントに生成および送信します。 3.生成は通常、ランダムアルゴリズムを使用して、一意性と予測不可能性を確保します。 4.実際の開発では、Redisなどのメモリ内データベースを使用してセッションデータを保存してパフォーマンスとセキュリティを改善できます。

ステートレス環境（APIなど）でセッションをどのように処理しますか？Apr 24, 2025 am 12:12 AM

APIなどのステートレス環境でのセッションの管理は、JWTまたはCookieを使用して達成できます。 1。JWTは、無国籍とスケーラビリティに適していますが、ビッグデータに関してはサイズが大きいです。 2.cookiesはより伝統的で実装が簡単ですが、セキュリティを確保するために慎重に構成する必要があります。

セッションに関連するクロスサイトスクリプティング（XSS）攻撃からどのように保護できますか？

セッション関連のXSS攻撃からアプリケーションを保護するには、次の測定が必要です。1。セッションCookieを保護するためにHTTPonlyとセキュアフラグを設定します。 2。すべてのユーザー入力のエクスポートコード。 3.コンテンツセキュリティポリシー（CSP）を実装して、スクリプトソースを制限します。これらのポリシーを通じて、セッション関連のXSS攻撃を効果的に保護し、ユーザーデータを確保できます。

PHPセッションのパフォーマンスを最適化するにはどうすればよいですか？Apr 23, 2025 am 12:13 AM

PHPセッションのパフォーマンスを最適化する方法は次のとおりです。1。遅延セッション開始、2。データベースを使用してセッションを保存します。これらの戦略は、高い並行性環境でのアプリケーションの効率を大幅に改善できます。

session.gc_maxlifetime構成設定とは何ですか？Apr 23, 2025 am 12:10 AM

thesession.gc_maxlifettinginttinginphpdethinesthelifsessessiondata、setinseconds.1）it'sconfiguredinphp.iniorviaini_set（）。 2）AbalanceSneededToAvoidPerformanceIssues andunexpectedLogouts.3）php'sgarbagecollectionisisprobabilistic、影響を受けたBygc_probabi

PHPでセッション名をどのように構成しますか？Apr 23, 2025 am 12:08 AM

PHPでは、session_name（）関数を使用してセッション名を構成できます。特定の手順は次のとおりです。1。session_name（）関数を使用して、session_name（ "my_session"）などのセッション名を設定します。 2。セッション名を設定した後、session_start（）を呼び出してセッションを開始します。セッション名の構成は、複数のアプリケーション間のセッションデータの競合を回避し、セキュリティを強化することができますが、セッション名の一意性、セキュリティ、長さ、設定タイミングに注意してください。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。