PHP を使用して単純なコンテンツコレクターを作成する原理分析_PHP チュートリアル-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP を使用して単純なコンテンツコレクターを作成する原理分析_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 21, 2016 pm 03:49 PM

php個人のコンテンツ分析する利用作る原理デバイス小説更新するのプログラム単純コレクション

数日前に小説を連載するためのプログラムを作りました。更新の手間が怖かったので、八路中国語ネットワークから情報を収集する方法でコレクターを作成しました。機能は比較的シンプルで、ルールはカスタマイズできません。ですが、一般的なアイデアはその中にあります。ルールは自分で拡張できます。

PHP をコレクターとして使用するには、主に file_get_contents() と preg_match_all() の 2 つの関数を使用します。前者は Web コンテンツをリモートで読み取るためのものですが、後者は通常の関数です。必要なコンテンツを抽出します。

それでは関数の実装について順を追って説明していきます。

小説を収集しているため、最初に本のタイトル、著者、ジャンルを抽出する必要があります。その他の情報は必要に応じて抽出できます。

ここでの目標は「明王朝に戻って王子になる」です。まず参考文献ページを開き、リンク: http://www.86zw.com/Book/3727/Index.aspx

いくつか開いたら、さらに多くの本を参照すると、その本の名前の基本的な形式は http://www.86zw.com/Book/书号/Index.aspx なので、スタートページを作成して収集が必要な情報を入力します。今後、収集が必要な書籍番号を $_POST['number'] の形式で受け取ることができます。書籍番号を受け取ったら、次に参考文献ページを作成します: $url=http://www.86zw.com/Book/$_POST['number']/Index.aspx もちろん、これはです。簡単に説明すると、$_POST['number'] の正当性を実際に作成するときに確認するのが最善です。

URLを構築したら、書籍情報の収集を開始できます。 file_get_contents() 関数を使用して書誌ページ $content=file_get_contents($url) を開き、書誌ページのすべてのコンテンツを読み取れるようにします。次のステップは、本のタイトル、著者、ジャンルなどの情報を照合することです。ここでは本のタイトルを例に挙げますが、それ以外はすべて同じです。参考文献ページを開いてソースファイルを表示し、「「明朝に戻って王子になる」」を見つけます。これは、対象となる本のタイトルです。抽出された。本のタイトルを抽出するための正規表現: /(.*?)/ の場合は、preg_match_all() 関数を使用して本のタイトルを抽出します: preg_match_all("/(.*?)/is",$contents,$title); このように、$title[0][0] の内容が必要なタイトルになります ( preg_match_all 関数の使用方法は、Baidu にアクセスして確認できます。ここでは詳しく説明しません）。書籍情報を取得したら、次のステップは章のコンテンツを取得することです。章のコンテンツを取得するには、まず各章のアドレスを見つけて、リモートで章を開き、通常のルールを使用してコンテンツを取得します。それをデータベースに保存するか、HTML 静的ファイルを直接生成します。これは章リストのアドレスです: http://www.86zw.com/Html/Book/18/3727/List.shtm これは参考文献ページと同じであり、次のルールがあることがわかります。 http://www.86zw.com/Html/Book/分類番号/書籍番号/List.shtm で見つかります。書籍番号は事前に取得されています。ここで重要なのは、分類番号を見つけることです。分類番号は、

preg_match_all("/Html/Book/[0-9]) で見つけることができます。 {1,}/[0- 9]{1,}/List.shtm/is",$contents,$typeid); これだけでは不十分です。cut 関数も必要です:
PHP コードは次のとおりです:

関数カット($string,$start,$end) {
$message =explose($start,$string);
$message =explose($end,$message[1]);ここで、$string は切り取られるコンテンツ、$start は開始位置、$end は終了位置です。分類番号を取得します:

$start = "Html/Book/";
$end
= "List.shtm";
$typeid = Cut($typeid[0][0],$start,$end);
$typeid =explode("/",$typeid);[/php]

このように、$typeid[0]が探している分類番号になります。次のステップは、章リストのアドレスを構築することです: $chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number’]/List.shtm。これで各章のアドレスがわかります。メソッドは次のとおりです:

$ustart = """;
$uend
= """;
//t はタイトルの略称を表します
$tstart = ">";
$tend
= "/ /パスを取得します。例: 123.shtm, 2342.shtm, 233.shtm
preg_match_all("/"[0-9]{1,}.(shtm)"/is",$chapterurl, $url);
/ /タイトルを取得します。例: 第 1 章善良な人々の 9 つの世界
preg_match_all("//is",$ file,$title);
$count = count($url[0]);
for($i=0;$i{
$ u = カット($url[0] [$i],$ustart,$uend);
$t = カット($title[0][$i],$tstart,$tend); ] = $t;
}

$array 配列はすべてのチャプターアドレスです。この時点で、コレクターは、各チャプターアドレスをループして読み取り、内容を照合するだけです。これは比較的単純なので、ここでは詳しく説明しません。さて、今日はこれで終わりにしましょう。これほど長い記事を書くのは初めてなので、言葉の整理に問題があることは避けられません。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPセッションの選択肢はありますか？Apr 29, 2025 am 12:36 AM

PHPセッションの代替品には、Cookie、トークンベースの認証、データベースベースのセッション、Redis/Memcachedが含まれます。 1.Cookiesは、クライアントにデータを保存することによりセッションを管理します。 2.トークンベースの認証はトークンを使用してユーザーを検証します。これは非常に安全ですが、追加のロジックが必要です。 3.Databaseベースのセッションは、データベースにデータを保存します。これは、スケーラビリティが良好ですが、パフォーマンスに影響を与える可能性があります。 4. Redis/Memcachedは分散キャッシュを使用してパフォーマンスとスケーラビリティを向上させますが、追加のマッチングが必要です

PHPの完全な形式は何ですか？Apr 28, 2025 pm 04:58 PM

この記事では、PHPについて説明し、その完全なフォーム、Web開発での主要な使用、PythonとJavaとの比較、および初心者の学習のしやすさについて説明します。

PHPはフォームデータをどのように処理しますか？Apr 28, 2025 pm 04:57 PM

PHPは、$ \ _ postおよび$ \ _を使用してフォームデータを処理し、検証、消毒、安全なデータベースインタラクションを通じてセキュリティを確保します。

PHPとASP.NETの違いは何ですか？Apr 28, 2025 pm 04:56 PM

この記事では、PHPとASP.NETを比較して、大規模なWebアプリケーション、パフォーマンスの違い、セキュリティ機能への適合性に焦点を当てています。どちらも大規模なプロジェクトでは実行可能ですが、PHPはオープンソースであり、プラットフォームに依存しませんが、ASP.NET、

PHPはケースに敏感な言語ですか？Apr 28, 2025 pm 04:55 PM

PHPの症例感度は変化します：関数は鈍感であり、変数とクラスは感度があります。ベストプラクティスには、一貫した命名と、比較のためにケース非感受性関数を使用することが含まれます。

PHPでページをリダイレクトするにはどうすればよいですか？Apr 28, 2025 pm 04:54 PM

この記事では、PHPのページリダイレクトのさまざまな方法について説明し、ヘッダー（）関数に焦点を当て、「すでに送信されているヘッダー」エラーなどの一般的な問題に対処します。

PHPでヒントを示すタイプを説明しますApr 28, 2025 pm 04:52 PM

記事では、PHPでヒントを示すタイプについて説明します。これは、機能内の予想データ型を指定する機能です。主な問題は、タイプの施行を通じてコードの品質と読みやすさを改善することです。

PHPのPDOとは何ですか？Apr 28, 2025 pm 04:51 PM

この記事では、PHPのデータベースアクセスの拡張機能であるPHPデータオブジェクト（PDO）について説明します。これは、データベースの抽象化やより良いエラー処理など、準備されたステートメントとMySQLIに対する利点を通じてセキュリティを強化する上でのPDOの役割を強調しています。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

Dreamweaver Mac版

ビジュアル Web 開発ツール

WebStorm Mac版

便利なJavaScript開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。