PHP で実装された軽量でシンプルなクローラー、crawler_PHP チュートリアル-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP で実装された軽量でシンプルなクローラー、crawler_PHP チュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 09:46 AM

php爬虫類単純軽量

PHPで実装された軽量でシンプルなクローラー

は最近データを収集する必要がありますが、ブラウザ上で名前を付けて保存する方法を使用するのは非常に面倒で、保存や取得には役立ちません。そこで、インターネット上の情報をクロールするための小さなクローラーを作成しました。これまでに 100 万近くの Web ページをクロールしました。現在、このデータを処理する方法を検討中です。

クローラーの構造:
クローラーの原理は実際には非常に単純で、ダウンロードされたページを分析し、リンクを見つけて、それらのリンクをダウンロードし、再度分析してダウンロードするというサイクルが再び始まります。データストレージに関しては、検索を容易にするためにデータベースが第一の選択肢であり、開発言語は正規表現をサポートするだけで十分です。そのため、データベースには mysql を選択しました。そのため、開発スクリプトには php を選択しました。 Perl 互換の正規表現をサポートし、mysql への接続に非常に便利で、http ダウンロードをサポートし、Windows と Linux システムの両方に展開できます。

正規表現:
正規表現は、HTML からリンクや画像を抽出するための基本的なツールです。次のような正規表現が使用されます。

コードをコピーしますコードは次のとおりです:
"#]+href=(['"])(.+)\1#isU" リンクの処理中
"# PHP で実装された軽量でシンプルなクローラー、crawler_PHP チュートリアル ]+src=(['"])(.+)\1#isU" 画像の処理中

その他の質問:
クローラーを作成する際に注意する必要があるもう 1 つの問題は、ダウンロードされた URL は繰り返しダウンロードできず、一部の Web ページへのリンクがループを形成するため、この問題に対処する必要があるということです。この問題は、MD5 を計算することで解決されます。処理された URL の値をデータベースに保存して、ダウンロードされたかどうかを確認できるようにします。もちろん、もっと優れたアルゴリズムもありますので、興味があればオンラインで探してみてください。

関連規約:
クローラーには独自のプロトコルもあります。Web サイトが何を通過できるかを定義する robots.txt ファイルがあります。ただし、時間が限られていたため、この機能は実装されませんでした。

その他の指示:
PHP はクラスプログラミングをサポートしています。これは私が作成したクローラーのメインクラスです。
1. URL 処理 web_site_info、主に URL の処理、ドメイン名の分析などに使用されます。
2. データベース操作 mysql_insert.php は、データベースに関連する操作を処理します。
3. 履歴記録処理。処理された URL を記録します。
4. 爬虫類。

既存の問題と欠点

このクローラは、データ量が少ないときはうまく動作しますが、データ量が多いときは、履歴レコード処理クラスの効率があまり高くありません。データベース構造内の関連するフィールドにインデックスを付けることで、速度が向上します。改善されましたが、データを継続的に読み取る必要があり、これは PHP 自体の配列実装に関連している可能性があり、一度に 100,000 件の履歴レコードをロードすると、速度が非常に遅くなります。
マルチスレッドはサポートされていないため、一度に 1 つの URL しか処理できません。
PHP 自体には、実行時のメモリ使用量制限があります。一度、深さ 20 のページをクロールすると、プログラムがメモリ不足になって強制終了されました。

以下のURLはソースコードのダウンロード用です。

http://xiazai.jb51.net/201506/other/net_spider.rar

使用する場合は、まず mysql で net_spider データベースを作成し、次に db.sql を使用して関連テーブルを作成します。次に、config.php で mysql のユーザー名とパスワードを設定します。
ついに

コードをコピーしますコードは次のとおりです:
php -f Spider.php 深さ(数値) URL

仕事を始めることができます。

など

コードをコピーしますコードは次のとおりです:
php -f Spider.php 20 http://news.sina.com.cn

今思うと、クローラーであることは実際にはそれほど複雑ではありません。データの保存と取得が難しいのです。現在のデータベースには 15G という最大のデータテーブルがあり、mysql でのクエリではすでにこのデータを処理する方法を見つけようとしています。この点ではGoogleを本当に尊敬します

リーリー

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか？Apr 17, 2025 am 12:25 AM

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1）スカラータイプのヒント：php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3）ユニオンタイプのプロンプト：PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4）Nullable Typeプロンプト：null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPは、オブジェクトのクローニング（クローンキーワード）と__Clone Magicメソッドをどのように処理しますか？Apr 17, 2025 am 12:24 AM

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHP対Python：ユースケースとアプリケーションApr 17, 2025 am 12:23 AM

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。

さまざまなHTTPキャッシングヘッダー（例：キャッシュコントロール、ETAG、ラスト変更）を説明してください。Apr 17, 2025 am 12:22 AM

HTTPキャッシュヘッダーの主要なプレーヤーには、キャッシュコントロール、ETAG、およびラスト修飾が含まれます。 1.Cache-Controlは、キャッシュポリシーを制御するために使用されます。例：キャッシュコントロール：Max-Age = 3600、public。 2。ETAGは、一意の識別子を介してリソースの変更を検証します。例：ETAG： "686897696A7C876B7E"。 3. Last-Modifiedは、リソースの最後の変更時間を示しています。

PHPでの安全なパスワードハッシュ（例：Password_hash、password_verify）を説明します。 MD5またはSHA1を使用してみませんか？Apr 17, 2025 am 12:06 AM

PHPでは、Password_hashとpassword_verify関数を使用して安全なパスワードハッシュを実装する必要があり、MD5またはSHA1を使用しないでください。 1）password_hashセキュリティを強化するために、塩値を含むハッシュを生成します。 2）password_verifyハッシュ値を比較して、パスワードを確認し、セキュリティを確保します。 3）MD5とSHA1は脆弱であり、塩の値が不足しており、最新のパスワードセキュリティには適していません。

PHP：サーバー側のスクリプト言語の紹介Apr 16, 2025 am 12:18 AM

PHPは、動的なWeb開発およびサーバー側のアプリケーションに使用されるサーバー側のスクリプト言語です。 1.PHPは、編集を必要とせず、迅速な発展に適した解釈言語です。 2。PHPコードはHTMLに組み込まれているため、Webページの開発が簡単になりました。 3。PHPプロセスサーバー側のロジック、HTML出力を生成し、ユーザーの相互作用とデータ処理をサポートします。 4。PHPは、データベースと対話し、プロセスフォームの送信、サーバー側のタスクを実行できます。

PHPとWeb：その長期的な影響を調査しますApr 16, 2025 am 12:17 AM

PHPは過去数十年にわたってネットワークを形成しており、Web開発において重要な役割を果たし続けます。 1）PHPは1994年に発信され、MySQLとのシームレスな統合により、開発者にとって最初の選択肢となっています。 2）コア関数には、動的なコンテンツの生成とデータベースとの統合が含まれ、ウェブサイトをリアルタイムで更新し、パーソナライズされた方法で表示できるようにします。 3）PHPの幅広いアプリケーションとエコシステムは、長期的な影響を促進していますが、バージョンの更新とセキュリティの課題にも直面しています。 4）PHP7のリリースなど、近年のパフォーマンスの改善により、現代の言語と競合できるようになりました。 5）将来的には、PHPはコンテナ化やマイクロサービスなどの新しい課題に対処する必要がありますが、その柔軟性とアクティブなコミュニティにより適応性があります。

なぜPHPを使用するのですか？利点と利点が説明されましたApr 16, 2025 am 12:16 AM

PHPの中心的な利点には、学習の容易さ、強力なWeb開発サポート、豊富なライブラリとフレームワーク、高性能とスケーラビリティ、クロスプラットフォームの互換性、費用対効果が含まれます。 1）初心者に適した学習と使用が簡単。 2）Webサーバーとの適切な統合および複数のデータベースをサポートします。 3）Laravelなどの強力なフレームワークを持っています。 4）最適化を通じて高性能を達成できます。 5）複数のオペレーティングシステムをサポートします。 6）開発コストを削減するためのオープンソース。

See all articles