検索
ホームページphp教程php手册curl データ収集シリーズの単一ページ収集関数 get_html

データ収集を行う場合、私たちはcurl+通常のメソッドを使用して必要なデータを収集することがよくあります。私自身の仕事の経験に基づいて、ブログパークに書いたいくつかの一般的なカスタム関数を共有します。不適切な記述があった場合は、お願いします。アドバイスありがとうございます

シリーズなので1日や2日では終わらないので、順次公開していきます

概要:

1.curlデータ収集シリーズのシングルページ収集機能get_html

2.curlデータ収集シリーズの複数ページ並列収集機能get_htmls

3.curlデータ収集系列の定常処理関数get _matches

4.curlデータ収集シリーズのコード分離

5.curlデータ取得シリーズの並列ロジック制御機能web_spider

、、、

単一ページの収集は、データ収集プロセスで最も一般的に使用される機能であり、サーバーのアクセス制限下でのみ使用できる場合があります。これは遅いですが、簡単に制御できるため、一般的に使用される を作成するのは非常に簡単です。 curl関数呼び出し。重要

私たちは Baidu と NetEase に精通しているため、これら 2 つの Web サイトのホームページのコレクションを例として使用します

最も簡単な書き方:

curl データ収集シリーズの単一ページ収集関数 get_html
リーリー
curl データ収集シリーズの単一ページ収集関数 get_html

頻繁に使用するため、curl_setopt_array を使用して関数の形式で記述することができます:

curl データ収集シリーズの単一ページ収集関数 get_html
リーリー
curl データ収集シリーズの単一ページ収集関数 get_html
リーリー

正しいページを取得するために、いくつかの特定のパラメーターを渡す必要がある場合があります。たとえば、今すぐ NetEase ページを取得したい場合:

リーリー

何も入っていない空白が表示されます。次に、curl_getinfo を使用して関数を作成し、何が起こるかを確認します。

curl データ収集シリーズの単一ページ収集関数 get_html リーリー
curl データ収集シリーズの単一ページ収集関数 get_html

http_code 302

リダイレクトされていることがわかります。この時点で、いくつかのパラメーターを渡す必要があります: リーリー

なぜそのようなページが私たちのコンピュータがアクセスするページと異なるのかがわかるでしょう? ? ?

サーバーがクライアントがどのデバイス上にあるかを判断するにはパラメーターがまだ十分ではないようなので、通常のバージョンが返されます

USERAGENT

を送信する必要があるようです

リーリー

OK

これでページが出てきました。基本的にこの

get_html関数は基本的にそのような拡張機能を実現できます もちろん、NetEase の Web ページを明確に理解している場合は、それを収集するだけで済みます。

リーリー

この方法で普通に集める事も出来ます
今日も終わりバイバイ!!

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター