ホームページ  >  記事  >  バックエンド開発  >  PHPデータクローリングcurlサンプルの詳細説明

PHPデータクローリングcurlサンプルの詳細説明

小云云
小云云オリジナル
2018-03-06 10:21:561835ブラウズ

まず第一に、ページ データ コンテンツには 2 つの方法があることを知っておく必要があります (クロールされるデータの方法は 2 つだけです)。1 つ目は直接レンダリング (テンプレート ページへの mvc テンプレートの割り当てに基づいて)、2 つ目は取得です。インターフェイスを介して JS によってレンダリングされます (インターフェイスによって返されます))

次に、データを探している場合:

直接アクセスされたアドレスが、必要なコンテンツ (テンプレート ページに割り当てられた) のテキストを取得できるかどうかによって異なります。 mvc テンプレートに基づいています)

そうでない場合は、それがそうであるかどうかを確認してください。どのインターフェースが取得されているかを確認してください。

以降のリンクについても同じことが当てはまります:

直接レンダリングされる場合、データとタグは 3 番目の方法で分離できます。 xpath や csspath などのパーティー ライブラリ

直接レンダリングされない場合、JS は次の訪問のために組み合わせる必要があるパラメーターに従って (Cookie を使用した) リンクをつなぎ合わせる必要があります

注 1:値を何度も取得できないため、手動で変更する必要があります。 Cookie

注 2: インターフェースの場合、URL のパラメーターが変更されるため、リクエストされた URL は毎日変更されることに注意してください。 、クロールダウンできなくなります(このようにURLをデータベースに保存し、クロール時に確認できます)出てきて、パラメーターをスペルアウトして、それらをcurlに投げます)

注3:また、 WeChat の速度制限については知りません。時間に制限がない場合は、1 ラウンドを約 10 秒で登るだけです

最も重要なことは、クロールする前にログインをシミュレートする必要がないものもあります。ログインしたら、インターフェイスを見つけてブラウザで実行してみてください (データが返された場合は、リクエストに必要な Cookie とパラメータだけを持ってくる必要があることがわかります) コードのスキャンをシミュレートする必要はありません。

関連する推奨事項:

PHPでのCURLの使用の詳細な説明

PHPの強力なCURL POSTクラス

PHPのcurl偽装ソース情報

以上がPHPデータクローリングcurlサンプルの詳細説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。