Python クローラーを初めて使用する友人の多くは、Python クローラーでのページめくりの問題に遭遇するでしょう。
クロールする必要がある Web サイトは、図に示すとおりです。
この植物には 4 ページがクエリされています。通常、ページをめくるとき、最初に考えるのはページ上の次のページをクリックすることですが、クローラーを作成する場合も同様で、ページ上のリンクを抽出してアクセスしたいと考えます。しかし、そうするのは面倒で非効率的です。
ページをめくるには、通常 2 つの方法があります:
1. Web サイトがページをめくるときのリンクの変化を観察します
2. クローラーを作成するリクエスト メソッドが投稿リクエストを送信した後、投稿データの変化が定期的に行われているかどうかを観察する必要があります。
今日は最初の方法について説明します。
図に示すように、次のボタンをクリックすると、ページを見ると、アドレス バーのリンクが変化しているのがわかります
リンクにページ キーワードがあり、それがたまたま 2 であることに驚くかもしれません。テストして、リンク内のページの値を 3 に変更すると、アクセスが正常に行われることがわかります。まさに 3 ページ目です。そこで、ページをめくってリンク内のキーワードの値を変更する方法を見つけました。
ページめくりプロセスの手順は次のとおりです:
1. Web ページの総数を取得します
2. for ループを使用して、page の値を次のように変更します。ページをめくる。
特定のページめくりコードは次のように実装されます。
総ページ番号の取得
ネットワーク リクエスト メソッド
リクエスト ヘッダーのページ値を変更する
Python 関連の技術記事の詳細については、Python チュートリアル##をご覧ください。 # 学べるコラム!
以上がPythonクローラーでページめくりを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。