検索

ホームページ  >  に質問  >  本文

Python - クローラーがログインをシミュレートした後、csdn バックグラウンド記事リストをクロールする際に問題が発生しました

個人情報をクロールしてキャプチャできるため、クローラーは確かにログインしましたが、次の図の URL はキャプチャできません:

URL は http://write.blog.csdn.net/postlist です。これは csdn バックエンドです。

コードを投稿します。py2.7 用です。

リーリー

上記のコードの出力は次のとおりです。 リーリー

ringa_leeringa_lee2756日前1071

全員に返信(2)返信します

  • 高洛峰

    高洛峰2017-05-18 10:53:59

    このアドレスは 302 ジャンプを返すため、返されたヘッダーの場所に基づいてリクエストを続行し、返されたコンテンツを分析して処理を続行する必要があります。ブラウザは、これらの 302 ジャンプを実行し、返された js などを実行するのに役立ちます。コンテンツを手動でキャプチャするには、自分で処理する必要があります。

    返事
    0
  • 迷茫

    迷茫2017-05-18 10:53:59

    Cookieを使用するだけです

    返事
    0
  • キャンセル返事