検索

ホームページ  >  に質問  >  本文

Python - Scrapy は CNKI 応答の重複コンテンツをキャプチャします

ページめくりを要求する URL をトラバースします

リーリー

結果として、応答リクエストは成功しましたが、内容は毎回同じです。これは最初のリクエストの内容です。ただし、Postman を使用してページ分割された URL を個別にリクエストすると、この問題は発生しません。 = = 禁止されたことはありますか? 以前はこのようなことはありませんでした

黄舟黄舟2792日前1010

全員に返信(3)返信します

  • 怪我咯

    怪我咯2017-06-30 09:57:07

    次に、postman またはブラウザを使用するときに要求されるヘッダーと、scrapy を使用するときに要求されるヘッダーの違いを分析する必要があります

    返事
    0
  • 三叔

    三叔2017-06-30 09:57:07

    アンチクロールによって認識されています

    返事
    0
  • PHP中文网

    PHP中文网2017-06-30 09:57:07

    次のページが正しくクロールされているかどうかを確認するには、コンソールによって出力されたログを見てください
    2017-06-29 09:26:13 [scrapy] DEBUG: <200 http:xx/page/x> からスクレイピングされました、
    Pay最後のx (http:xx/page/x) が変わっているかどうかに注目してください

    返事
    0
  • キャンセル返事