ホームページ  >  に質問  >  本文

Python - Scrapy の settings.py で USER_AGENT が有効になっているのに何も収集できないのはなぜですか?レベルを閉じると、Web ページを収集できます。

Baidu Tieba を収集しました

Python 2.7.11

スクレイピー1.3.3

user_agent が settings.py で有効になっている限り、次のどのメソッドが使用されても問題ありません。何も選ぶことができませんでした。

そして、この user_agent をオフにします。どれも普通に回収できます。これは変ですか?理由が分かりませんか?

USER_AGENT = 'xxxxxxxxxxxxxxxxxxxxxx'

または、ミドルウェア クラス RotateUserAgentMiddleware(UserAgentMiddleware):

を作成します。

settings.pyで設定します

DOWNLOADER_MIDDLEWARES = {

リーリー

}

user_agent が有効である限り、何も収集されません。走った後。次のコードを出力します:

リーリー リーリー

次のいずれの方法が使用されても問題ありません。何も選ぶことができませんでした。

そして、この user_agent をオフにします。どれも普通に回収できます。これは変ですか?理由が分かりませんか?

伊谢尔伦伊谢尔伦2711日前856

全員に返信(3)返信します

  • 为情所困

    为情所困2017-05-18 10:51:23

    クロールした Web サイトにはクローラー対策が講じられている可能性があります

    返事
    0
  • 巴扎黑

    巴扎黑2017-05-18 10:51:23

    クロール防止後、Scrapy は独自に定義された useragent を有効にすると、先頭に追加されます。
    模倣する useragent プールを作成することをお勧めします。ブラウザを定期的またはランダムに置き換えて、最も安全です

    返事
    0
  • 大家讲道理

    大家讲道理2017-05-18 10:51:23

    User_Agent ではなく、User-Agent です。以前にもこの問題がありましたが、後で変更しただけです

    返事
    0
  • キャンセル返事