Python クローラーが 403 エラーを返す解決策

問題

データをクロールするとき、通常、デバッグ情報は次のとおりです:

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)

が表示される場合、Web サイトが Web クローリング防止技術 (Amazon が使用) を使用していることを意味します。ユーザーエージェントを確認するのは比較的簡単です。 (ユーザーエージェント) 情報。

解決策

以下に示すように、リクエストヘッダーでユーザーエージェントを構築します:

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})

以上がPython クローラーが 403 エラーを返す解決策の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

続きを見る