Rumah >pembangunan bahagian belakang >Tutorial Python >Python 爬虫返回403错误解决方法

Python 爬虫返回403错误解决方法

伊谢尔伦asal: 2017-04-29 10:05:506603semak imbas

问题

抓取数据时，通常调试信息是：

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)

如果出现

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)

表示网站采用了防爬技术anti-web-crawling technique（Amazon所用），比较简单即会检查用户代理（User Agent）信息。

解决方法

在请求头部构造一个User Agent，如下所示：

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})

Atas ialah kandungan terperinci Python 爬虫返回403错误解决方法. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：学习Python到底能干什么Artikel seterusnya：python过滤掉字符串数组中某个敏感词

Artikel berkaitan

Lihat lagi