python - 爬虫在运行一段时间后开始不断获得504的StatusCode，是否是对方站点的反爬虫策略导致？有何回避策略？

Question

最近初学用Python写网页爬虫视图扒取一个站点上的特定数据。 最近碰到的一个现象是，当爬虫运行了一段时间后(根据Fiddler抓包的结果来看，大概是发送了将近3万个http请求后)，爬虫的获取的http响应的StatusCode骤...

PHP中文网 · Answer

代理选项被勾选，是fiddler造成的。以前经常使用fiddler抓包，一段时间后，不能访问网络，去掉勾选代理选项，就解决问题了

ringa_lee · Answer

可以关注一下我写的一个开源组件，设置一个代理服务器池，防止反爬虫策略的屏蔽，并进行了自动调节请求频率，处理异常请求，优先选取响应快的代理。https://github.com/letcheng/ProxyPool

PHP中文网 · Answer

1.代理

2.模拟完全的请求

3.合理的间隔

4.adsl断线重拨

PHPz · Answer

办法：
更换IP，使用代理IP，网上有很多免费喝付费的
免费IP：http://www.uuip.net/
付费IP：http://www.daili666.net/

迷茫 · Answer

通过代理去访问试试

天蓬老师 · Answer

为什么这个问题的答案是这样的，50x错误在于网站本身啊