写爬虫爬网站内容时遇到ip被封，请问如何使用代理？

Question

写爬虫爬网站内容时遇到ip被封，请问如何使用代理？用了网上搜到的http://www.cnproxy.com/ 代理服务器中的ip和端口，没有一个可以用的。。。请高手帮忙。小弟多谢

代言 · Answer

现在网上付费的代理很多，价格都很便宜，比用免费的好多了，当时我买的大概不到1分钱一个吧。我当时花了几十块钱，基本上就扛了一两个月的爬虫使用。
因为卖代理的也是通过各种渠道去抓的一些http代理，成本几乎为0。
当时买代理那个网站好像已经被关了，他们做得还比较好，还提供http接口取代理ip，还可以选择代理的地点，类型等等，非常方便。
据我当时的经验，这些代理也都还可以。程序支持curl的话，直接设置代理就行了。如果再完善一点，就把 X-FORWORD-FOR等类似的能够溯源的HTTP头也人为设置一下。基本上封IP这一套就对你没用了。

代言 · Answer

(1) 我觉得解决这个问题的终极办法是写出不让人讨厌的爬虫；
(2) 代理也分很多种，有的可以完全隐藏你的源IP，有的不可以，所以不要指望代理可以解决你的所有问题，而且，免费的代理基本是不可能隐藏你的源IP的；
(3) 或者，你可以更改系统底层TCPIP实现，在网络层动手脚。

代言 · Answer

考虑一下几点建议：
1.使用VPN，这样就完全保证了你的出口IP地址是VPN服务器端的IP。
2.使用HTTP代理，具体代码可以都可以设置代理方式，不要使用免费代理，不可靠，自己用VPS来搭建或者自己写，我个人就是自己用Node.js写的代理服务器在美国
3.爬虫抓取过程中请遵循robot协议，这是默认的业界标准

写爬虫爬网站内容时遇到ip被封，请问如何使用代理？

reply all(3)I'll reply