from urllib.request import *
from http.cookiejar import *
url = 'http://www.kuaidaili.com/proxylist/8/'
cookies = MozillaCookieJar()
hander = HTTPCookieProcessor(cookies)
opener = build_opener(hander)
install_opener(opener)
html = urlopen(url).read()
print(html)
这个网页访问是需要cookie的,我用上述方法访问,显示:httperror:521错误异常
PHP中文网2017-04-18 10:33:00
これがこの Web サイトの戦略です。最初の訪問では 512 が返されますが、ページにはまだコンテンツがあります
。 リーリー彼は js 内で重要なキーを隠し、eval 関数を通じて変換ジャンプを実行します。これはコードを混乱させる役割を果たしますが、Selenium を使用することでこの問題を解決できる可能性があります
。説明: プロキシ Web サイト自体はクローラーのプロキシ プロバイダーであり、クロール防止において非常に優れた機能を果たします。クローラーはメインコンテンツを取得することに重点を置くべきだと思います。費用を節約するために無料のプロキシをクロールすると、時間がかかりすぎて効率が低くなります。私は会社で kuadaili の有料エージェントを直接使用しています。基本的にエージェントの取得についてはあまり考えていません。同時実行性の高い条件下でエージェントをより効果的に活用する方法を考えるだけです。
返事0