検索

ホームページ  >  に質問  >  本文

python - 抓取一个代理ip网页,使用cookie但是报错

from urllib.request import *
from http.cookiejar import *
url = 'http://www.kuaidaili.com/proxylist/8/'
cookies = MozillaCookieJar()
hander = HTTPCookieProcessor(cookies)
opener = build_opener(hander)
install_opener(opener)
html = urlopen(url).read()
print(html)

这个网页访问是需要cookie的,我用上述方法访问,显示:httperror:521错误异常

巴扎黑巴扎黑2787日前693

全員に返信(1)返信します

  • PHP中文网

    PHP中文网2017-04-18 10:33:00

    これがこの Web サイトの戦略です。最初の訪問では 512 が返されますが、ページにはまだコンテンツがあります

    。 リーリー

    彼は js 内で重要なキーを隠し、eval 関数を通じて変換ジャンプを実行します。これはコードを混乱させる役割を果たしますが、Selenium を使用することでこの問題を解決できる可能性があります

    説明: プロキシ Web サイト自体はクローラーのプロキシ プロバイダーであり、クロール防止において非常に優れた機能を果たします。クローラーはメインコンテンツを取得することに重点を置くべきだと思います。費用を節約するために無料のプロキシをクロールすると、時間がかかりすぎて効率が低くなります。私は会社で kuadaili の有料エージェントを直接使用しています。基本的にエージェントの取得についてはあまり考えていません。同時実行性の高い条件下でエージェントをより効果的に活用する方法を考えるだけです。

    返事
    0
  • キャンセル返事