ホームページ  >  に質問  >  本文

网页爬虫 - python 爬虫问题,请问为什么我爬不下这个的数据?求解,网站都能打开。

import sys
import time
import requests
import json
reload(sys)
sys.setdefaultencoding('utf-8')
time=int(time.time())
session=requests.session()
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'
headers={'User-Agent':user_agent,'Host':'xygs.gsaic.gov.cn','Connection':'keep-alive','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
params={'pripid':'62030200052016012700011'}
cookies={'JSESSIONID':'2B33BC6D34DF44BE8D76C2AE20701D95'}
Url='http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
captcha=session.get(Url,headers=headers,params=(params),cookies=cookies).text
print captcha

得不到表格里的信息,求解为什么啊?

PHP中文网PHP中文网2741日前225

全員に返信(2)返信します

  • 高洛峰

    高洛峰2017-04-17 17:51:31

    https://segmentfault.com/q/1010000005117988
    前の質問で問題が解決されたかどうかはわかりません。
    回答がないのはなぜですか?解決しました。この質問を受け入れることを忘れないでください。 コードは次のとおりです:

    リーリー

    返事
    0
  • 迷茫

    迷茫2017-04-17 17:51:31

    Web フォームは Ajax テクノロジーを使用しています。 Chrome ツールのネットワークを使用して、テーブルのソースを表示できます。
    さらに、クローラーは Python 言語のみに基づいているわけではありません。 Web 開発に関連する知識、特に js と http プロトコルを学んだほうがよいでしょう
    申し訳ありませんが、携帯電話で回答したためよく読んでいませんでした

    先ほど確認しましたが、Accept-Language プロトコル ヘッダーが欠落しているためです

    返事
    0
  • キャンセル返事