cari

Rumah  >  Soal Jawab  >  teks badan

网页爬虫 - python 爬虫问题,请问为什么我爬不下这个的数据?求解,网站都能打开。

import sys
import time
import requests
import json
reload(sys)
sys.setdefaultencoding('utf-8')
time=int(time.time())
session=requests.session()
user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.87 Safari/537.36'
headers={'User-Agent':user_agent,'Host':'xygs.gsaic.gov.cn','Connection':'keep-alive','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'}
params={'pripid':'62030200052016012700011'}
cookies={'JSESSIONID':'2B33BC6D34DF44BE8D76C2AE20701D95'}
Url='http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
captcha=session.get(Url,headers=headers,params=(params),cookies=cookies).text
print captcha

得不到表格里的信息,求解为什么啊?

PHP中文网PHP中文网2812 hari yang lalu269

membalas semua(2)saya akan balas

  • 高洛峰

    高洛峰2017-04-17 17:51:31

    https://segmentfault.com/q/1010000005117988
    Saya telah membantu anda menjawab soalan sebelum ini. Saya tidak tahu jika ia telah menyelesaikan masalah anda kod untuk soalan ini adalah seperti berikut:

    import requests
    
    headers = {
        'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6'
    }
    url = 'http://xygs.gsaic.gov.cn/gsxygs/smallEnt!view.do?pripid=62030200052016012700011'
    r = requests.get(url, headers=headers)
    print r.text

    balas
    0
  • 迷茫

    迷茫2017-04-17 17:51:31

    Borang web menggunakan teknologi ajax. Anda boleh menggunakan Rangkaian dalam alat chrome untuk melihat sumber jadual.
    Selain itu, crawler bukan sahaja berdasarkan bahasa python. Anda lebih baik mempelajari sedikit pengetahuan berkaitan pembangunan web, terutamanya protokol js dan http
    Maaf, saya tidak membacanya dengan teliti kerana saya menjawab melalui telefon bimbit saya

    Saya baru sahaja menyemak, ini kerana anda tiada pengepala protokol Accept-Language

    balas
    0
  • Batalbalas