Heim  >  Fragen und Antworten  >  Hauptteil

Webcrawler – Python crawlt Websites und analysiert Nicht-JSON-Inhalte

Ich habe gerade gelernt, JSON-Inhalte abzurufen, aber die Website, die ich heute gecrawlt habe, gibt keine JSON-Inhalte zurück und nach jedem Anforderungslink wird eine Zufallszahl generiert

Ich weiß nicht, ob es Auswirkungen auf den Inhalt hat, den ich crawlen möchte

Der Inhalt, den Sie benötigen, ist der Inhalt in der Mitte des Bildes unten


Website-Link http://www.szse.cn/main/discl...

Code, den ich selbst ausprobiert habe:

import requests

dir = '/Users/S1Lence/Desktop/new_html/szse/许可类重组问询函'

headers = {'Host': 'www.szse.cn',
       'Referer': 'http://www.szse.cn/main/disclosure/jgxxgk/wxhj/',
       'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
       }
payload= {'ACTIONID': '7',          
       'AJAX': 'AJAX-TRUE',
      'CATALOGID': 'main_wxhj',
      'TABKEY': 'tab1',
      'selecthjlb': '许可类重组问询函',
      'tab1PAGENO': '1',
      'tab1PAGECOUNT': '7',
      'tab1RECORDCOUNT': '63',
      'REPORT_ACTION': 'navigate'}
res = requests.post('http://www.szse.cn/szseWeb/FrontControllere', data=payload)
print(res.text)

Der Ausgabeinhalt entspricht nicht meinen Wünschen. Wie soll ich crawlen?

学习ing学习ing2669 Tage vor1068

Antworte allen(2)Ich werde antworten

  • 黄舟

    黄舟2017-06-28 09:28:28

    把他的header信息拷过来用。。

    Antwort
    0
  • 漂亮男人

    漂亮男人2017-06-28 09:28:28

    你post的url地址写错了,应该是

    http://www.szse.cn/szseWeb/FrontController.szse

    Antwort
    0
  • StornierenAntwort