Maison  >  Questions et réponses  >  le corps du texte

Web crawler - python explore les sites Web et analyse le contenu non-json

Je viens d'apprendre à obtenir du contenu json, mais le site Web que j'ai exploré aujourd'hui ne renvoie pas de contenu json et un nombre aléatoire est généré après chaque lien de demande

Je ne sais pas si cela affectera le contenu que je souhaite explorer

Le contenu que vous devez obtenir est le contenu au milieu de l'image ci-dessous


Lien vers le site http://www.szse.cn/main/discl...

Code que j'ai moi-même essayé :

import requests

dir = '/Users/S1Lence/Desktop/new_html/szse/许可类重组问询函'

headers = {'Host': 'www.szse.cn',
       'Referer': 'http://www.szse.cn/main/disclosure/jgxxgk/wxhj/',
       'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
       }
payload= {'ACTIONID': '7',          
       'AJAX': 'AJAX-TRUE',
      'CATALOGID': 'main_wxhj',
      'TABKEY': 'tab1',
      'selecthjlb': '许可类重组问询函',
      'tab1PAGENO': '1',
      'tab1PAGECOUNT': '7',
      'tab1RECORDCOUNT': '63',
      'REPORT_ACTION': 'navigate'}
res = requests.post('http://www.szse.cn/szseWeb/FrontControllere', data=payload)
print(res.text)

Le contenu de sortie n'est pas celui que je souhaite. Comment dois-je l'explorer ?

学习ing学习ing2669 Il y a quelques jours1065

répondre à tous(2)je répondrai

  • 黄舟

    黄舟2017-06-28 09:28:28

    Copiez ses informations d'en-tête et utilisez-les. .

    répondre
    0
  • 漂亮男人

    漂亮男人2017-06-28 09:28:28

    L'adresse URL de votre message est erronée, elle devrait l'être

    http://www.szse.cn/szseWeb/FrontController.szse

    répondre
    0
  • Annulerrépondre