Maison  >  Questions et réponses  >  le corps du texte

python - 如何爬取URL不变的网站内容

<a href="javascript:__doPostBack('AspNetPager1','3')" class="Pager" title="转到第3页" style="margin-right:5px;">[3]</a>
function __doPostBack(eventTarget, eventArgument) {
    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }

对于这种翻页方式,怎么用爬虫爬取呢?网站翻页后URL没有发生改变。我之前使用bs4和selenium模拟翻页操作再爬取,可是数据量太大,这种方法速度太慢。80%的时间都浪费在翻页上。

伊谢尔伦伊谢尔伦2763 Il y a quelques jours1662

répondre à tous(2)je répondrai

  • 高洛峰

    高洛峰2017-04-18 10:15:25

    Ce problème doit être analysé spécifiquement sur le site Web. Différents sites Web auront des méthodes de traitement différentes.
    Supposons maintenant que dans une situation plus courante, cette méthode puisse être utilisée :

    1. Activer le mode de débogage du navigateur

    2. Cliquez sur la page suivante pour afficher la réponse de la requête réseau correspondante. Cette réponse est généralement l'URL de la page suivante

    3. .
    4. Afficher l'en-tête de la requête et les paramètres de la requête, analyser et trouver le modèle

    5. Utilisez Python pour simuler des requêtes HTTP afin d'obtenir des URL par lots

    6. Informations d'exploration, recommandez LXML pour l'analyse HTML

    Pour savoir comment simuler les requêtes HTTP, veuillez vous référer à python pour simuler les requêtes HTTP

    répondre
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:15:25

    Je suppose qu'il y a une requête AJAX, récupérez simplement la requête directement

    répondre
    0
  • Annulerrépondre