Rumah  >  Soal Jawab  >  teks badan

python - 如何爬取URL不变的网站内容

<a href="javascript:__doPostBack('AspNetPager1','3')" class="Pager" title="转到第3页" style="margin-right:5px;">[3]</a>
function __doPostBack(eventTarget, eventArgument) {
    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }

对于这种翻页方式,怎么用爬虫爬取呢?网站翻页后URL没有发生改变。我之前使用bs4和selenium模拟翻页操作再爬取,可是数据量太大,这种方法速度太慢。80%的时间都浪费在翻页上。

伊谢尔伦伊谢尔伦2740 hari yang lalu1580

membalas semua(2)saya akan balas

  • 高洛峰

    高洛峰2017-04-18 10:15:25

    Masalah ini perlu dianalisis secara khusus pada laman web yang berbeza akan mempunyai kaedah pengendalian yang berbeza.
    Sekarang andaikan bahawa dalam situasi yang lebih biasa, kaedah ini boleh digunakan:

    1. Hidupkan mod nyahpepijat penyemak imbas

    2. Klik halaman seterusnya untuk melihat Respons permintaan rangkaian yang sepadan biasanya adalah URL halaman seterusnya

    3. Lihat pengepala permintaan dan parameter permintaan permintaan, analisis dan cari corak

    4. Gunakan python untuk mensimulasikan permintaan HTTP untuk mendapatkan URL dalam kelompok

    5. Maklumat merangkak, mengesyorkan LXML untuk penghuraian HTML

    Mengenai cara mensimulasikan permintaan HTTP, sila rujuk python untuk mensimulasikan permintaan HTTP

    balas
    0
  • 天蓬老师

    天蓬老师2017-04-18 10:15:25

    Saya rasa ada permintaan AJAX, cuma grab permintaan terus

    balas
    0
  • Batalbalas