cari

Rumah  >  Soal Jawab  >  teks badan

html - Python爬虫,翻页数据怎么爬,URL不变

网址:http://quote.eastmoney.com/ce...
我想爬所有页的名称数据,(这里只有两页),判断有没有下一页的条件该怎么写呢?
代码:

from selenium import webdriver
driver=webdriver.PhantomJS()

url='http://quote.eastmoney.com/center/list.html#28003684_0_2'
driver.get(url)
usoup = BeautifulSoup(driver.page_source, 'xml')
n=[]
while True:
     t=usoup.find('table',{'id':'fixed'})
     utable=t.find_all('a',{'target':'_blank'})
     for i in range(len(utable)):
          if i % 6 ==1:
             n.append(utable[i].text)
          if #停止条件怎么写:
            break
     driver.find_element_by_xpath(r'//*@id="pagenav"]/a[2]').click()
     usoup = BeautifulSoup(driver.page_source, 'xml')

后面这里就不会写了。。。

大家讲道理大家讲道理2795 hari yang lalu851

membalas semua(4)saya akan balas

  • 巴扎黑

    巴扎黑2017-04-18 10:33:18

    Anda boleh menilai entri pada setiap halaman, terdapat 20 entri dalam setiap halaman Jika halaman semasa mempunyai kurang daripada 20 entri, ini bermakna halaman ini adalah halaman terakhir, dan anda harus berhenti selepas merangkak halaman semasa<. 🎜>

    balas
    0
  • PHP中文网

    PHP中文网2017-04-18 10:33:18

    Sebenarnya, bukankah borang ini mempunyai antara muka pulangan jsonp? Kenapa masih mendaki?

    balas
    0
  • PHPz

    PHPz2017-04-18 10:33:18

    Ia menggunakan antara muka jsonp, ambil sahaja.

    Jika anda perlu merangkaknya, anda hanya boleh menggunakan halaman simulasi seperti selenium + phantomjs untuk mendapatkannya.

    balas
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:33:18

    http://nufm.dfcfw.com/EM_Fina...{pangkat:[(x)],halaman:(pc)}&token=7bc05d0d4c3c22ef9fca8c2a912d779c&jsName=quote_123&_g=0.53851919>

    balas
    0
  • Batalbalas