recherche

Maison  >  Questions et réponses  >  le corps du texte

html - Python爬虫,翻页数据怎么爬,URL不变

网址:http://quote.eastmoney.com/ce...
我想爬所有页的名称数据,(这里只有两页),判断有没有下一页的条件该怎么写呢?
代码:

from selenium import webdriver
driver=webdriver.PhantomJS()

url='http://quote.eastmoney.com/center/list.html#28003684_0_2'
driver.get(url)
usoup = BeautifulSoup(driver.page_source, 'xml')
n=[]
while True:
     t=usoup.find('table',{'id':'fixed'})
     utable=t.find_all('a',{'target':'_blank'})
     for i in range(len(utable)):
          if i % 6 ==1:
             n.append(utable[i].text)
          if #停止条件怎么写:
            break
     driver.find_element_by_xpath(r'//*@id="pagenav"]/a[2]').click()
     usoup = BeautifulSoup(driver.page_source, 'xml')

后面这里就不会写了。。。

大家讲道理大家讲道理2787 Il y a quelques jours842

répondre à tous(4)je répondrai

  • 巴扎黑

    巴扎黑2017-04-18 10:33:18

    Vous pouvez juger les entrées sur chaque page. Il y a 20 entrées sur chaque page. Si la page actuelle contient moins de 20 entrées, cela signifie que cette page est la dernière page. Vous devez vous arrêter après avoir exploré la page actuelle<🎜. >

    répondre
    0
  • PHP中文网

    PHP中文网2017-04-18 10:33:18

    Au fait, ce formulaire n'a-t-il pas une interface de retour jsonp ? Pourquoi encore grimper ?

    répondre
    0
  • PHPz

    PHPz2017-04-18 10:33:18

    Il utilise l'interface jsonp, prenez-le.

    Si vous devez l'explorer, vous ne pouvez utiliser qu'une page de simulation comme selenium + phantomjs pour l'obtenir.

    répondre
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:33:18

    http://nufm.dfcfw.com/EM_Fina...{rank:[(x)],pages:(pc)}&token=7bc05d0d4c3c22ef9fca8c2a912d779c&jsName=quote_123&_g=0.5385195357178545

    répondre
    0
  • Annulerrépondre