crawler - Wie schließe ich das Umblättern einer JavaScript-Funktion im Python-Crawler ab?

Question

Als ich eine Webseite gecrawlt habe, ist mir aufgefallen, dass das Umblättern der Seite durch eine solche Funktion implementiert wurde. Nach dem Umblättern hat sich die Seiten-URL nicht geändert: {code...} Ich habe eine solche Funktion geschrieben, um zu versuchen, das Umblättern zu erreichen: {code.. .} Das Umblättern schlug jedoch nach dem Aufruf von turn_page() fehl. Wie soll ich dieses Problem lösen?

阿神 · Answer

推荐使用 selenium
例如，如果需要点击界面上，下一页的按钮，或者说需要输入上下左右键，页面可以翻页，selenium webdriver可以做到，给出一个参考（我以前用来爬起点中文网的小说）
selenium 可以与页面进行交互，单击，双击，输入，等待页面加载（隐式等待，和显式等待）。。。。

from selenium import webdriver
# from selenium.webdriver.common.keys import Keys

#driver = webdriver.PhantomJS(executable_path="D:\phantomjs-2.1.1-windows\bin\phantomjs")
# 我的windows 已配置环境变量，不需指定 executable_path，使用 Chrome需要对应的浏览器以及驱动程序
driver = webdriver.Chrome()

# url 为你需要加载的页面url
url = 'http://sns.icourses.cn/*****'

# 打开页面
driver.get(url)

# 在你的例子中，是需要点击 button ,通过class 属性获取到button，然后执行单击 .click()
# 如果需要准确定位，可以自行搜索其他的 find_
driver.find_element_by_class_name("buttonJump").click()

# selenium webdriver 还有很多其它高级的用法，自行谷歌，你这个问题，搜索应该是能得到答案的，

PHP中文网 · Answer

分几种情况，
1、页面上通过 js 效果实现滑动或者点击实现翻页；
2、页面上通过超链接点击实现翻页；

可以通过 chrome 的开发者工具中的 network 分析得到结果反会的是 html 页面还是反馈 json 渲染。
json 的话就好办了，直接拿结果。普通html 页面需要使用正则匹配到换页。然后将链接放入待爬的池子中。

/a/11...

crawler - Wie schließe ich das Umblättern einer JavaScript-Funktion im Python-Crawler ab?

Antworte allen(2)Ich werde antworten