在 Python 中抓取由 JavaScript 生成的动态内容
Web 抓取经常会遇到包含由 JavaScript 驱动的动态内容的页面。要有效地抓取此类页面,执行 JavaScript 代码至关重要。
将 Selenium 与 PhantomJS 结合使用
Selenium 是一个流行的 Python 库,用于自动化 Web 浏览器。它可以与 PhantomJS(无头浏览器)一起使用来渲染网页并执行 JavaScript。
from selenium import webdriver driver = webdriver.PhantomJS() driver.get(my_url) p_element = driver.find_element_by_id(id_='intro-text') print(p_element.text)
使用 dryscrape
Dryscrape 是另一个专门为抓取 JavaScript 驱动的网站而设计的 Python 库。
import dryscrape from bs4 import BeautifulSoup session = dryscrape.Session() session.visit(my_url) response = session.body() soup = BeautifulSoup(response) soup.find(id="intro-text")
以上是如何在 Python 中抓取动态 JavaScript 内容?的详细内容。更多信息请关注PHP中文网其他相关文章!