首页 >后端开发 >Python教程 >Python 如何抓取动态网站内容？

Python 如何抓取动态网站内容？

使用 Python 进行动态内容抓取

从静态 HTML 获取纯文本很简单，但动态内容则不同。 JavaScript 嵌入的内容无法立即被 Python 的 HTTP 请求库（如 urllib2）访问。

访问动态内容

要访问动态内容，Python 可以利用模拟 Web 的外部工具浏览器。这些工具执行 JavaScript 并返回渲染的页面内容。

1. Selenium 与 PhantomJS：

2. dryscape（仅限 Python 2）：

示例

考虑使用动态 JavaScript 的示例 HTML 页面：

<p>

没有 JS支持:

import requests
from bs4 import BeautifulSoup

response = requests.get(my_url)
soup = BeautifulSoup(response.text)
print(soup.find(id="intro-text"))

输出:

<p>

有JS支持（硒）：

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get(my_url)
print(driver.find_element_by_id("intro-text").text)

输出：

Yay! Supports javascript

以上是Python 如何抓取动态网站内容？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

查看更多