>网络刮擦:有效从网页上提取数据
本教程解释了网页内容的渲染方式以及如何使用Python,请求,美丽的汤和硒来刮擦它。 我们将专注于刮擦动态内容,特别是评论。
>何时需要网络刮擦?
> Web刮擦会自动检索,解析和从网页中提取信息,通常是为人类互动而设计的。 当没有API时,这是最后的手段。 考虑以下缺点:
- 脆弱性:网页频繁更改,打破刮板。
- 限制:许多网站禁止刮擦。>
- 性能:
刮擦大量数据可能会很慢且昂贵。> 了解现代网页
>让我们检查典型的Web应用程序的结构。 我们将以“流浪介绍”文章为例。 要刮擦内容,我们必须首先找到相关的HTML元素。
查看页面源浏览器允许查看HTML源。 “流浪者简介”来源揭示了与文章内容本身无关的缩小JavaScript的很大一部分。 下面显示了一个小摘录:
以下是实际HTML的样本:
静态与动态刮擦
静态刮擦
忽略JavaScript,获取原始服务器端HTML。 如果目标内容直接在源中,则可以使用。 但是,对于由JavaScript(动态内容)生成的内容,此方法失败了。>动态刮擦使用硒等工具作为浏览器会与页面交互,呈现JavaScript并使动态内容可用。 >用硒刮擦动态评论 >让我们从网站上刮擦评论(示例:Codecanyon评论)。我们将使用Selenium导航到注释URL:
找到注释元素需要检查页面(右键单击,“检查”)。 Selenium's
有助于处理异步加载:
from selenium import webdriver driver = webdriver.Chrome() driver.get('https://codecanyon.net/item/whatshelp-whatsapp-help-and-support-plugin-for-javascript/42202303/comments')
结论WebDriverWait
当必要的数据不容易通过API提供时,
from selenium.webdriver.common.by import By from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() url = 'http://www.c2.com/loading-page' driver.get(url) element = WebDriverWait(driver, 5).until( EC.presence_of_element_located((By.ID, "loaded_element")) )
>
本教程结合了Esther Vaati的贡献,Esther Vaati是Envato Tuts的软件开发人员兼作者。以上是现代网络用美丽的汤和硒刮擦的详细内容。更多信息请关注PHP中文网其他相关文章!

本文讨论了Python版本3.10中介绍的新“匹配”语句,该语句与其他语言相同。它增强了代码的可读性,并为传统的if-elif-el提供了性能优势

Python中的功能注释将元数据添加到函数中,以进行类型检查,文档和IDE支持。它们增强了代码的可读性,维护,并且在API开发,数据科学和图书馆创建中至关重要。

本文讨论了Python中的单位测试,其好处以及如何有效编写它们。它突出显示了诸如UNITSEST和PYTEST等工具进行测试。

文章讨论了Python的\ _ \ _ Init \ _ \ _()方法和Self在初始化对象属性中的作用。还涵盖了其他类方法和继承对\ _ \ _ Init \ _ \ _()的影响。

本文讨论了python中@classmethod,@staticmethod和实例方法之间的差异,详细介绍了它们的属性,用例和好处。它说明了如何根据所需功能选择正确的方法类型和DA

Inpython,YouAppendElementStoAlistusingTheAppend()方法。1)useappend()forsingleelements:my_list.append(4).2)useextend()orextend()或= formultiplelements:my_list.extend.extend(emote_list)ormy_list = [4,5,6] .3)useInsert()forspefificpositions:my_list.insert(1,5).beaware


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

Dreamweaver CS6
视觉化网页开发工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

禅工作室 13.0.1
功能强大的PHP集成开发环境