搜索
首页后端开发Python教程Python 中先进的异步网页抓取技术可提高速度和效率

dvanced Asynchronous Web Scraping Techniques in Python for Speed and Efficiency

作为畅销书作家,我邀请您在亚马逊上探索我的书。不要忘记在 Medium 上关注我并表示您的支持。谢谢你!您的支持意味着全世界!

网络抓取已成为数字时代数据提取和分析的重要工具。随着在线信息量的不断增长,对高效且可扩展的抓取技术的需求变得至关重要。 Python 拥有丰富的库和框架生态系统,为异步网页抓取提供了强大的解决方案。在本文中,我将探讨六种利用异步编程来提高网页抓取操作的速度和效率的高级技术。

异步编程允许并发执行多个任务,这使其成为我们经常需要同时从多个来源获取数据的网络抓取的理想选择。通过利用异步技术,我们可以显着减少从网络收集大量数据所需的时间。

让我们从 aiohttp 开始,它是一个用于发出异步 HTTP 请求的强大库。 aiohttp 提供了一种并发发送多个请求的有效方法,这对于大规模的网页抓取操作至关重要。以下是如何使用 aiohttp 同时获取多个网页的示例:

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    urls = ['https://example.com', 'https://example.org', 'https://example.net']
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url) for url in urls]
        responses = await asyncio.gather(*tasks)
        for response in responses:
            print(len(response))

asyncio.run(main())

在此示例中,我们创建一个异步函数 fetch,它将会话和 URL 作为参数。 main 函数使用列表理解创建任务列表,然后使用 asyncio.gather 同时运行所有任务。这种方法允许我们并行获取多个网页,从而显着减少操作所需的总时间。

接下来,让我们探索如何将 BeautifulSoup 与我们的异步抓取设置集成。 BeautifulSoup 是一个流行的用于解析 HTML 和 XML 文档的库。虽然 BeautifulSoup 本身不是异步的,但我们可以将它与 aiohttp 结合使用来解析我们异步获取的 HTML 内容:

import aiohttp
import asyncio
from bs4 import BeautifulSoup

async def fetch_and_parse(session, url):
    async with session.get(url) as response:
        html = await response.text()
        soup = BeautifulSoup(html, 'html.parser')
        return soup.title.string if soup.title else "No title found"

async def main():
    urls = ['https://example.com', 'https://example.org', 'https://example.net']
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_and_parse(session, url) for url in urls]
        titles = await asyncio.gather(*tasks)
        for url, title in zip(urls, titles):
            print(f"{url}: {title}")

asyncio.run(main())

在此示例中,我们修改了 fetch 函数以包含使用 BeautifulSoup 进行解析。 fetch_and_parse 函数现在返回每个网页的标题,演示了我们如何从 HTML 内容中异步提取特定信息。

在处理大量抓取的数据时,通常需要将信息保存到文件中。 aiofiles 是一个为文件 I/O 操作提供异步接口的库。以下是我们如何使用 aiofiles 异步保存抓取的数据:

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    urls = ['https://example.com', 'https://example.org', 'https://example.net']
    async with aiohttp.ClientSession() as session:
        tasks = [fetch(session, url) for url in urls]
        responses = await asyncio.gather(*tasks)
        for response in responses:
            print(len(response))

asyncio.run(main())

此脚本获取 HTML 内容、提取标题并将其保存到文件中,所有操作都是异步进行的。在处理需要保存到磁盘的大型数据集时,这种方法特别有用。

对于更复杂的网页抓取任务,Scrapy 框架提供了强大且可扩展的解决方案。 Scrapy 以异步编程为核心构建,使其成为大规模网络爬行和抓取项目的绝佳选择。这是 Scrapy 蜘蛛的一个简单示例:

import aiohttp
import asyncio
from bs4 import BeautifulSoup

async def fetch_and_parse(session, url):
    async with session.get(url) as response:
        html = await response.text()
        soup = BeautifulSoup(html, 'html.parser')
        return soup.title.string if soup.title else "No title found"

async def main():
    urls = ['https://example.com', 'https://example.org', 'https://example.net']
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_and_parse(session, url) for url in urls]
        titles = await asyncio.gather(*tasks)
        for url, title in zip(urls, titles):
            print(f"{url}: {title}")

asyncio.run(main())

要运行此蜘蛛,您通常会使用 Scrapy 命令行工具。 Scrapy 在内部处理 Web 请求的异步特性,让您可以专注于定义解析逻辑。

大规模执行网页抓取时,实施速率限制以避免目标服务器不堪重负并尊重其 robots.txt 文件至关重要。这是我们如何在异步抓取器中实现速率限制的示例:

import aiohttp
import asyncio
import aiofiles
from bs4 import BeautifulSoup

async def fetch_and_save(session, url, filename):
    async with session.get(url) as response:
        html = await response.text()
        soup = BeautifulSoup(html, 'html.parser')
        title = soup.title.string if soup.title else "No title found"
        async with aiofiles.open(filename, 'w') as f:
            await f.write(f"{url}: {title}\n")
        return title

async def main():
    urls = ['https://example.com', 'https://example.org', 'https://example.net']
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_and_save(session, url, f"title_{i}.txt") for i, url in enumerate(urls)]
        titles = await asyncio.gather(*tasks)
        for url, title in zip(urls, titles):
            print(f"Saved: {url} - {title}")

asyncio.run(main())

在此示例中,我们使用 aiolimiter 库创建一个每秒允许一个请求的速率限制器。这可以确保我们的抓取工具不会太快发送请求,这可能会导致被目标网站阻止。

错误处理是强大的网络抓取的另一个关键方面。在处理多个异步请求时,重要的是要妥善处理异常,以防止单个失败的请求停止整个抓取过程。以下是我们如何实现错误处理和重试的示例:

import scrapy

class TitleSpider(scrapy.Spider):
    name = 'title_spider'
    start_urls = ['https://example.com', 'https://example.org', 'https://example.net']

    def parse(self, response):
        yield {
            'url': response.url,
            'title': response.css('title::text').get()
        }

该脚本实现了具有指数退避的重试机制,有助于处理临时网络问题或服务器错误。它还为每个请求设置超时,以防止响应缓慢。

对于非常大规模的抓取操作,您可能需要将工作负载分配到多台机器上。虽然分布式抓取的具体细节超出了本文的范围,但您可以使用 Celery 和 Redis 或 RabbitMQ 等工具在工作计算机集群中分发抓取任务。

当我们结束对 Python 异步网络抓取技术的探索时,强调道德抓取实践的重要性非常重要。请务必检查并尊重您正在抓取的网站的 robots.txt 文件,并在进行大规模抓取操作时考虑联系网站所有者以获得许可。

异步网页抓取比传统同步方法提供了显着的性能改进,特别是在处理大量网页或 API 时。通过利用我们讨论过的技术——使用 aiohttp 进行并发请求、集成 BeautifulSoup 进行解析、利用 aiofiles 进行非阻塞文件操作、使用 Scrapy 进行复杂的抓取任务、实施速率限制以及稳健地处理错误——您可以构建强大且可靠的解决方案。高效的网页抓取解决方案。

随着网络的不断发展和发展,可用于网络抓取的技术和工具也会不断发展。及时了解最新的库和最佳实践将确保您的网页抓取项目保持高效、可扩展并尊重您与之交互的网站。


101 本书

101 Books是一家人工智能驱动的出版公司,由作家Aarav Joshi共同创立。通过利用先进的人工智能技术,我们将出版成本保持在极低的水平——一些书籍的价格低至 4 美元——让每个人都能获得高质量的知识。

查看我们的书Golang Clean Code,亚马逊上有售。

请继续关注更新和令人兴奋的消息。购买书籍时,搜索 Aarav Joshi 以查找更多我们的书籍。使用提供的链接即可享受特别折扣

我们的创作

一定要看看我们的创作:

投资者中心 | 投资者中央西班牙语 | 投资者中德意志 | 智能生活 | 时代与回响 | 令人费解的谜团 | 印度教 | 精英开发 | JS学校


我们在媒体上

科技考拉洞察 | 时代与回响世界 | 投资者中央媒体 | 令人费解的谜团 | 科学与时代媒介 | 现代印度教

以上是Python 中先进的异步网页抓取技术可提高速度和效率的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
Python中有可能理解吗?如果是,为什么以及如果不是为什么?Python中有可能理解吗?如果是,为什么以及如果不是为什么?Apr 28, 2025 pm 04:34 PM

文章讨论了由于语法歧义而导致的Python中元组理解的不可能。建议使用tuple()与发电机表达式使用tuple()有效地创建元组。(159个字符)

Python中的模块和包装是什么?Python中的模块和包装是什么?Apr 28, 2025 pm 04:33 PM

本文解释了Python中的模块和包装,它们的差异和用法。模块是单个文件,而软件包是带有__init__.py文件的目录,在层次上组织相关模块。

Python中的Docstring是什么?Python中的Docstring是什么?Apr 28, 2025 pm 04:30 PM

文章讨论了Python中的Docstrings,其用法和收益。主要问题:Docstrings对于代码文档和可访问性的重要性。

什么是lambda功能?什么是lambda功能?Apr 28, 2025 pm 04:28 PM

文章讨论了Lambda功能,与常规功能的差异以及它们在编程方案中的效用。并非所有语言都支持他们。

什么是休息时间,继续并通过python?什么是休息时间,继续并通过python?Apr 28, 2025 pm 04:26 PM

文章讨论了休息,继续并传递Python,并解释了它们在控制循环执行和程序流中的作用。

Python的通行证是什么?Python的通行证是什么?Apr 28, 2025 pm 04:25 PM

本文讨论了Python中的“ Pass”语句,该语句是函数和类等代码结构中用作占位符的空操作,允许在没有语法错误的情况下实现将来实现。

我们可以在Python中传递作为参数的函数吗?我们可以在Python中传递作为参数的函数吗?Apr 28, 2025 pm 04:23 PM

文章讨论了将功能作为Python中的参数,突出了模块化和用例(例如分类和装饰器)等好处。

Python中的 /和//有什么区别?Python中的 /和//有什么区别?Apr 28, 2025 pm 04:21 PM

文章在Python中讨论 /和//运营商: / for for True Division,//用于地板部门。主要问题是了解它们的差异和用例。Character数量:158

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器