搜索
首页web前端js教程node.js中的网络刮擦

Web Scraping in Node.js

核心要点

  • Node.js 的网页抓取涉及从远程服务器下载源代码并从中提取数据,可以使用 cheeriorequest 等模块来实现。
  • cheerio 模块实现了 jQuery 的一个子集,可以从 HTML 字符串构建 DOM 并进行解析,但它可能难以处理结构不良的 HTML。
  • 通过结合 requestcheerio 可以构建完整的网页抓取程序来提取网页的特定元素,但是处理动态内容、避免被封禁以及处理需要登录或使用 CAPTCHA 的网站会更加复杂,可能需要额外的工具或策略。

网页抓取程序是通过编程方式访问网页并从中提取数据的软件。由于内容重复等问题,网页抓取是一个有点争议的话题。大多数网站所有者更倾向于通过公开可用的 API 访问其数据。不幸的是,许多网站提供的 API 质量很差,甚至根本没有 API。这迫使许多开发人员转向网页抓取。本文将教你如何在 Node.js 中实现你自己的网页抓取程序。网页抓取的第一步是从远程服务器下载源代码。在“在 Node.js 中发出 HTTP 请求”中,读者学习了如何使用 request 模块下载页面。以下示例快速回顾了在 Node.js 中发出 GET 请求的方法。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

网页抓取的第二步,也是更困难的一步,是从下载的源代码中提取数据。在客户端,使用选择器 API 或 jQuery 等库可以轻松完成此任务。不幸的是,这些解决方案依赖于可以查询 DOM 的假设。遗憾的是,Node.js 没有提供 DOM。或者有吗?

Cheerio 模块

虽然 Node.js 没有内置 DOM,但有一些模块可以从 HTML 源代码字符串构建 DOM。两个流行的 DOM 模块是 cheeriojsdom。本文重点介绍 cheerio,可以使用以下命令安装:

npm install cheerio

cheerio 模块实现了 jQuery 的一个子集,这意味着许多开发人员可以快速上手。事实上,cheerio 与 jQuery 非常相似,你很容易发现自己试图使用 cheerio 中未实现的 jQuery 函数。以下示例展示了如何使用 cheerio 解析 HTML 字符串。第一行将 cheerio 导入程序。html 变量保存要解析的 HTML 片段。在第 3 行,使用 cheerio 解析 HTML。结果赋值给 $ 变量。选择美元符号是因为它传统上用于 jQuery。第 4 行使用 CSS 样式选择器选择 <code><ul></ul> 元素。最后,使用 html() 方法打印列表的内部 HTML。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

限制

cheerio 正在积极开发中,并且一直在改进。但是,它仍然有一些限制。cheerio 最令人沮丧的方面是 HTML 解析器。HTML 解析是一个难题,并且有很多网页包含不良的 HTML。虽然 cheerio 不会在这些页面上崩溃,但你可能会发现自己无法选择元素。这使得难以确定错误在于你的选择器还是页面本身。

抓取 JSPro

以下示例结合 requestcheerio 来构建一个完整的网页抓取程序。该示例抓取程序提取 JSPro 首页上所有文章的标题和 URL。前两行将所需的模块导入示例。第 3 到第 5 行下载 JSPro 首页的源代码。然后将源代码传递给 cheerio 进行解析。

npm install cheerio

如果你查看 JSPro 源代码,你会注意到每个文章标题都是一个包含在类为 entry-title<a></a> 元素中的链接。第 7 行的选择器选择所有文章链接。然后使用 each() 函数遍历所有文章。最后,文章标题和 URL 分别从链接的文本和 href 属性中获取。

结论

本文向你展示了如何在 Node.js 中创建一个简单的网页抓取程序。请注意,这不是抓取网页的唯一方法。还有其他技术,例如使用无头浏览器,它们功能更强大,但可能会影响简单性和/或速度。请关注即将发表的关于 PhantomJS 无头浏览器的文章。

Node.js 网页抓取常见问题 (FAQ)

如何在 Node.js 网页抓取中处理动态内容?

在 Node.js 中处理动态内容可能有点棘手,因为内容是异步加载的。您可以使用像 Puppeteer 这样的库,它是一个 Node.js 库,提供一个高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium。Puppeteer 默认情况下以无头模式运行,但可以配置为运行完整的(非无头)Chrome 或 Chromium。这允许您通过模拟用户交互来抓取动态内容。

如何避免在网页抓取时被封禁?

如果网站检测到异常流量,网页抓取有时会导致您的 IP 被封禁。为避免这种情况,您可以使用一些技术,例如轮换您的 IP 地址、使用延迟,甚至使用自动处理这些问题的抓取 API。

如何从需要登录的网站抓取数据?

要从需要登录的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以通过填写登录表单并提交来模拟登录过程。登录后,您可以导航到所需的页面并抓取数据。

如何将抓取的数据保存到数据库?

抓取数据后,您可以使用您选择的数据库的数据库客户端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客户端连接到您的数据库并保存数据。

如何从带有分页的网站抓取数据?

要从带有分页的网站抓取数据,您可以使用循环来浏览页面。在每次迭代中,您可以从当前页面抓取数据,然后单击“下一页”按钮导航到下一页。

如何从带有无限滚动的网站抓取数据?

要从带有无限滚动的网站抓取数据,您可以使用 Puppeteer 模拟向下滚动操作。您可以使用循环不断向下滚动,直到不再加载新数据。

如何在网页抓取中处理错误?

错误处理在网页抓取中至关重要。您可以使用 try-catch 块来处理错误。在 catch 块中,您可以记录错误消息,这将帮助您调试问题。

如何从使用 AJAX 的网站抓取数据?

要从使用 AJAX 的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以等待 AJAX 调用完成,然后抓取数据。

如何加快 Node.js 中的网页抓取速度?

要加快网页抓取速度,您可以使用并行处理等技术,在不同的选项卡中打开多个页面并同时从它们抓取数据。但是,请注意不要用过多的请求来过载网站,因为这可能会导致您的 IP 被封禁。

如何从使用 CAPTCHA 的网站抓取数据?

从使用 CAPTCHA 的网站抓取数据可能具有挑战性。您可以使用像 2Captcha 这样的服务,它们提供一个 API 来解决 CAPTCHA。但是,请记住,在某些情况下,这可能是非法或不道德的。始终尊重网站的服务条款。

以上是node.js中的网络刮擦的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
node.js流带打字稿node.js流带打字稿Apr 30, 2025 am 08:22 AM

Node.js擅长于高效I/O,这在很大程度上要归功于流。 流媒体汇总处理数据,避免内存过载 - 大型文件,网络任务和实时应用程序的理想。将流与打字稿的类型安全结合起来创建POWE

Python vs. JavaScript:性能和效率注意事项Python vs. JavaScript:性能和效率注意事项Apr 30, 2025 am 12:08 AM

Python和JavaScript在性能和效率方面的差异主要体现在:1)Python作为解释型语言,运行速度较慢,但开发效率高,适合快速原型开发;2)JavaScript在浏览器中受限于单线程,但在Node.js中可利用多线程和异步I/O提升性能,两者在实际项目中各有优势。

JavaScript的起源:探索其实施语言JavaScript的起源:探索其实施语言Apr 29, 2025 am 12:51 AM

JavaScript起源于1995年,由布兰登·艾克创造,实现语言为C语言。1.C语言为JavaScript提供了高性能和系统级编程能力。2.JavaScript的内存管理和性能优化依赖于C语言。3.C语言的跨平台特性帮助JavaScript在不同操作系统上高效运行。

幕后:什么语言能力JavaScript?幕后:什么语言能力JavaScript?Apr 28, 2025 am 12:01 AM

JavaScript在浏览器和Node.js环境中运行,依赖JavaScript引擎解析和执行代码。1)解析阶段生成抽象语法树(AST);2)编译阶段将AST转换为字节码或机器码;3)执行阶段执行编译后的代码。

Python和JavaScript的未来:趋势和预测Python和JavaScript的未来:趋势和预测Apr 27, 2025 am 12:21 AM

Python和JavaScript的未来趋势包括:1.Python将巩固在科学计算和AI领域的地位,2.JavaScript将推动Web技术发展,3.跨平台开发将成为热门,4.性能优化将是重点。两者都将继续在各自领域扩展应用场景,并在性能上有更多突破。

Python vs. JavaScript:开发环境和工具Python vs. JavaScript:开发环境和工具Apr 26, 2025 am 12:09 AM

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda,适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack,适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。

JavaScript是用C编写的吗?检查证据JavaScript是用C编写的吗?检查证据Apr 25, 2025 am 12:15 AM

是的,JavaScript的引擎核心是用C语言编写的。1)C语言提供了高效性能和底层控制,适合JavaScript引擎的开发。2)以V8引擎为例,其核心用C 编写,结合了C的效率和面向对象特性。3)JavaScript引擎的工作原理包括解析、编译和执行,C语言在这些过程中发挥关键作用。

JavaScript的角色:使网络交互和动态JavaScript的角色:使网络交互和动态Apr 24, 2025 am 12:12 AM

JavaScript是现代网站的核心,因为它增强了网页的交互性和动态性。1)它允许在不刷新页面的情况下改变内容,2)通过DOMAPI操作网页,3)支持复杂的交互效果如动画和拖放,4)优化性能和最佳实践提高用户体验。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。