核心要点
- Node.js 的网页抓取涉及从远程服务器下载源代码并从中提取数据,可以使用
cheerio
和request
等模块来实现。 -
cheerio
模块实现了 jQuery 的一个子集,可以从 HTML 字符串构建 DOM 并进行解析,但它可能难以处理结构不良的 HTML。 - 通过结合
request
和cheerio
可以构建完整的网页抓取程序来提取网页的特定元素,但是处理动态内容、避免被封禁以及处理需要登录或使用 CAPTCHA 的网站会更加复杂,可能需要额外的工具或策略。
网页抓取程序是通过编程方式访问网页并从中提取数据的软件。由于内容重复等问题,网页抓取是一个有点争议的话题。大多数网站所有者更倾向于通过公开可用的 API 访问其数据。不幸的是,许多网站提供的 API 质量很差,甚至根本没有 API。这迫使许多开发人员转向网页抓取。本文将教你如何在 Node.js 中实现你自己的网页抓取程序。网页抓取的第一步是从远程服务器下载源代码。在“在 Node.js 中发出 HTTP 请求”中,读者学习了如何使用 request
模块下载页面。以下示例快速回顾了在 Node.js 中发出 GET 请求的方法。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
网页抓取的第二步,也是更困难的一步,是从下载的源代码中提取数据。在客户端,使用选择器 API 或 jQuery 等库可以轻松完成此任务。不幸的是,这些解决方案依赖于可以查询 DOM 的假设。遗憾的是,Node.js 没有提供 DOM。或者有吗?
Cheerio 模块
虽然 Node.js 没有内置 DOM,但有一些模块可以从 HTML 源代码字符串构建 DOM。两个流行的 DOM 模块是 cheerio
和 jsdom
。本文重点介绍 cheerio
,可以使用以下命令安装:
npm install cheerio
cheerio
模块实现了 jQuery 的一个子集,这意味着许多开发人员可以快速上手。事实上,cheerio
与 jQuery 非常相似,你很容易发现自己试图使用 cheerio
中未实现的 jQuery 函数。以下示例展示了如何使用 cheerio
解析 HTML 字符串。第一行将 cheerio
导入程序。html
变量保存要解析的 HTML 片段。在第 3 行,使用 cheerio
解析 HTML。结果赋值给 $
变量。选择美元符号是因为它传统上用于 jQuery。第 4 行使用 CSS 样式选择器选择 <code><ul></ul>
元素。最后,使用 html()
方法打印列表的内部 HTML。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
限制
cheerio
正在积极开发中,并且一直在改进。但是,它仍然有一些限制。cheerio
最令人沮丧的方面是 HTML 解析器。HTML 解析是一个难题,并且有很多网页包含不良的 HTML。虽然 cheerio
不会在这些页面上崩溃,但你可能会发现自己无法选择元素。这使得难以确定错误在于你的选择器还是页面本身。
抓取 JSPro
以下示例结合 request
和 cheerio
来构建一个完整的网页抓取程序。该示例抓取程序提取 JSPro 首页上所有文章的标题和 URL。前两行将所需的模块导入示例。第 3 到第 5 行下载 JSPro 首页的源代码。然后将源代码传递给 cheerio
进行解析。
npm install cheerio
如果你查看 JSPro 源代码,你会注意到每个文章标题都是一个包含在类为 entry-title
的 <a></a>
元素中的链接。第 7 行的选择器选择所有文章链接。然后使用 each()
函数遍历所有文章。最后,文章标题和 URL 分别从链接的文本和 href
属性中获取。
结论
本文向你展示了如何在 Node.js 中创建一个简单的网页抓取程序。请注意,这不是抓取网页的唯一方法。还有其他技术,例如使用无头浏览器,它们功能更强大,但可能会影响简单性和/或速度。请关注即将发表的关于 PhantomJS 无头浏览器的文章。
Node.js 网页抓取常见问题 (FAQ)
如何在 Node.js 网页抓取中处理动态内容?
在 Node.js 中处理动态内容可能有点棘手,因为内容是异步加载的。您可以使用像 Puppeteer 这样的库,它是一个 Node.js 库,提供一个高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium。Puppeteer 默认情况下以无头模式运行,但可以配置为运行完整的(非无头)Chrome 或 Chromium。这允许您通过模拟用户交互来抓取动态内容。
如何避免在网页抓取时被封禁?
如果网站检测到异常流量,网页抓取有时会导致您的 IP 被封禁。为避免这种情况,您可以使用一些技术,例如轮换您的 IP 地址、使用延迟,甚至使用自动处理这些问题的抓取 API。
如何从需要登录的网站抓取数据?
要从需要登录的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以通过填写登录表单并提交来模拟登录过程。登录后,您可以导航到所需的页面并抓取数据。
如何将抓取的数据保存到数据库?
抓取数据后,您可以使用您选择的数据库的数据库客户端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客户端连接到您的数据库并保存数据。
如何从带有分页的网站抓取数据?
要从带有分页的网站抓取数据,您可以使用循环来浏览页面。在每次迭代中,您可以从当前页面抓取数据,然后单击“下一页”按钮导航到下一页。
如何从带有无限滚动的网站抓取数据?
要从带有无限滚动的网站抓取数据,您可以使用 Puppeteer 模拟向下滚动操作。您可以使用循环不断向下滚动,直到不再加载新数据。
如何在网页抓取中处理错误?
错误处理在网页抓取中至关重要。您可以使用 try-catch 块来处理错误。在 catch 块中,您可以记录错误消息,这将帮助您调试问题。
如何从使用 AJAX 的网站抓取数据?
要从使用 AJAX 的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以等待 AJAX 调用完成,然后抓取数据。
如何加快 Node.js 中的网页抓取速度?
要加快网页抓取速度,您可以使用并行处理等技术,在不同的选项卡中打开多个页面并同时从它们抓取数据。但是,请注意不要用过多的请求来过载网站,因为这可能会导致您的 IP 被封禁。
如何从使用 CAPTCHA 的网站抓取数据?
从使用 CAPTCHA 的网站抓取数据可能具有挑战性。您可以使用像 2Captcha 这样的服务,它们提供一个 API 来解决 CAPTCHA。但是,请记住,在某些情况下,这可能是非法或不道德的。始终尊重网站的服务条款。
以上是node.js中的网络刮擦的详细内容。更多信息请关注PHP中文网其他相关文章!

Node.js擅长于高效I/O,这在很大程度上要归功于流。 流媒体汇总处理数据,避免内存过载 - 大型文件,网络任务和实时应用程序的理想。将流与打字稿的类型安全结合起来创建POWE

Python和JavaScript在性能和效率方面的差异主要体现在:1)Python作为解释型语言,运行速度较慢,但开发效率高,适合快速原型开发;2)JavaScript在浏览器中受限于单线程,但在Node.js中可利用多线程和异步I/O提升性能,两者在实际项目中各有优势。

JavaScript起源于1995年,由布兰登·艾克创造,实现语言为C语言。1.C语言为JavaScript提供了高性能和系统级编程能力。2.JavaScript的内存管理和性能优化依赖于C语言。3.C语言的跨平台特性帮助JavaScript在不同操作系统上高效运行。

JavaScript在浏览器和Node.js环境中运行,依赖JavaScript引擎解析和执行代码。1)解析阶段生成抽象语法树(AST);2)编译阶段将AST转换为字节码或机器码;3)执行阶段执行编译后的代码。

Python和JavaScript的未来趋势包括:1.Python将巩固在科学计算和AI领域的地位,2.JavaScript将推动Web技术发展,3.跨平台开发将成为热门,4.性能优化将是重点。两者都将继续在各自领域扩展应用场景,并在性能上有更多突破。

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda,适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack,适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。

是的,JavaScript的引擎核心是用C语言编写的。1)C语言提供了高效性能和底层控制,适合JavaScript引擎的开发。2)以V8引擎为例,其核心用C 编写,结合了C的效率和面向对象特性。3)JavaScript引擎的工作原理包括解析、编译和执行,C语言在这些过程中发挥关键作用。

JavaScript是现代网站的核心,因为它增强了网页的交互性和动态性。1)它允许在不刷新页面的情况下改变内容,2)通过DOMAPI操作网页,3)支持复杂的交互效果如动画和拖放,4)优化性能和最佳实践提高用户体验。


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

Dreamweaver CS6
视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

Atom编辑器mac版下载
最流行的的开源编辑器

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。