无头Webkit和Phantomjs-js教程-PHP中文网

首页

web前端

js教程

无头Webkit和Phantomjs

Joseph Gordon-Levitt

Feb 24, 2025 am 10:24 AM

Headless WebKit and PhantomJS

核心要点

PhantomJS，一个基于WebKit的无头浏览器，允许更快地以编程方式自动化和测试网页，无需图形用户界面。
PhantomJS 提供强大的功能，例如通过 JavaScript 与页面交互的能力，从而可以轻松地自动化诸如单击按钮、提交表单，甚至使用标准 DOM API 或 jQuery 等库加载和操作网页的任务。
PhantomJS 提供广泛的文件系统 API，使应用程序能够将源代码存储到文件系统、拍摄网页屏幕截图，甚至将外部脚本文件包含到页面中。
尽管 PhantomJS 功能强大，但它与 Node.js 的集成度并不高，现有项目通常使用子进程模块来生成 PhantomJS 实例，并通过 WebSockets 与 Node.js 通信。

如果您正在阅读本文，您很可能知道什么是浏览器。现在去掉 GUI，您就得到了所谓的 无头浏览器。无头浏览器可以执行与普通浏览器相同的所有操作，但速度更快。它们非常适合以编程方式自动化和测试网页。目前存在许多无头浏览器，而 PhantomJS 是其中最好的。PhantomJS 基于 Chrome 和 Safari 背后的引擎 WebKit 构建，它为您提供了强大的浏览器功能，而无需笨重的 GUI。开始使用 PhantomJS 很容易——只需下载可执行文件即可。接下来，创建一个名为 hello.js 的文件并添加以下几行代码：

console.log("Hello World!");
phantom.exit();

要执行脚本，请运行以下命令。请注意，phantomjs 可执行文件必须位于当前目录中，或者位于环境的 PATH 中的某个位置。如果一切配置正确，PhantomJS 将把“Hello World！”打印到控制台，然后在调用 phantom.exit() 时终止。

phantomjs hello.js

使用网页

PhantomJS 运行后，您可以开始自动化 Web。以下示例加载 Google 首页，然后将屏幕截图保存到文件中。第 1 行创建网页的新实例。第 4 行加载 google.com。页面加载完成后，将执行 onLoadFinished() 回调函数。回调函数接收单个参数 status，该参数指示页面是否成功加载。加载页面的 URL 在 page.url 中可用。当页面包含重定向时，此属性特别有用，并且您希望确切知道您到达的位置。第 8 行使用页面的 render() 方法拍摄屏幕截图。render() 可以创建 PNG、GIF、JPEG 和 PDF 文件。

console.log("Hello World!");
phantom.exit();

页面设置

可以根据应用程序的需求自定义页面对象的许多设置。例如，如果您只对下载源代码感兴趣，则可以通过忽略图像文件并关闭 JavaScript 来加快应用程序的速度。下面的重写示例反映了这些更改。更改的设置显示在第 3 行和第 4 行。请注意，任何设置更改都必须在调用 open() 之前进行。如果您查看此示例的屏幕截图，您会注意到 Google 徽标图像丢失了，但页面的其余部分保持不变。

phantomjs hello.js

访问文件系统

到目前为止，我们的示例已加载页面并将屏幕截图保存为图像文件。虽然这无疑很酷，但许多应用程序更愿意将源代码存储到文件系统中。PhantomJS 通过提供广泛的文件系统 API 来实现这一点。以下示例使用 FileSystem 模块将 google.com 源代码写入文件。首先，在第 2 行导入 FileSystem 模块。在第 6 行，打开输出文件以进行写入。在第 7 行，使用 write() 方法将数据写入文件。实际源代码可通过页面的 content 属性获得。最后，关闭文件并终止 PhantomJS。

var page = require("webpage").create();
var homePage = "http://www.google.com/";

page.open(homePage);
page.onLoadFinished = function(status) {
  var url = page.url;

  console.log("Status:  " + status);
  console.log("Loaded:  " + url);
  page.render("google.png");
  phantom.exit();
};

执行 JavaScript

PhantomJS 最强大的功能之一是能够通过 JavaScript 与页面交互。这使得自动化诸如单击按钮和提交表单之类的任务变得极其容易。我们的下一个示例通过加载 Google 首页、输入查询然后提交搜索表单来执行 Web 搜索。示例的开头应该看起来很熟悉。新的内容从第 8 行开始，我们确定已加载哪个页面。如果这是首页，则调用页面的 evaluate() 方法。evaluate() 在页面的上下文中执行您提供的代码。这实际上为您提供了与页面原始开发人员相同的权限。这有多酷？

var page = require("webpage").create();
var homePage = "http://www.google.com/";

page.settings.javascriptEnabled = false;
page.settings.loadImages = false;
page.open(homePage);
page.onLoadFinished = function(status) {
  var url = page.url;

  console.log("Status:  " + status);
  console.log("Loaded:  " + url);
  page.render("google.png");
  phantom.exit();
};

在 evaluate() 内部，我们找到搜索框和表单。我们将搜索框的值设置为“JSPro”，然后提交表单。这将导致页面的 onLoadFinished() 方法再次被触发。但是，这次会拍摄搜索结果的屏幕截图，然后 PhantomJS 退出。PhantomJS 还提供两种方法 includeJs() 和 injectJs()，它们允许您将外部脚本文件添加到页面中。includeJs() 用于包含页面可访问的任何脚本文件。例如，您可以使用以下代码在之前的示例中包含 jQuery。请注意第 9 行对 includeJs() 的调用，以及 evaluate() 内部的 jQuery 语法。

var page = require("webpage").create();
var fs = require("fs");
var homePage = "http://www.google.com/";

page.open(homePage);
page.onLoadFinished = function(status) {
  var file = fs.open("output.htm", "w");

  file.write(page.content);
  file.close();
  phantom.exit();
};

injectJs() 方法类似于 includeJs()。不同之处在于，注入的脚本文件不需要从页面对象访问。例如，这允许您从本地文件系统注入脚本。

PhantomJS 和 Node.js

遗憾的是，PhantomJS 与 Node.js 的集成度并不高。已经创建了一些项目试图从 Node.js 控制 PhantomJS，但它们都有些笨拙。现有项目使用子进程模块来生成 PhantomJS 实例。接下来，PhantomJS 加载一个特殊的网页，该网页使用 WebSockets 与 Node.js 通信。它可能并不理想，但它有效。两个更流行的 PhantomJS Node 模块是 node-phantom 和 phantomjs-node。我最近开始开发我自己的 PhantomJS Node 模块，名为 ghostbuster。Ghostbuster 类似于 node-phantom，但试图通过提供更强大的命令来减少回调嵌套。对 PhantomJS 的调用越少，浪费在 WebSockets 上通信的时间就越少。另一种选择是 zombie.js，这是一个基于 jsdom 构建的轻量级无头浏览器。Zombie 不像 PhantomJS 那样强大，但它是真正的 Node.js 模块。

结论

阅读本文后，您应该对 PhantomJS 有了基本的了解。PhantomJS 最好的功能之一是它易于使用。如果您已经熟悉 JavaScript，那么学习曲线很小。PhantomJS 还支持本文未介绍的各种其他功能。与往常一样，我鼓励您查看文档。还有一些示例展示了 PhantomJS 的全部功能！

关于无头 WebKit 和 PhantomJS 的常见问题

无头 WebKit 和 PhantomJS 的主要区别是什么？

无头 WebKit 和 PhantomJS 都是用于自动化 Web 浏览器的工具。但是，主要区别在于它们的功能。无头 WebKit 是一个没有图形用户界面的浏览器，可以以编程方式控制它进行自动化、测试和服务器端渲染。另一方面，PhantomJS 是一个可脚本化的无头浏览器，用于自动化网页交互，提供 JavaScript API，支持自动化导航、屏幕截图、用户行为和断言。

PhantomJS 是否仍在维护？

截至 2018 年 3 月，PhantomJS 已不再积极维护。其主要原因是出现了 Chrome 无头浏览器和 Firefox 无头浏览器等现代无头浏览器，它们提供了更多功能和更好的支持。

PhantomJS 的一些替代方案是什么？

由于 PhantomJS 已不再维护，因此出现了一些替代方案。这些包括 Puppeteer，一个 Node 库，它提供了一个高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium，以及 Selenium WebDriver，一个用于自动化 Web 应用程序测试的开源 API 集合。

PhantomJS 如何工作？

PhantomJS 通过提供一个 JavaScript API 来工作，该 API 支持自动化导航、屏幕截图、用户行为和断言。它是一个使用 JavaScript API 的可脚本化的无头 WebKit。它对各种 Web 标准具有快速且本机支持：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。

我可以使用 PhantomJS 进行 Web 抓取吗？

是的，PhantomJS 可用于 Web 抓取。它允许您使用标准 DOM API 或 jQuery 等常用库来加载和操作网页。

如何安装 PhantomJS？

PhantomJS 可以通过 npm（Node 包管理器）安装。您可以在终端或命令提示符中使用命令“npm install phantomjs”。

无头 WebKit 在服务器端渲染中的作用是什么？

无头 WebKit 在服务器端渲染中起着至关重要的作用，因为它允许服务器预渲染 JavaScript 渲染的页面，将其转换为 HTML，然后将其发送给客户端。这提高了 Web 应用程序的性能和 SEO。

我可以使用无头 WebKit 进行自动化测试吗？

是的，无头 WebKit 是进行自动化测试的绝佳工具。它允许您在真实的浏览器环境中运行测试，而无需可见的 UI。

如何安装无头 WebKit？

无头 WebKit 的安装过程取决于您使用的特定工具。例如，如果您使用的是 Puppeteer，则可以使用命令“npm install puppeteer”通过 npm 安装它。

与传统的自动化浏览器相比，使用无头 WebKit 的优势是什么？

无头 WebKit 在自动化方面比传统浏览器具有多个优势。它更快，因为它不需要花费时间渲染视觉效果。它还允许进行自动化、可脚本化的浏览，这对于测试和 Web 抓取非常有用。

以上是无头Webkit和Phantomjs的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

从网站到应用程序：JavaScript的不同应用Apr 22, 2025 am 12:02 AM

JavaScript在网站、移动应用、桌面应用和服务器端编程中均有广泛应用。1)在网站开发中，JavaScript与HTML、CSS一起操作DOM，实现动态效果，并支持如jQuery、React等框架。2)通过ReactNative和Ionic，JavaScript用于开发跨平台移动应用。3)Electron框架使JavaScript能构建桌面应用。4)Node.js让JavaScript在服务器端运行，支持高并发请求。

Python vs. JavaScript：比较用例和应用程序Apr 21, 2025 am 12:01 AM

Python更适合数据科学和自动化，JavaScript更适合前端和全栈开发。1.Python在数据科学和机器学习中表现出色，使用NumPy、Pandas等库进行数据处理和建模。2.Python在自动化和脚本编写方面简洁高效。3.JavaScript在前端开发中不可或缺，用于构建动态网页和单页面应用。4.JavaScript通过Node.js在后端开发中发挥作用，支持全栈开发。

C/C在JavaScript口译员和编译器中的作用Apr 20, 2025 am 12:01 AM

C和C 在JavaScript引擎中扮演了至关重要的角色，主要用于实现解释器和JIT编译器。 1）C 用于解析JavaScript源码并生成抽象语法树。 2）C 负责生成和执行字节码。 3）C 实现JIT编译器，在运行时优化和编译热点代码，显着提高JavaScript的执行效率。

JavaScript在行动中：现实世界中的示例和项目Apr 19, 2025 am 12:13 AM

JavaScript在现实世界中的应用包括前端和后端开发。1)通过构建TODO列表应用展示前端应用，涉及DOM操作和事件处理。2)通过Node.js和Express构建RESTfulAPI展示后端应用。

JavaScript和Web：核心功能和用例Apr 18, 2025 am 12:19 AM

JavaScript在Web开发中的主要用途包括客户端交互、表单验证和异步通信。1)通过DOM操作实现动态内容更新和用户交互；2)在用户提交数据前进行客户端验证，提高用户体验；3)通过AJAX技术实现与服务器的无刷新通信。

了解JavaScript引擎：实施详细信息Apr 17, 2025 am 12:05 AM

理解JavaScript引擎内部工作原理对开发者重要，因为它能帮助编写更高效的代码并理解性能瓶颈和优化策略。1)引擎的工作流程包括解析、编译和执行三个阶段；2)执行过程中，引擎会进行动态优化，如内联缓存和隐藏类；3)最佳实践包括避免全局变量、优化循环、使用const和let，以及避免过度使用闭包。

Python vs. JavaScript：学习曲线和易用性Apr 16, 2025 am 12:12 AM

Python更适合初学者，学习曲线平缓，语法简洁；JavaScript适合前端开发，学习曲线较陡，语法灵活。1.Python语法直观，适用于数据科学和后端开发。2.JavaScript灵活，广泛用于前端和服务器端编程。

Python vs. JavaScript：社区，图书馆和资源Apr 15, 2025 am 12:16 AM

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好，适合初学者，但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大，JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富，但Python适合从官方文档开始，JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

See all articles