网络抓取是从网站收集数据的极其强大的工具。借助 Puppeteer(Google 的 Node.js 无头浏览器库),您可以自动执行页面导航、单击按钮和提取信息的过程,同时模仿人类浏览行为。本指南将以简单、清晰且可操作的方式引导您了解使用 Puppeteer 进行网页抓取的基本知识。
什么是傀儡师?
Puppeteer 是一个 Node.js 库,可让您控制 Google Chrome(或 Chromium)的无头版本。无头浏览器在没有图形用户界面 (GUI) 的情况下运行,使其速度更快,非常适合抓取等自动化任务。但是,如果您需要直观地查看正在发生的情况,Puppeteer 也可以在完整浏览器模式下运行。
为什么选择 Puppeteer 进行网页抓取?
灵活性:Puppeteer 可以轻松处理动态网站和单页应用程序 (SPA)。
JavaScript 支持:它在页面上执行 JavaScript,这对于抓取现代网络应用程序至关重要。
自动化能力:您可以执行填写表格、单击按钮甚至截屏等任务。
将代理与 Puppeteer 一起使用
抓取网站时,代理对于避免 IP 禁令和访问地理限制内容至关重要。代理充当您的抓取工具和目标网站之间的中介,掩盖您的真实 IP 地址。对于 Puppeteer,您可以通过将代理作为启动参数传递来轻松集成代理:
javascript
复制代码
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理对于扩展抓取工作特别有用。轮换代理可确保每个请求都来自不同的 IP,从而减少检测到的机会。住宅代理以其真实性而闻名,非常适合绕过机器人防御,而数据中心代理速度更快、价格更便宜。选择符合您的抓取需求的类型,并始终测试性能以确保可靠性。
设置 Puppeteer
开始抓取之前,您需要设置 Puppeteer。让我们深入了解分步过程:
第 1 步:安装 Node.js 和 Puppeteer
安装Node.js:从官网下载并安装Node.js。
设置 Puppeteer:打开终端并运行以下命令:
重击
复制代码
npm install puppeteer
这将安装 Puppeteer 和 Chromium,它控制的浏览器。
第 2 步:编写你的第一个 Puppeteer 脚本
创建一个新的 JavaScript 文件 scraper.js。这将容纳您的抓取逻辑。让我们编写一个简单的脚本来打开网页并提取其标题:
javascript
复制代码
const puppeteer = require('puppeteer');
(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();
// 导航到网站
等待 page.goto('https://example.com');
// 提取标题
const title = wait page.title();
console.log(页面标题: ${title});
等待 browser.close();
})();
使用以下命令运行脚本:
重击
复制代码
节点 scraper.js
您刚刚编写了第一个 Puppeteer scraper!
用于抓取的核心 Puppeteer 功能
现在您已经掌握了基础知识,让我们来探索一些用于抓取的关键 Puppeteer 功能。
导航至页面
page.goto(url) 方法允许您打开任何 URL。如果需要,添加超时设置等选项:
javascript
复制代码
wait page.goto('https://example.com', { timeout: 60000 });选择元素
使用 CSS 选择器来精确定位页面上的元素。 Puppeteer 提供了如下方法:
第一个匹配的 page.$(selector)
page.$$(选择器) 适用于所有匹配
示例:
javascript
复制代码
const 元素=await page.$('h1');
const text = wait page.evaluate(el => el.textContent, element);
console.log(标题: ${text});与元素互动
模拟用户交互,例如点击和键入:
javascript
复制代码
等待 page.click('#submit-button');
wait page.type('#search-box', 'Puppeteer scraping');等待元素
网页以不同的速度加载。 Puppeteer 允许您在继续操作之前等待元素:
javascript
复制代码
等待 page.waitForSelector('#dynamic-content');截图
可视化调试或将数据保存为图像很容易:
javascript
复制代码
wait page.screenshot({ path: 'screenshot.png', fullPage: true });
处理动态内容
当今许多网站使用 JavaScript 动态加载内容。 Puppeteer 在这里大放异彩,因为它执行 JavaScript,允许您抓取页面源代码中可能不可见的内容。
示例:提取动态数据
javascript
复制代码
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');
const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('头条新闻:', 头条新闻);
处理验证码和机器人检测
一些网站采取了阻止机器人的措施。 Puppeteer 可以帮助绕过简单的检查:
使用隐身模式:安装 puppeteer-extra 插件:
重击
复制代码
npm install puppeteer-extra puppeteer-extra-plugin-stealth
将其添加到您的脚本中:
javascript
复制代码
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
模仿人类行为:随机化鼠标移动和打字速度等动作,以显得更加人性化。
轮换用户代理:根据每个请求更改浏览器的用户代理:
javascript
复制代码
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');
保存抓取的数据
提取数据后,您可能想要保存它。以下是一些常见的格式:
JSON:
javascript
复制代码
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));
CSV:使用像 csv-writer 这样的库:
重击
复制代码
npm 安装 csv-writer
javascript
复制代码
const createCsvWriter = require('csv-writer').createObjectCsvWriter;
const csvWriter = createCsvWriter({
路径: 'data.csv',
标题:[
{ id: '姓名', title: '姓名' },
{ id: '类型', title: '类型' }
]
});
const 记录 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已写入。'));
道德网络抓取实践
在抓取网站之前,请记住这些道德准则:
检查服务条款:始终确保网站允许抓取。
尊重速率限制:避免在短时间内发送太多请求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 来间隔请求:
javascript
复制代码
等待页面.waitForTimeout(2000); // 等待2秒
避免敏感数据:切勿抓取个人或私人信息。
常见问题故障排除
页面无法正确加载:尝试添加更长的超时或启用完整浏览器模式:
javascript
复制代码
const browser = wait puppeteer.launch({ headless: false });
选择器不起作用:使用浏览器开发人员工具(Ctrl Shift C)检查网站以确认选择器。
被验证码阻止:使用隐身插件并模仿人类行为。
常见问题 (FAQ)
- Puppeteer 免费吗? 是的,Puppeteer 是开源的并且可以免费使用。
- Puppeteer 可以抓取大量 JavaScript 的网站吗? 绝对地! Puppeteer 执行 JavaScript,非常适合抓取动态网站。
- 网页抓取合法吗? 这取决于。在抓取之前请务必检查网站的服务条款。
- Puppeteer 可以绕过验证码吗? Puppeteer 可以处理基本的验证码挑战,但高级挑战可能需要第三方工具。
以上是如何使用 Puppeteer 进行网页抓取:初学者友好指南的详细内容。更多信息请关注PHP中文网其他相关文章!

Python和JavaScript的主要区别在于类型系统和应用场景。1.Python使用动态类型,适合科学计算和数据分析。2.JavaScript采用弱类型,广泛用于前端和全栈开发。两者在异步编程和性能优化上各有优势,选择时应根据项目需求决定。

选择Python还是JavaScript取决于项目类型:1)数据科学和自动化任务选择Python;2)前端和全栈开发选择JavaScript。Python因其在数据处理和自动化方面的强大库而备受青睐,而JavaScript则因其在网页交互和全栈开发中的优势而不可或缺。

Python和JavaScript各有优势,选择取决于项目需求和个人偏好。1.Python易学,语法简洁,适用于数据科学和后端开发,但执行速度较慢。2.JavaScript在前端开发中无处不在,异步编程能力强,Node.js使其适用于全栈开发,但语法可能复杂且易出错。

javascriptisnotbuiltoncorc; saninterpretedlanguagethatrunsonenginesoftenwritteninc.1)javascriptwasdesignedAsalightweight,解释edganguageforwebbrowsers.2)Enginesevolvedfromsimpleterterterpretpreterterterpretertestojitcompilerers,典型地提示。

JavaScript可用于前端和后端开发。前端通过DOM操作增强用户体验,后端通过Node.js处理服务器任务。1.前端示例:改变网页文本内容。2.后端示例:创建Node.js服务器。

选择Python还是JavaScript应基于职业发展、学习曲线和生态系统:1)职业发展:Python适合数据科学和后端开发,JavaScript适合前端和全栈开发。2)学习曲线:Python语法简洁,适合初学者;JavaScript语法灵活。3)生态系统:Python有丰富的科学计算库,JavaScript有强大的前端框架。

JavaScript框架的强大之处在于简化开发、提升用户体验和应用性能。选择框架时应考虑:1.项目规模和复杂度,2.团队经验,3.生态系统和社区支持。

引言我知道你可能会觉得奇怪,JavaScript、C 和浏览器之间到底有什么关系?它们之间看似毫无关联,但实际上,它们在现代网络开发中扮演着非常重要的角色。今天我们就来深入探讨一下这三者之间的紧密联系。通过这篇文章,你将了解到JavaScript如何在浏览器中运行,C 在浏览器引擎中的作用,以及它们如何共同推动网页的渲染和交互。JavaScript与浏览器的关系我们都知道,JavaScript是前端开发的核心语言,它直接在浏览器中运行,让网页变得生动有趣。你是否曾经想过,为什么JavaScr


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

Atom编辑器mac版下载
最流行的的开源编辑器

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

SublimeText3汉化版
中文版,非常好用

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中