搜尋
首頁web前端js教程如何使用 Puppeteer 進行網頁抓取:初學者友善指南

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

網頁抓取是從網站收集資料的極其強大的工具。透過 Puppeteer(Google 的 Node.js 無頭瀏覽器庫),您可以自動執行頁面導航、點擊按鈕和提取資訊的過程,同時模仿人類瀏覽行為。本指南將以簡單、清晰且可操作的方式引導您了解使用 Puppeteer 進行網頁抓取的基本知識。

什麼是傀儡師?

Puppeteer 是一個 Node.js 函式庫,可讓您控制 Google Chrome(或 Chromium)的無頭版本。無頭瀏覽器在沒有圖形使用者介面 (GUI) 的情況下運行,使其速度更快,非常適合抓取等自動化任務。但是,如果您需要直觀地查看正在發生的情況,Puppeteer 也可以在完整瀏覽器模式下運作。

為什麼選擇 Puppeteer 進行網頁抓取?

彈性:Puppeteer 可以輕鬆處理動態網站和單頁應用程式 (SPA)。
JavaScript 支援:它在頁面上執行 JavaScript,這對於抓取現代網頁應用程式至關重要。
自動化能力:您可以執行填寫表格、點擊按鈕甚至截圖等任務。

將代理程式與 Puppeteer 一起使用

抓取網站時,代理商對於避免 IP 禁令和存取地理限制內容至關重要。代理商充當您的抓取工具和目標網站之間的中介,掩蓋您的真實 IP 位址。對於 Puppeteer,您可以透過將代理程式作為啟動參數傳遞來輕鬆整合代理:

javascript
複製程式碼
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理對於擴展抓取工作特別有用。輪換代理可確保每個請求都來自不同的 IP,從而減少偵測到的機會。住宅代理以其真實性而聞名,非常適合繞過機器人防禦,而資料中心代理速度更快、價格更便宜。選擇符合您的抓取需求的類型,並始終測試效能以確保可靠性。

設定 Puppeteer

開始抓取之前,您需要設定 Puppeteer。讓我們深入了解逐步過程:
第 1 步:安裝 Node.js 和 Puppeteer
安裝Node.js:從官網下載並安裝Node.js。
設定 Puppeteer:開啟終端機並執行以下命令:
重擊
複製程式碼
npm install puppeteer

這將安裝 Puppeteer 和 Chromium,它控制的瀏覽器。
步驟 2:寫出你的第一個 Puppeteer 腳本
建立一個新的 JavaScript 檔案 scraper.js。這將容納您的抓取邏輯。讓我們編寫一個簡單的腳本來打開網頁並提取其標題:
javascript
複製程式碼
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 導覽至網站
等 page.goto('https://example.com');

// 擷取標題
const title = wait page.title();
console.log(頁面標題: ${title});

等待 browser.close();
})();

使用以下命令執行腳本:
重擊
複製程式碼
節點 scraper.js

您剛剛寫了第一個 Puppeteer scraper!

用於抓取的核心 Puppeteer 功能

現在您已經掌握了基礎知識,讓我們來探索一些用於抓取的關鍵 Puppeteer 功能。

  1. 導航至頁面
    page.goto(url) 方法可讓您開啟任何 URL。如果需要,請新增超時設定等選項:
    javascript
    複製程式碼
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 選擇元素
    使用 CSS 選擇器來精確定位頁面上的元素。 Puppeteer 提供以下方法:
    第一個符合的 page.$(selector)
    page.$$(選擇器) 適用於所有符合
    例:
    javascript
    複製程式碼
    const 元素=await page.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(標題: ${text});

  3. 與元素互動
    模擬使用者交互,例如點擊和鍵入:
    javascript
    複製程式碼
    等待 page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 等待元素
    網頁以不同的速度載入。 Puppeteer 允許您在繼續操作之前等待元素:
    javascript
    複製程式碼
    等待 page.waitForSelector('#dynamic-content');

  5. 截圖
    可視化調試或將資料保存為圖像很容易:
    javascript
    複製程式碼
    wait page.screenshot({ path: 'screenshot.png', fullPage: true });

處理動態內容

現今許多網站都使用 JavaScript 動態載入內容。 Puppeteer 在這裡大放異彩,因為它執行 JavaScript,允許您抓取頁面原始碼中可能不可見的內容。
範例:擷取動態資料
javascript
複製程式碼
等 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('頭條新聞:', 頭條新聞);

處理驗證碼和機器人檢測

有些網站採取了阻止機器人的措施。 Puppeteer 可以幫助繞過簡單的檢查:
使用隱身模式:安裝 puppeteer-extra 外掛:
重擊
複製程式碼
npm install puppeteer-extra puppeteer-extra-plugin-stealth
將其新增至您的腳本:
javascript
複製程式碼
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人類行為:隨機化滑鼠移動和打字速度等動作,以顯得更加人性化。
輪換用戶代理:根據每個請求更改瀏覽器的用戶代理:
javascript
複製程式碼
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的數據

提取資料後,您可能想要保存它。以下是一些常見的格式:
JSON:
javascript
複製程式碼
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV:使用像 csv-writer 這樣的函式庫:
重擊
複製程式碼
npm 安裝 csv-writer
javascript
複製程式碼
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路徑: 'data.csv',
標題:[
{ id: '姓名', title: '姓名' },
{ id: '型別', title: '型別' }
]
});

const 記錄 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 檔案已寫入。'));
道德網路抓取實務
在抓取網站之前,請記住這些道德準則:
檢查服務條款:始終確保網站允許抓取。
尊重速率限制:避免在短時間內發送太多請求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 來間隔請求:
javascript
複製程式碼
等待頁面.waitForTimeout(2000); // 等待2秒

避免敏感資料:切勿抓取個人或私人資訊。

常見問題故障排除

頁面無法正確載入:嘗試新增更長的逾時或啟用完整瀏覽器模式:
javascript
複製程式碼
const browser = wait puppeteer.launch({ headless: false });

選擇器無法運作:使用瀏覽器開發人員工具(Ctrl Shift C)檢查網站以確認選擇器。
被驗證碼阻止:使用隱身插件並模仿人類行為。

常見問題 (FAQ)

  1. Puppeteer 免費嗎? 是的,Puppeteer 是開源的並且可以免費使用。
  2. Puppeteer 可以抓取大量 JavaScript 的網站嗎? 絕對地! Puppeteer 執行 JavaScript,非常適合抓取動態網站。
  3. 網頁抓取合法嗎? 這取決於。在抓取之前請務必檢查網站的服務條款。
  4. Puppeteer 可以繞過驗證碼嗎? Puppeteer 可以處理基本的驗證碼挑戰,但進階挑戰可能需要第三方工具。

以上是如何使用 Puppeteer 進行網頁抓取:初學者友善指南的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
在JavaScript中替換字符串字符在JavaScript中替換字符串字符Mar 11, 2025 am 12:07 AM

JavaScript字符串替換方法詳解及常見問題解答 本文將探討兩種在JavaScript中替換字符串字符的方法:在JavaScript代碼內部替換和在網頁HTML內部替換。 在JavaScript代碼內部替換字符串 最直接的方法是使用replace()方法: str = str.replace("find","replace"); 該方法僅替換第一個匹配項。要替換所有匹配項,需使用正則表達式並添加全局標誌g: str = str.replace(/fi

構建您自己的Ajax Web應用程序構建您自己的Ajax Web應用程序Mar 09, 2025 am 12:11 AM

因此,在這裡,您準備好了解所有稱為Ajax的東西。但是,到底是什麼? AJAX一詞是指用於創建動態,交互式Web內容的一系列寬鬆的技術。 Ajax一詞,最初由Jesse J創造

10個JQuery Fun and Games插件10個JQuery Fun and Games插件Mar 08, 2025 am 12:42 AM

10款趣味橫生的jQuery遊戲插件,讓您的網站更具吸引力,提升用戶粘性!雖然Flash仍然是開發休閒網頁遊戲的最佳軟件,但jQuery也能創造出令人驚喜的效果,雖然無法與純動作Flash遊戲媲美,但在某些情況下,您也能在瀏覽器中獲得意想不到的樂趣。 jQuery井字棋遊戲 遊戲編程的“Hello world”,現在有了jQuery版本。 源碼 jQuery瘋狂填詞遊戲 這是一個填空遊戲,由於不知道單詞的上下文,可能會產生一些古怪的結果。 源碼 jQuery掃雷遊戲

如何創建和發布自己的JavaScript庫?如何創建和發布自己的JavaScript庫?Mar 18, 2025 pm 03:12 PM

文章討論了創建,發布和維護JavaScript庫,專注於計劃,開發,測試,文檔和促銷策略。

jQuery視差教程 - 動畫標題背景jQuery視差教程 - 動畫標題背景Mar 08, 2025 am 12:39 AM

本教程演示瞭如何使用jQuery創建迷人的視差背景效果。 我們將構建一個帶有分層圖像的標題橫幅,從而創造出令人驚嘆的視覺深度。 更新的插件可與JQuery 1.6.4及更高版本一起使用。 下載

如何在瀏覽器中優化JavaScript代碼以進行性能?如何在瀏覽器中優化JavaScript代碼以進行性能?Mar 18, 2025 pm 03:14 PM

本文討論了在瀏覽器中優化JavaScript性能的策略,重點是減少執行時間並最大程度地減少對頁面負載速度的影響。

使用jQuery和Ajax自動刷新DIV內容使用jQuery和Ajax自動刷新DIV內容Mar 08, 2025 am 12:58 AM

本文演示瞭如何使用jQuery和ajax自動每5秒自動刷新DIV的內容。 該示例從RSS提要中獲取並顯示了最新的博客文章以及最後的刷新時間戳。 加載圖像是選擇

Matter.js入門:簡介Matter.js入門:簡介Mar 08, 2025 am 12:53 AM

Matter.js是一個用JavaScript編寫的2D剛體物理引擎。此庫可以幫助您輕鬆地在瀏覽器中模擬2D物理。它提供了許多功能,例如創建剛體並為其分配質量、面積或密度等物理屬性的能力。您還可以模擬不同類型的碰撞和力,例如重力摩擦力。 Matter.js支持所有主流瀏覽器。此外,它也適用於移動設備,因為它可以檢測觸摸並具有響應能力。所有這些功能都使其值得您投入時間學習如何使用該引擎,因為這樣您就可以輕鬆創建基於物理的2D遊戲或模擬。在本教程中,我將介紹此庫的基礎知識,包括其安裝和用法,並提供一

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
2 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)