使用 JavaScript 進行網路爬行的可能性
靜態網站:Axios 與 Cheerio
讓我們逐步了解如何使用 JavaScript 抓取靜態電子商務網站。在此範例中,我們將使用兩個流行的函式庫:用於 HTTP 請求的 Axios 和用於解析 HTML 的 Cheerio。
*1。安裝依賴項 *
使用 npm 安裝 Axios 和 Cheerio:
npm 安裝 axios Cheerio
*2。建立腳本 *
建立一個 JavaScript 文件,例如B. scrapeEcommerce.js 並在程式碼編輯器中開啟它。
*3。導入模組*
將 Axios 和 Cheerio 匯入到您的腳本中:
const axios = require('axios');
const Cheerio = require('cheerio');
*4。定義目標 URL *
選擇您要造訪的電子商務網站。在此範例中,我們使用假設的 URL http://example-ecommerce.com。將其替換為所需的 URL:
const url = 'http://example-ecommerce.com';
*5。取得 HTML 內容 *
使用axios向目標URL發送GET請求,取得HTML內容:
axios.get(url)
.then(回應 => {
const html = response.data;
// 現在可以解析 HTML 內容
})
.catch(錯誤=> {
console.error('取得頁面時發生錯誤:', error);
});
*6。解析 HTML 並擷取資料 *
使用 Cheerio 解析 HTML 程式碼並提取您想要的信息,例如產品名稱和價格:
axios.get(url)
.then(回應 => {
const html = response.data;
const $ = Cheerio.load(html);
})
.catch(錯誤=> {
console.error('取得頁面時發生錯誤:', error);
});
*最重要的一點*
- axios.get(url):發送 GET 請求並回傳承諾。
- .then(response => { … }):如果請求成功,HTML內容在response.data中。
- cheerio.load(html):將 HTML 內容載入到 Cheerio 中,以進行類似 jQuery 的 DOM 操作。
- $('.product').each((index, element) => { … }):迭代所有 .product 元素。
- $(element).find('.product-name').text().trim():擷取產品名稱。
- $(element).find('.product-price').text().trim():提取產品的價格。
- products.push({ name,price }):將產品資訊加入產品陣列。
- console.log(products):輸出擷取的資訊。
*完整範例腳本:*
const axios = require('axios');
const Cheerio = require('cheerio');
const url = 'http://example-ecommerce.com';
axios.get(url)
.then(回應 => {
const html = response.data;
const $ = Cheerio.load(html);
})
.catch(錯誤=> {
console.error('取得頁面時發生錯誤:', error);
});
*登陸頁的自訂:*
- 選擇器:.product、.product-name 和 .product-price 選擇器必須適應目標頁面的實際 HTML 結構。
- 其他資料:有關其他資訊(例如產品圖片、連結、描述),請檢查對應的 HTML 結構。
使用 JavaScript 抓取網站的網頁抓取工具
如果您最近需要 Python、Ruby 或其他程式語言進行網頁抓取,Octoparse 是一個出色的工具,特別是對於支援 JavaScript 的網站。
舉個具體的例子:如果你有一個目標網站,想要開始抓取,你首先應該檢查該網站是否被阻止JS抓取。不同的網站使用不同的保護方法,您可能需要一些時間和令人沮喪的嘗試才能意識到問題,特別是如果抓取沒有產生預期的結果。然而,使用網頁抓取工具,資料擷取過程會順利進行。
許多網頁抓取工具可以讓您免去編寫爬蟲的麻煩。 Octoparse 在抓取大量 JavaScript 頁面方面特別高效,可以從 99% 的網頁中提取數據,包括使用 Ajax 的網頁。它還提供驗證碼解決服務。 Octoparse 可免費使用,並提供自動發現功能和 100 多個易於使用的模板,可實現高效的資料擷取。新用戶還可以享受 14 天的試用期。
以上是高效抓取 JavaScript 網站的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置,集成和績效優勢,以及配置和驅逐政策管理最佳PRA

本文使用lambda表達式,流API,方法參考和可選探索將功能編程集成到Java中。 它突出顯示了通過簡潔性和不變性改善代碼可讀性和可維護性等好處

Java的類上載涉及使用帶有引導,擴展程序和應用程序類負載器的分層系統加載,鏈接和初始化類。父代授權模型確保首先加載核心類別,從而影響自定義類LOA

本文討論了使用JPA進行對象相關映射,並具有高級功能,例如緩存和懶惰加載。它涵蓋了設置,實體映射和優化性能的最佳實踐,同時突出潛在的陷阱。[159個字符]

本文討論了使用Maven和Gradle進行Java項目管理,構建自動化和依賴性解決方案,以比較其方法和優化策略。

本文使用選擇器和頻道使用單個線程有效地處理多個連接的Java的NIO API,用於非阻滯I/O。 它詳細介紹了過程,好處(可伸縮性,性能)和潛在的陷阱(複雜性,

本文使用Maven和Gradle之類的工具討論了具有適當的版本控制和依賴關係管理的自定義Java庫(JAR文件)的創建和使用。

本文詳細介紹了用於網絡通信的Java的套接字API,涵蓋了客戶服務器設置,數據處理和關鍵考慮因素,例如資源管理,錯誤處理和安全性。 它還探索了性能優化技術,我


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

Dreamweaver CS6
視覺化網頁開發工具

WebStorm Mac版
好用的JavaScript開發工具