核心要點
- Node.js 的網頁抓取涉及從遠程服務器下載源代碼並從中提取數據,可以使用
cheerio
和request
等模塊來實現。 -
cheerio
模塊實現了 jQuery 的一個子集,可以從 HTML 字符串構建 DOM 並進行解析,但它可能難以處理結構不良的 HTML。 - 通過結合
request
和cheerio
可以構建完整的網頁抓取程序來提取網頁的特定元素,但是處理動態內容、避免被封禁以及處理需要登錄或使用CAPTCHA 的網站會更加複雜,可能需要額外的工具或策略。
網頁抓取程序是通過編程方式訪問網頁並從中提取數據的軟件。由於內容重複等問題,網頁抓取是一個有點爭議的話題。大多數網站所有者更傾向於通過公開可用的 API 訪問其數據。不幸的是,許多網站提供的 API 質量很差,甚至根本沒有 API。這迫使許多開發人員轉向網頁抓取。本文將教你如何在 Node.js 中實現你自己的網頁抓取程序。網頁抓取的第一步是從遠程服務器下載源代碼。在“在 Node.js 中發出 HTTP 請求”中,讀者學習瞭如何使用 request
模塊下載頁面。以下示例快速回顧了在 Node.js 中發出 GET 請求的方法。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
網頁抓取的第二步,也是更困難的一步,是從下載的源代碼中提取數據。在客戶端,使用選擇器 API 或 jQuery 等庫可以輕鬆完成此任務。不幸的是,這些解決方案依賴於可以查詢 DOM 的假設。遺憾的是,Node.js 沒有提供 DOM。或者有嗎?
Cheerio 模塊
雖然 Node.js 沒有內置 DOM,但有一些模塊可以從 HTML 源代碼字符串構建 DOM。兩個流行的 DOM 模塊是 cheerio
和 jsdom
。本文重點介紹 cheerio
,可以使用以下命令安裝:
npm install cheerio
cheerio
模塊實現了 jQuery 的一個子集,這意味著許多開發人員可以快速上手。事實上,cheerio
與 jQuery 非常相似,你很容易發現自己試圖使用 cheerio
中未實現的 jQuery 函數。以下示例展示瞭如何使用 cheerio
解析 HTML 字符串。第一行將 cheerio
導入程序。 html
變量保存要解析的 HTML 片段。在第 3 行,使用 cheerio
解析 HTML。結果賦值給 $
變量。選擇美元符號是因為它傳統上用於 jQuery。第 4 行使用 CSS 樣式選擇器選擇 <code><ul></ul>
元素。最後,使用 html()
方法打印列表的內部 HTML。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
限制
cheerio
正在積極開發中,並且一直在改進。但是,它仍然有一些限制。 cheerio
最令人沮喪的方面是 HTML 解析器。 HTML 解析是一個難題,並且有很多網頁包含不良的 HTML。雖然 cheerio
不會在這些頁面上崩潰,但你可能會發現自己無法選擇元素。這使得難以確定錯誤在於你的選擇器還是頁面本身。
抓取 JSPro
以下示例結合 request
和 cheerio
來構建一個完整的網頁抓取程序。該示例抓取程序提取 JSPro 首頁上所有文章的標題和 URL。前兩行將所需的模塊導入示例。第 3 到第 5 行下載 JSPro 首頁的源代碼。然後將源代碼傳遞給 cheerio
進行解析。
npm install cheerio
如果你查看 JSPro 源代碼,你會注意到每個文章標題都是一個包含在類為 entry-title
的 <a></a>
元素中的鏈接。第 7 行的選擇器選擇所有文章鏈接。然後使用 each()
函數遍歷所有文章。最後,文章標題和 URL 分別從鏈接的文本和 href
屬性中獲取。
結論
本文向你展示瞭如何在 Node.js 中創建一個簡單的網頁抓取程序。請注意,這不是抓取網頁的唯一方法。還有其他技術,例如使用無頭瀏覽器,它們功能更強大,但可能會影響簡單性和/或速度。請關注即將發表的關於 PhantomJS 無頭瀏覽器的文章。
Node.js 網頁抓取常見問題 (FAQ)
如何在 Node.js 網頁抓取中處理動態內容?
在 Node.js 中處理動態內容可能有點棘手,因為內容是異步加載的。您可以使用像 Puppeteer 這樣的庫,它是一個 Node.js 庫,提供一個高級 API 來通過 DevTools 協議控制 Chrome 或 Chromium。 Puppeteer 默認情況下以無頭模式運行,但可以配置為運行完整的(非無頭)Chrome 或 Chromium。這允許您通過模擬用戶交互來抓取動態內容。
如何避免在網頁抓取時被封禁?
如果網站檢測到異常流量,網頁抓取有時會導致您的 IP 被封禁。為避免這種情況,您可以使用一些技術,例如輪換您的 IP 地址、使用延遲,甚至使用自動處理這些問題的抓取 API。
如何從需要登錄的網站抓取數據?
要從需要登錄的網站抓取數據,您可以使用 Puppeteer。 Puppeteer 可以通過填寫登錄表單並提交來模擬登錄過程。登錄後,您可以導航到所需的頁面並抓取數據。
如何將抓取的數據保存到數據庫?
抓取數據後,您可以使用您選擇的數據庫的數據庫客戶端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客戶端連接到您的數據庫並保存數據。
如何從帶有分頁的網站抓取數據?
要從帶有分頁的網站抓取數據,您可以使用循環來瀏覽頁面。在每次迭代中,您可以從當前頁面抓取數據,然後單擊“下一頁”按鈕導航到下一頁。
如何從帶有無限滾動的網站抓取數據?
要從帶有無限滾動的網站抓取數據,您可以使用 Puppeteer 模擬向下滾動操作。您可以使用循環不斷向下滾動,直到不再加載新數據。
如何在網頁抓取中處理錯誤?
錯誤處理在網頁抓取中至關重要。您可以使用 try-catch 塊來處理錯誤。在 catch 塊中,您可以記錄錯誤消息,這將幫助您調試問題。
如何從使用 AJAX 的網站抓取數據?
要從使用 AJAX 的網站抓取數據,您可以使用 Puppeteer。 Puppeteer 可以等待 AJAX 調用完成,然後抓取數據。
如何加快 Node.js 中的網頁抓取速度?
要加快網頁抓取速度,您可以使用並行處理等技術,在不同的選項卡中打開多個頁面並同時從它們抓取數據。但是,請注意不要用過多的請求來過載網站,因為這可能會導致您的 IP 被封禁。
如何從使用 CAPTCHA 的網站抓取數據?
從使用 CAPTCHA 的網站抓取數據可能具有挑戰性。您可以使用像 2Captcha 這樣的服務,它們提供一個 API 來解決 CAPTCHA。但是,請記住,在某些情況下,這可能是非法或不道德的。始終尊重網站的服務條款。
以上是node.js中的網絡刮擦的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Node.js擅長於高效I/O,這在很大程度上要歸功於流。 流媒體匯總處理數據,避免內存過載 - 大型文件,網絡任務和實時應用程序的理想。將流與打字稿的類型安全結合起來創建POWE

Python和JavaScript在性能和效率方面的差異主要體現在:1)Python作為解釋型語言,運行速度較慢,但開發效率高,適合快速原型開發;2)JavaScript在瀏覽器中受限於單線程,但在Node.js中可利用多線程和異步I/O提升性能,兩者在實際項目中各有優勢。

JavaScript起源於1995年,由布蘭登·艾克創造,實現語言為C語言。 1.C語言為JavaScript提供了高性能和系統級編程能力。 2.JavaScript的內存管理和性能優化依賴於C語言。 3.C語言的跨平台特性幫助JavaScript在不同操作系統上高效運行。

JavaScript在瀏覽器和Node.js環境中運行,依賴JavaScript引擎解析和執行代碼。 1)解析階段生成抽象語法樹(AST);2)編譯階段將AST轉換為字節碼或機器碼;3)執行階段執行編譯後的代碼。

Python和JavaScript的未來趨勢包括:1.Python將鞏固在科學計算和AI領域的地位,2.JavaScript將推動Web技術發展,3.跨平台開發將成為熱門,4.性能優化將是重點。兩者都將繼續在各自領域擴展應用場景,並在性能上有更多突破。

Python和JavaScript在開發環境上的選擇都很重要。 1)Python的開發環境包括PyCharm、JupyterNotebook和Anaconda,適合數據科學和快速原型開發。 2)JavaScript的開發環境包括Node.js、VSCode和Webpack,適用於前端和後端開發。根據項目需求選擇合適的工具可以提高開發效率和項目成功率。

是的,JavaScript的引擎核心是用C語言編寫的。 1)C語言提供了高效性能和底層控制,適合JavaScript引擎的開發。 2)以V8引擎為例,其核心用C 編寫,結合了C的效率和麵向對象特性。 3)JavaScript引擎的工作原理包括解析、編譯和執行,C語言在這些過程中發揮關鍵作用。

JavaScript是現代網站的核心,因為它增強了網頁的交互性和動態性。 1)它允許在不刷新頁面的情況下改變內容,2)通過DOMAPI操作網頁,3)支持複雜的交互效果如動畫和拖放,4)優化性能和最佳實踐提高用戶體驗。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1
強大的PHP整合開發環境