聊聊使用Node.js + Cheerio 怎麼進行資料抓取-js教程-PHP中文網

首頁

web前端

js教程

聊聊使用Node.js + Cheerio 怎麼進行資料抓取

青灯夜游

Aug 01, 2022 pm 08:23 PM

node.js

要取得數據，你必須求助於網路抓取。這篇文章就來介紹如何使用Node和Cheerio抓取網站數據，希望對大家有幫助！

聊聊使用Node.js + Cheerio 怎麼進行資料抓取

在我們開始之前，你需要遵守當地的法紀法規，不可隨意抓取未經允許公開的資料。

先決條件

以下是本教學所需的一些東西：

你需要安裝Node.js。如果你沒有Node，只需確保從Node.js 下載頁面為你的系統下載它（https://nodejs.dev/download/）
你需要在你的機器上安裝一個文字編輯器，例如VSCode或Atom
你至少應該對JavaScript、Node.js 和文件物件模型(DOM) 有基本的了解。

什麼是 Cheerio？

Cheerio 是一個在 Node.js 中解析 HTML 和 XML 的工具，在 GitHub 上非常受歡迎，擁有超過23k 的 star 。

它快速、靈活且易於使用。由於它實作了 JQuery 的子集，如果你已經熟悉 JQuery，那麼很容易開始使用 Cheerio。

Cheerio 和 Web 瀏覽器之間的主要區別在於，cheerio 不產生視覺渲染、載入 CSS、載入外部資源或執行 JavaScript。它只是解析標記並提供用於操作生成的資料結構的 API。這就解釋了為什麼它也非常快——cheerio 文件。

如果你想使用cheerio 來抓取網頁，您需要先使用axios或node-fetch等套件來取得標記。

如何使用Cheerio 在Node 中抓取網頁

在此範例中，我們將抓取此Wikipedia 頁面上列出的所有國家和其他司法管轄區的ISO 3166-1 alpha-3 代碼。它位於ISO 3166-1 alpha-3頁面的目前程式碼部分下。

這是國家/司法管轄區清單及其對應程式碼的樣子：

聊聊使用Node.js + Cheerio 怎麼進行資料抓取

第1 步驟- 建立工作目錄

在此步驟中，您將透過在終端機上執行以下命令為您的專案建立目錄。這個指令將會創造一個名為learn-cheerio. 如果你願意，你可以給它一個不同的名字。

mkdir learn-cheerio

learn-cheerio成功執行上述命令後，您應該可以看到一個名為 created 的資料夾。

在下一步中，您將在您喜歡的文字編輯器中開啟剛剛建立的目錄並初始化項目。

第 2 步 - 初始化項目

在此步驟中，您將導航至專案目錄並初始化專案。在您喜歡的文字編輯器中開啟您在上一個步驟中建立的目錄，並透過執行以下命令來初始化專案。

npm init -y

成功執行上述指令將package.json在專案目錄的根目錄下建立一個檔案。

在下一個步驟中，您將安裝專案依賴項。

第 3 步 - 安裝依賴項

在此步驟中，您將透過執行下列命令來安裝專案依賴項。這將需要幾分鐘，所以請耐心等待。

npm i axios cheerio pretty

成功執行上述命令將在欄位package.json下的檔案中註冊三個依賴項。 dependencies第一個依賴是axios，第二個是cheerio，第三個是pretty。

axios是一個非常流行的http 用戶端，可以在 node 和瀏覽器中運行。我們需要它，因為cheerio 是一個標記解析器。

为了让 Cheerio 解析标记并抓取您需要的数据，我们需要axios用于从网站获取标记。如果您愿意，可以使用另一个 HTTP 客户端来获取标记。它不一定是axios.

pretty是用于美化标记的 npm 包，以便在终端上打印时可读。

在下一部分中，您将检查将从中抓取数据的标记。

第 4 步 - 检查您要抓取的网页

在从网页中抓取数据之前，了解页面的 HTML 结构非常重要。

在此步骤中，您将检查要从中抓取数据的网页的 HTML 结构。

导航到Wikipedia 上的ISO 3166-1 alpha-3 代码页面。在“当前代码”部分下，有一个国家列表及其相应的代码。CTRL + SHIFT + I您可以通过按chrome 上的组合键或右键单击然后选择“检查”选项来打开 DevTools 。

这是我在 chrome DevTools 中的列表：

聊聊使用Node.js + Cheerio 怎麼進行資料抓取

在下一节中，您将编写用于抓取网页的代码。

第 5 步 - 编写代码以抓取数据

在本节中，你将编写用于抓取我们感兴趣的数据的代码。首先运行以下将创建app.js文件的命令。

touch app.js

成功运行上述命令将app.js在项目目录的根目录下创建一个文件。

像任何其他 Node 包一样，在开始使用它们之前，你必须首先require axios、cheerio和。你可以通过在刚刚创建pretty的文件顶部添加下面的代码来做到这一点。app.js

const axios = require("axios");
const cheerio = require("cheerio");
const pretty = require("pretty");

在我们编写用于抓取数据的代码之前，我们需要学习cheerio. 我们将解析下面的标记并尝试操作生成的数据结构。这将帮助我们学习 Cheerio 语法及其最常用的方法。

下面的标记是ul包含我们元素的li元素。

const markup = `

Mango
Apple

将上述变量声明添加到app.js文件中

如何在 Cheerio 中加载标记

cheerio你可以使用该cheerio.load方法加载标记。该方法将标记作为参数。它还需要另外两个可选参数。如果你有兴趣，可以在文档中阅读有关它们的更多信息。

下面，我们传递第一个也是唯一需要的参数，并将返回值存储在$变量中。我们使用该变量是因为cheerio 与Jquery$的相似性。如果你愿意，可以使用不同的变量名。

将以下代码添加到你的app.js文件中：

const $ = cheerio.load(markup);
console.log(pretty($.html()));

如果你现在通过在终端上app.js运行命令来执行文件中的代码node app.js，你应该能够在终端上看到标记。这是我在终端上看到的：

聊聊使用Node.js + Cheerio 怎麼進行資料抓取

如何在 Cheerio 中选择元素

Cheerio 支持大多数常见的 CSS 选择器，例如class、id和element选择器等。在下面的代码中，我们选择带有类的元素fruits__mango，然后将所选元素记录到控制台。将以下代码添加到你的app.js文件中。

const mango = $(".fruits__mango");
console.log(mango.html()); // Mango

如果你使用命令执行，上述代码行将Mango在终端上记录文本。app.js``node app.js

如何在 Cheerio 中获取元素的属性

您还可以选择一个元素并获取特定属性，例如class、id或所有属性及其对应值。

将以下代码添加到你的app.js文件中：

const apple = $(".fruits__apple");
console.log(apple.attr("class")); //fruits__apple

上面的代码将登录fruits__apple终端。fruits__apple是所选元素的类。

如何循环遍历 Cheerio 中的元素列表

Cheerio 提供了.each循环遍历多个选定元素的方法。

下面，我们选择所有元素并使用该方法li循环遍历它们。.each我们在终端上记录每个列表项的文本内容。

将以下代码添加到你的app.js文件中。

const listItems = $("li");
console.log(listItems.length); // 2
listItems.each(function (idx, el) {
  console.log($(el).text());
});
// Mango
// Apple

上面的代码会记录2，也就是列表项的长度，执行完代码后会在终端上显示文字Mango和。Apple``app.js

如何在 Cheerio 中将元素附加或添加到标记中

Cheerio 提供了一种将元素附加或附加到标记的方法。

该append方法会将作为参数传递的元素添加到所选元素的最后一个子元素之后。另一方面，prepend将在选定元素的第一个子元素之前添加传递的元素。

将以下代码添加到你的app.js文件中：

const ul = $("ul");
ul.append("

Banana

"); ul.prepend("

Pineapple

"); console.log(pretty($.html()));

在向标记添加和添加元素之后，这是我登录$.html()终端时看到的内容：

聊聊使用Node.js + Cheerio 怎麼進行資料抓取

这些是 Cheerio 的基础知识，可以帮助你开始网络抓取。要从 Wikipedia 抓取我们在本文开头描述的数据，请将以下代码复制并粘贴到app.js文件中：

// Loading the dependencies. We don't need pretty
// because we shall not log html to the terminal
const axios = require("axios");
const cheerio = require("cheerio");
const fs = require("fs");

// URL of the page we want to scrape
const url = "https://en.wikipedia.org/wiki/ISO_3166-1_alpha-3";

// Async function which scrapes the data
async function scrapeData() {
  try {
    // Fetch HTML of the page we want to scrape
    const { data } = await axios.get(url);
    // Load HTML we fetched in the previous line
    const $ = cheerio.load(data);
    // Select all the list items in plainlist class
    const listItems = $(".plainlist ul li");
    // Stores data for all countries
    const countries = [];
    // Use .each method to loop through the li we selected
    listItems.each((idx, el) => {
      // Object holding data for each country/jurisdiction
      const country = { name: "", iso3: "" };
      // Select the text content of a and span elements
      // Store the textcontent in the above object
      country.name = $(el).children("a").text();
      country.iso3 = $(el).children("span").text();
      // Populate countries array with country data
      countries.push(country);
    });
    // Logs countries array to the console
    console.dir(countries);
    // Write countries array in countries.json file
    fs.writeFile("coutries.json", JSON.stringify(countries, null, 2), (err) => {
      if (err) {
        console.error(err);
        return;
      }
      console.log("Successfully written data to file");
    });
  } catch (err) {
    console.error(err);
  }
}
// Invoke the above function
scrapeData();

通过阅读代码，你了解正在发生的事情吗？如果没有，我现在将详细介绍。我还对每一行代码进行了注释，以帮助你理解。

在上面的代码中，我们需要文件顶部的所有依赖项，app.js然后我们声明了scrapeData函数。在函数内部，使用axios. 然后将我们需要抓取的页面的获取 HTML 加载到cheerio.

国家/地区列表及其对应iso3代码嵌套在一个div具有 . 类的元素中plainlist。li元素被选中，然后我们使用该方法循环遍历它们.each。每个国家的数据都被抓取并存储在一个数组中。

使用命令运行上述代码后node app.js，将抓取的数据写入countries.json文件并打印在终端上。这是我在终端上看到的部分内容：

聊聊使用Node.js + Cheerio 怎麼進行資料抓取

结论

感谢你阅读本文！我们已经介绍了使用cheerio. 如果你想更深入地了解并完全了解其工作原理，可以前往Cheerio 文档。

更多node相关知识，请访问：nodejs 教程！

以上是聊聊使用Node.js + Cheerio 怎麼進行資料抓取的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：掘金社区。如有侵權，請聯絡admin@php.cn刪除

JavaScript的角色：使網絡交互和動態Apr 24, 2025 am 12:12 AM

JavaScript是現代網站的核心，因為它增強了網頁的交互性和動態性。 1)它允許在不刷新頁面的情況下改變內容，2)通過DOMAPI操作網頁，3)支持複雜的交互效果如動畫和拖放，4)優化性能和最佳實踐提高用戶體驗。

C和JavaScript：連接解釋Apr 23, 2025 am 12:07 AM

C 和JavaScript通過WebAssembly實現互操作性。 1）C 代碼編譯成WebAssembly模塊，引入到JavaScript環境中，增強計算能力。 2）在遊戲開發中，C 處理物理引擎和圖形渲染，JavaScript負責遊戲邏輯和用戶界面。

從網站到應用程序：JavaScript的不同應用Apr 22, 2025 am 12:02 AM

JavaScript在網站、移動應用、桌面應用和服務器端編程中均有廣泛應用。 1)在網站開發中，JavaScript與HTML、CSS一起操作DOM，實現動態效果，並支持如jQuery、React等框架。 2)通過ReactNative和Ionic，JavaScript用於開發跨平台移動應用。 3)Electron框架使JavaScript能構建桌面應用。 4)Node.js讓JavaScript在服務器端運行，支持高並發請求。

Python vs. JavaScript：比較用例和應用程序Apr 21, 2025 am 12:01 AM

Python更適合數據科學和自動化，JavaScript更適合前端和全棧開發。 1.Python在數據科學和機器學習中表現出色，使用NumPy、Pandas等庫進行數據處理和建模。 2.Python在自動化和腳本編寫方面簡潔高效。 3.JavaScript在前端開發中不可或缺，用於構建動態網頁和單頁面應用。 4.JavaScript通過Node.js在後端開發中發揮作用，支持全棧開發。

C/C在JavaScript口譯員和編譯器中的作用Apr 20, 2025 am 12:01 AM

C和C 在JavaScript引擎中扮演了至关重要的角色，主要用于实现解释器和JIT编译器。1）C 用于解析JavaScript源码并生成抽象语法树。2）C 负责生成和执行字节码。3）C 实现JIT编译器，在运行时优化和编译热点代码，显著提高JavaScript的执行效率。

JavaScript在行動中：現實世界中的示例和項目Apr 19, 2025 am 12:13 AM

JavaScript在現實世界中的應用包括前端和後端開發。 1)通過構建TODO列表應用展示前端應用，涉及DOM操作和事件處理。 2)通過Node.js和Express構建RESTfulAPI展示後端應用。

JavaScript和Web：核心功能和用例Apr 18, 2025 am 12:19 AM

JavaScript在Web開發中的主要用途包括客戶端交互、表單驗證和異步通信。 1)通過DOM操作實現動態內容更新和用戶交互；2)在用戶提交數據前進行客戶端驗證，提高用戶體驗；3)通過AJAX技術實現與服務器的無刷新通信。

了解JavaScript引擎：實施詳細信息Apr 17, 2025 am 12:05 AM

理解JavaScript引擎內部工作原理對開發者重要，因為它能幫助編寫更高效的代碼並理解性能瓶頸和優化策略。 1)引擎的工作流程包括解析、編譯和執行三個階段；2)執行過程中，引擎會進行動態優化，如內聯緩存和隱藏類；3)最佳實踐包括避免全局變量、優化循環、使用const和let，以及避免過度使用閉包。

See all articles