怎麼用Node爬取網頁的資料並寫入Excel檔案?以下這篇文章透過一個實例來講解一下用Node.js爬取網頁的資料並產生Excel檔案的方法,希望對大家有幫助!
相信寶可夢是許多90後的童年回憶,身為程式設計師不只一次的也想做一款寶可夢遊戲,但做之前應該先要整理一下有多少寶可夢,他們的編號,名字,屬性等資訊整理出來,本期將用Node.js 簡單的實現一個從寶可夢網頁資料的爬取,到把這些資料產生Excel文件,直到做介面讀取Excel存取這些資料。
爬取數據
既然是爬取數據,那我們先找一個有寶可夢圖鑑數據的網頁,如下圖:
這個網站是用PHP寫的,前後都沒有做分離,所以我們不會讀介面來捕獲數據,我們使用crawler
庫,來捕獲網頁中的元素從而得到數據。事先說明一下,用 crawler
函式庫,好處是你可以用 jQuery
的方式在Node環境中捕捉元素。
安裝:
yarn add crawler
實作:
const Crawler = require("crawler"); const fs = require("fs") const { resolve } = require("path") let crawler = new Crawler({ timeout: 10000, jQuery: true, }); let crawler = new Crawler({ timeout: 10000, jQuery: true, }); function getPokemon() { let uri = "" // 宝可梦图鉴地址 let data = [] return new Promise((resolve, reject) => { crawler.queue({ uri, callback: (err, res, done) => { if (err) reject(err); let $ = res.$; try { let $tr = $(".roundy.eplist tr"); $tr.each((i, el) => { let $td = $(el).find("td"); let _code = $td.eq(1).text().split("\n")[0] let _name = $td.eq(3).text().split("\n")[0] let _attr = $td.eq(4).text().split("\n")[0] let _other = $td.eq(5).text().split("\n")[0] _attr = _other.indexOf("属性") != -1 ? _attr : `${_attr}+${_other}` if (_code) { data.push([_code, _name, _attr]) } }) done(); resolve(data) } catch (err) { done() reject(err) } } }) }) }
在產生實例的時候,還需要開啟jQuery
模式,然後,就可以使用 $
符了。而上述程式碼的中間部分的業務就是在捕獲元素爬取網頁中所需要的數據,使用起來和 jQuery API
一樣,這裡就不再贅述了 。
getPokemon().then(async data => { console.log(data) })
最後我們可以執行並列印一下傳過來的 data
數據,來驗證確實爬取到了格式也沒有錯誤。
寫入Excel
既然剛才已經爬取到資料了,接下來,我們就將使用node -xlsx
函式庫,來完成把資料寫入並產生一個Excel 檔案中。
首先,我們先介紹一下,node-xlsx
是一個簡單的 excel 檔案解析器和產生器。由 TS 建構的一個依賴 SheetJS xlsx 模組來解析/建構 excel 工作表,所以,在一些參數配置上,兩者可以通用。
安裝:
yarn add node-xlsx
實作:
const xlsx = require("node-xlsx") getPokemon().then(async data => { let title = ["编号", "宝可梦", "属性"] let list = [{ name: "关都", data: [ title, ...data ] }]; const sheetOptions = { '!cols': [{ wch: 15 }, { wch: 20 }, { wch: 20 }] }; const buffer = await xlsx.build(list, { sheetOptions }) try { await fs.writeFileSync(resolve(__dirname, "data/pokemon.xlsx"), buffer, "utf8") } catch (error) { } })
其name
則是Excel檔案中的欄位名,而其中的data
# 類型是數組其也要傳入一個數組,構成一個二維數組,其表示從ABCDE.... 列開始排序傳入文字。同時,可以透過!cols
來設定列寬。第一個物件wch:10
則表示 第一列寬度為10 個字符,還有很多參數可以設置,可以參考 xlsx 庫 來學習這些配置項目。
最後,我們透過xlsx.build
方法來產生buffer
數據,最後用fs.writeFileSync
寫入或建立一個Excel 檔案中,為了方便查看,我在這裡存入了名叫data 的資料夾裡,此時,我們在data 資料夾就會發現多出一個叫pokemon.xlsx 的文件,打開它,資料還是那些,這樣把資料寫入到Excel的這步驟操作就完成了。
讀取Excel
讀取Excel其實很容易甚至不用寫 fs
的讀取,用xlsx.parse
方法傳入檔案位址就能直接讀取到。
xlsx.parse(resolve(__dirname, "data/pokemon.xlsx"));
當然,我們為了驗證準確無誤,直接寫一個接口,看看能不能存取到資料。為了方便我直接用 express
框架來完成這件事。
先來安裝一下:
yarn add express
然後,再建立 express
服務,我這裡連接埠號碼就用3000了,就寫一個GET
請求把讀取Excel檔案的資料送出去就好。
const express = require("express") const app = express(); const listenPort = 3000; app.get("/pokemon",(req,res)=>{ let data = xlsx.parse(resolve(__dirname, "data/pokemon.xlsx")); res.send(data) }) app.listen(listenPort, () => { console.log(`Server running at http://localhost:${listenPort}/`) })
最後,我這裡用 postman
訪問接口,就可以清楚的看到,我們從爬取到存入表格所有的寶可夢數據都接收到了。
結語
如你所見,本文以寶可夢為例,來學習怎麼用Node.js爬取網頁的數據,怎麼把數據寫入Excel文件,以及怎麼讀取到Excel檔案的資料這三個問題,其實實現難度並不大,但有些時候蠻實用的,如果擔心忘記可以收藏起來喲~
更多node相關知識,請訪問:nodejs 教程!
以上是node爬取資料實例:抓取寶可夢圖鑑並產生Excel文件的詳細內容。更多資訊請關注PHP中文網其他相關文章!

是的,JavaScript的引擎核心是用C語言編寫的。 1)C語言提供了高效性能和底層控制,適合JavaScript引擎的開發。 2)以V8引擎為例,其核心用C 編寫,結合了C的效率和麵向對象特性。 3)JavaScript引擎的工作原理包括解析、編譯和執行,C語言在這些過程中發揮關鍵作用。

JavaScript是現代網站的核心,因為它增強了網頁的交互性和動態性。 1)它允許在不刷新頁面的情況下改變內容,2)通過DOMAPI操作網頁,3)支持複雜的交互效果如動畫和拖放,4)優化性能和最佳實踐提高用戶體驗。

C 和JavaScript通過WebAssembly實現互操作性。 1)C 代碼編譯成WebAssembly模塊,引入到JavaScript環境中,增強計算能力。 2)在遊戲開發中,C 處理物理引擎和圖形渲染,JavaScript負責遊戲邏輯和用戶界面。

JavaScript在網站、移動應用、桌面應用和服務器端編程中均有廣泛應用。 1)在網站開發中,JavaScript與HTML、CSS一起操作DOM,實現動態效果,並支持如jQuery、React等框架。 2)通過ReactNative和Ionic,JavaScript用於開發跨平台移動應用。 3)Electron框架使JavaScript能構建桌面應用。 4)Node.js讓JavaScript在服務器端運行,支持高並發請求。

Python更適合數據科學和自動化,JavaScript更適合前端和全棧開發。 1.Python在數據科學和機器學習中表現出色,使用NumPy、Pandas等庫進行數據處理和建模。 2.Python在自動化和腳本編寫方面簡潔高效。 3.JavaScript在前端開發中不可或缺,用於構建動態網頁和單頁面應用。 4.JavaScript通過Node.js在後端開發中發揮作用,支持全棧開發。

C和C 在JavaScript引擎中扮演了至关重要的角色,主要用于实现解释器和JIT编译器。1)C 用于解析JavaScript源码并生成抽象语法树。2)C 负责生成和执行字节码。3)C 实现JIT编译器,在运行时优化和编译热点代码,显著提高JavaScript的执行效率。

JavaScript在現實世界中的應用包括前端和後端開發。 1)通過構建TODO列表應用展示前端應用,涉及DOM操作和事件處理。 2)通過Node.js和Express構建RESTfulAPI展示後端應用。

JavaScript在Web開發中的主要用途包括客戶端交互、表單驗證和異步通信。 1)通過DOM操作實現動態內容更新和用戶交互;2)在用戶提交數據前進行客戶端驗證,提高用戶體驗;3)通過AJAX技術實現與服務器的無刷新通信。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版
視覺化網頁開發工具

記事本++7.3.1
好用且免費的程式碼編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6
視覺化網頁開發工具