這篇文章跟大家介紹一下node中藉助第三方開源函式庫輕鬆實現網站爬取功能的方法,希望對大家有幫助!
nodejs#實作網站爬取功能
第三方函式庫介紹
request 對網路請求的封裝
cheerio node 版本的jQuery
mkdirp 建立多層的資料夾目錄
實作想法
透過
request
取得指定url 內容透過
cheerio
找到頁面中跳轉的路徑(去重)- ##透過
mkdirp
建立目錄
- 透過
fs
建立文件,將讀取的內容寫入
##拿到沒有存取的路徑重複以上執行步驟
程式碼實作##const fs = require("fs");
const path = require("path");
const request = require("request");
const cheerio = require("cheerio");
const mkdirp = require("mkdirp");
// 定义入口url
const homeUrl = "https://www.baidu.com";
// 定义set存储已经访问过的路径,避免重复访问
const set = new Set([homeUrl]);
function grab(url) {
// 校验url规范性
if (!url) return;
// 去空格
url = url.trim();
// 自动补全url路径
if (url.endsWith("/")) {
url += "index.html";
}
const chunks = [];
// url可能存在一些符号或者中文,可以通过encodeURI编码
request(encodeURI(url))
.on("error", (e) => {
// 打印错误信息
console.log(e);
})
.on("data", (chunk) => {
// 接收响应内容
chunks.push(chunk);
})
.on("end", () => {
// 将相应内容转换成文本
const html = Buffer.concat(chunks).toString();
// 没有获取到内容
if (!html) return;
// 解析url
let { host, origin, pathname } = new URL(url);
pathname = decodeURI(pathname);
// 通过cheerio解析html
const $ = cheerio.load(html);
// 将路径作为目录
const dir = path.dirname(pathname);
// 创建目录
mkdirp.sync(path.join(__dirname, dir));
// 往文件写入内容
fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => {
// 打印错误信息
if (err) {
console.log(err);
return;
}
console.log(`[${url}]保存成功`);
});
// 获取到页面中所有a元素
const aTags = $("a");
Array.from(aTags).forEach((aTag) => {
// 获取到a标签中的路径
const href = $(aTag).attr("href");
// 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的
// 排除空标签
if (!href) return;
// 排除锚点连接
if (href.startsWith("#")) return;
if (href.startsWith("mailto:")) return;
// 如果不想要保存图片可以过滤掉
// if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return;
// href必须是入口url域名
let reg = new RegExp(`^https?:\/\/${host}`);
if (/^https?:\/\//.test(href) && !reg.test(href)) return;
// 可以根据情况增加更多逻辑
let newUrl = "";
if (/^https?:\/\//.test(href)) {
// 处理绝对路径
newUrl = href;
} else {
// 处理相对路径
newUrl = origin + path.join(dir, href);
}
// 判断是否访问过
if (set.has(newUrl)) return;
if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return;
if (newUrl.endsWith("/")) newUrl += "index.html";
set.add(newUrl);
grab(newUrl);
});
});
}
// 开始抓取
grab(homeUrl);
##簡單的網頁爬蟲就完成了,可以把homeUrl改成自己想要爬取的網站試試。
更多node相關知識,請造訪:nodejs 教學
! !以上是聊聊node中怎麼借助第三方開源函式庫實現網站爬取功能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

JavaScript的最新趨勢包括TypeScript的崛起、現代框架和庫的流行以及WebAssembly的應用。未來前景涵蓋更強大的類型系統、服務器端JavaScript的發展、人工智能和機器學習的擴展以及物聯網和邊緣計算的潛力。

JavaScript是現代Web開發的基石,它的主要功能包括事件驅動編程、動態內容生成和異步編程。 1)事件驅動編程允許網頁根據用戶操作動態變化。 2)動態內容生成使得頁面內容可以根據條件調整。 3)異步編程確保用戶界面不被阻塞。 JavaScript廣泛應用於網頁交互、單頁面應用和服務器端開發,極大地提升了用戶體驗和跨平台開發的靈活性。

Python更适合数据科学和机器学习,JavaScript更适合前端和全栈开发。1.Python以简洁语法和丰富库生态著称,适用于数据分析和Web开发。2.JavaScript是前端开发核心,Node.js支持服务器端编程,适用于全栈开发。

JavaScript不需要安裝,因為它已內置於現代瀏覽器中。你只需文本編輯器和瀏覽器即可開始使用。 1)在瀏覽器環境中,通過標籤嵌入HTML文件中運行。 2)在Node.js環境中,下載並安裝Node.js後,通過命令行運行JavaScript文件。

如何在Quartz中提前發送任務通知在使用Quartz定時器進行任務調度時,任務的執行時間是由cron表達式設定的。現�...

在JavaScript中如何獲取原型鏈上函數的參數在JavaScript編程中,理解和操作原型鏈上的函數參數是常見且重要的任�...

在微信小程序web-view中使用Vue.js動態style位移失效的原因分析在使用Vue.js...

在Tampermonkey中如何對多個鏈接進行並發GET請求並依次判斷返回結果?在Tampermonkey腳本中,我們經常需要對多個鏈...


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver Mac版
視覺化網頁開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版
中文版,非常好用