搜尋
首頁web前端js教程詳解如何使用Node.js開發一個簡單圖片爬取功能

如何使用Node進行爬取?以下這篇文章帶大家聊聊使用Node.js開發一個簡單圖片爬取功能,希望對大家有幫助!

詳解如何使用Node.js開發一個簡單圖片爬取功能

爬蟲的主要目的是收集網路上公開的一些特定資料。利用這些資料我們可以能進行分析一些趨勢對比,或是訓練模型做深度學習等等。本期我們將介紹一個專門用於網頁抓取的node.js 套件- node-crawler ,並且我們將用它完成一個簡單的爬蟲案例來爬取網頁上圖片並下載到本地。

正文

node-crawler 是一個輕量級的node.js 爬蟲工具,兼顧了高效能與便利性,支援分散式爬蟲系統,支援硬編碼,支援http前級代理。而且,它完全是由 nodejs 寫成,天生支援非阻塞非同步IO,為爬蟲的管線作業機制提供了極大便利。同時支援對DOM 的快速選擇(可以使用jQuery 語法),對於抓取網頁的特定部分的任務可以說是殺手級功能,無需再手寫正則表達式,提高爬蟲開發效率。

安裝引入

我們先新建一個項目,在裡面建立index.js作為入口檔案。

然後進行爬蟲庫  node-crawler 的安裝。

# PNPM
pnpm add crawler
# NPM
npm i -S crawler
# Yarn 
yarn add crawler

然後用過 require 引入進去。

// index.js
const Crawler = require("crawler");

建立實例

// index.js
let crawler = new Crawler({
    timeout:10000,
    jQuery:true,
})
function getImages(uri) {
    crawler.queue({
        uri,
        callback: (err, res, done) => {
            if (err) throw err;
        }
    })
}

從現在我們將開始寫一個拿到html頁面的圖片的方法,crawler 實例化後,在其佇列中主要是為了寫入連結和回調方法。在每個請求處理完畢後將調這個回呼函數。

這裡還要說明一下, Crawler  使用了request 函式庫,所以Crawler 可供設定的參數清單是request 函式庫的參數的超集,即request 函式庫中所有的配置在Crawler 中均適用。

元素捕獲

剛才或許你也看​​到了jQuery 這個參數,你猜的沒錯,它可以使用 jQuery  的語法去捕獲DOM 元素的。

// index.js
let data = []
function getImages(uri) {
    crawler.queue({
        uri,
        callback: (err, res, done) => {
            if (err) throw err;
            let $ = res.$;
            try {
                let $imgs = $("img");
                Object.keys($imgs).forEach(index => {
                    let img = $imgs[index];
                    const { type, name, attribs = {} } = img;
                    let src = attribs.src || "";
                    if (type === "tag" && src && !data.includes(src)) {
                        let fileSrc = src.startsWith('http') ? src : `https:${src}`
                        let fileName = src.split("/")[src.split("/").length-1]
                        downloadFile(fileSrc, fileName) // 下载图片的方法
                        data.push(src)
                    }
                });
            } catch (e) {
                console.error(e);
                done()
            }
            done();
        }
    })
}

可以看到剛才透過 $ 來完成對請求中 img 標籤的捕獲。然後我們下面的邏輯去處理補全圖片的連結和剝離出名字為了後面可以保存取名用。這裡也定義了一個數組,它的目的是保存已經捕獲到的圖片地址,如果下次捕獲發現同一個圖片地址,那麼就不再重複處理下載了。

以下是掘金首頁html以$("img") 擷取到的資訊列印:

詳解如何使用Node.js開發一個簡單圖片爬取功能

下載圖片

下載之前我們還要安裝一個nodejs 套件— axios ,是的你沒看錯,axios 不僅提供給前端,它也可以給後端使用。但因為下載圖片要把它處理成資料流,所以把 responseType 設為 stream 。然後才可以用 pipe 方法儲存資料流檔案。

const { default: axios } = require("axios");
const fs = require('fs');

async function downloadFile(uri, name) {
    let dir = "./imgs"
    if (!fs.existsSync(dir)) {
        await fs.mkdirSync(dir)
    }
    let filePath = `${dir}/${name}`
    let res = await axios({
        url: uri,
        responseType: 'stream'
    })
    let ws = fs.createWriteStream(filePath)
    res.data.pipe(ws)
    res.data.on("close",()=>{
        ws.close();
    })
}

因為可能圖片很多,所以要統一放在一個資料夾下,就要判斷有沒有這個資料夾如果沒有就創建一個。然後透過 createWriteStream 方法來把取得到的資料流以檔案的形式儲存到資料夾裡面。

然後我們可以嘗試一下,例如我們捕獲用一下掘金首頁html下的圖片:

// index.js
getImages("https://juejin.cn/")

執行後發現就可以發現已經捕獲到靜態html裡面的所有圖片了。

node index.js

詳解如何使用Node.js開發一個簡單圖片爬取功能

#結語

到了最後,你也可以看到,這個程式碼可能不適用於SPA(單頁應用)。由於單頁應用程式中只有一個HTML 文件,並且網頁上的所有內容都是動態呈現的,但是萬變不離其宗,不管怎樣,你可以直接處理其數據請求,來收集到想要的信息也未嘗不可。

還有一點要說的是,很多小夥伴處理下載圖片的請求用到了request.js ,當然這樣可以的,甚至代碼量更少,但是,我想說的是這個庫在2020年的時候就已經被棄用了,最好換一個一直在更新維護的庫比較好。

詳解如何使用Node.js開發一個簡單圖片爬取功能

更多node相關知識,請造訪:nodejs 教學

以上是詳解如何使用Node.js開發一個簡單圖片爬取功能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:掘金社区。如有侵權,請聯絡admin@php.cn刪除
使用Next.js(後端集成)構建多租戶SaaS應用程序使用Next.js(後端集成)構建多租戶SaaS應用程序Apr 11, 2025 am 08:23 AM

我使用您的日常技術工具構建了功能性的多租戶SaaS應用程序(一個Edtech應用程序),您可以做同樣的事情。 首先,什麼是多租戶SaaS應用程序? 多租戶SaaS應用程序可讓您從唱歌中為多個客戶提供服務

如何使用Next.js(前端集成)構建多租戶SaaS應用程序如何使用Next.js(前端集成)構建多租戶SaaS應用程序Apr 11, 2025 am 08:22 AM

本文展示了與許可證確保的後端的前端集成,並使用Next.js構建功能性Edtech SaaS應用程序。 前端獲取用戶權限以控制UI的可見性並確保API要求遵守角色庫

JavaScript:探索網絡語言的多功能性JavaScript:探索網絡語言的多功能性Apr 11, 2025 am 12:01 AM

JavaScript是現代Web開發的核心語言,因其多樣性和靈活性而廣泛應用。 1)前端開發:通過DOM操作和現代框架(如React、Vue.js、Angular)構建動態網頁和單頁面應用。 2)服務器端開發:Node.js利用非阻塞I/O模型處理高並發和實時應用。 3)移動和桌面應用開發:通過ReactNative和Electron實現跨平台開發,提高開發效率。

JavaScript的演變:當前的趨勢和未來前景JavaScript的演變:當前的趨勢和未來前景Apr 10, 2025 am 09:33 AM

JavaScript的最新趨勢包括TypeScript的崛起、現代框架和庫的流行以及WebAssembly的應用。未來前景涵蓋更強大的類型系統、服務器端JavaScript的發展、人工智能和機器學習的擴展以及物聯網和邊緣計算的潛力。

神秘的JavaScript:它的作用以及為什麼重要神秘的JavaScript:它的作用以及為什麼重要Apr 09, 2025 am 12:07 AM

JavaScript是現代Web開發的基石,它的主要功能包括事件驅動編程、動態內容生成和異步編程。 1)事件驅動編程允許網頁根據用戶操作動態變化。 2)動態內容生成使得頁面內容可以根據條件調整。 3)異步編程確保用戶界面不被阻塞。 JavaScript廣泛應用於網頁交互、單頁面應用和服務器端開發,極大地提升了用戶體驗和跨平台開發的靈活性。

Python還是JavaScript更好?Python還是JavaScript更好?Apr 06, 2025 am 12:14 AM

Python更适合数据科学和机器学习,JavaScript更适合前端和全栈开发。1.Python以简洁语法和丰富库生态著称,适用于数据分析和Web开发。2.JavaScript是前端开发核心,Node.js支持服务器端编程,适用于全栈开发。

如何安裝JavaScript?如何安裝JavaScript?Apr 05, 2025 am 12:16 AM

JavaScript不需要安裝,因為它已內置於現代瀏覽器中。你只需文本編輯器和瀏覽器即可開始使用。 1)在瀏覽器環境中,通過標籤嵌入HTML文件中運行。 2)在Node.js環境中,下載並安裝Node.js後,通過命令行運行JavaScript文件。

在Quartz中如何在任務開始前發送通知?在Quartz中如何在任務開始前發送通知?Apr 04, 2025 pm 09:24 PM

如何在Quartz中提前發送任務通知在使用Quartz定時器進行任務調度時,任務的執行時間是由cron表達式設定的。現�...

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能