首頁 >web前端 >js教程 >node如何爬取網頁中的圖片（附程式碼）

node如何爬取網頁中的圖片（附程式碼）

不言原創: 2018-08-17 15:45:202855瀏覽

這篇文章帶給大家的內容是關於node如何爬取網頁中的圖片（附程式碼），有一定的參考價值，有需要的朋友可以參考一下，希望對你有幫助。

const express = require(&#39;express&#39;);
const app = express();
app.get(&#39;/index&#39;, function(req, res) {
res.end(&#39;111&#39;)
})
var server = app.listen(8081, function() {
    var host = server.address().address
    var port = server.address().port
    console.log("应用实例，访问地址为 http://%s:%s", host, port)

})

運行node demo.js簡單的服務就搭起來了，如圖：

請求我們要爬取的頁面

npm install superagent
npm install superagent-charset
npm install cheerio

superagent 是用來發起請求的，是一個輕量的,漸進式的ajax api,可讀性好,學習曲線低,內部依賴nodejs原生的請求api,適用於nodejs環境下.，也可以使用http發起請求

superagent-charset防止爬取下來的資料亂碼，更改字元格式

cheerio為伺服器特別定制的，快速、靈活、實施的jQuery核心實作.。安裝完依賴就可以引入了

var superagent = require(&#39;superagent&#39;);
var charset = require(&#39;superagent-charset&#39;);
charset(superagent);
const cheerio = require(&#39;cheerio&#39;);

引入之後就請求我們的地址，https://www.qqtn.com/tx/weixintx_1.html，如圖：

######### ######宣告位址變數：###

const baseUrl = &#39;https://www.qqtn.com/&#39;

###這些設定完之後就是發請求了，接下來請看完整程式碼demo.js###

var superagent = require(&#39;superagent&#39;);
var charset = require(&#39;superagent-charset&#39;);
charset(superagent);
var express = require(&#39;express&#39;);
var baseUrl = &#39;https://www.qqtn.com/&#39;; //输入任何网址都可以
const cheerio = require(&#39;cheerio&#39;);
var app = express();
app.get(&#39;/index&#39;, function(req, res) {
    //设置请求头
    res.header("Access-Control-Allow-Origin", "*");
    res.header(&#39;Access-Control-Allow-Methods&#39;, &#39;PUT, GET, POST, DELETE, OPTIONS&#39;);
    res.header("Access-Control-Allow-Headers", "X-Requested-With");
    res.header(&#39;Access-Control-Allow-Headers&#39;, &#39;Content-Type&#39;);
    //类型
    var type = req.query.type;
    //页码
    var page = req.query.page;
    type = type || &#39;weixin&#39;;
    page = page || &#39;1&#39;;
    var route = `tx/${type}tx_${page}.html`
    //网页页面信息是gb2312，所以chaeset应该为.charset(&#39;gb2312&#39;)，一般网页则为utf-8,可以直接使用.charset(&#39;utf-8&#39;)
    superagent.get(baseUrl + route)
        .charset(&#39;gb2312&#39;)
        .end(function(err, sres) {
            var items = [];
            if (err) {
                console.log(&#39;ERR: &#39; + err);
                res.json({ code: 400, msg: err, sets: items });
                return;
            }
            var $ = cheerio.load(sres.text);
            $(&#39;div.g-main-bg ul.g-gxlist-imgbox li a&#39;).each(function(idx, element) {
                var $element = $(element);
                var $subElement = $element.find(&#39;img&#39;);
                var thumbImgSrc = $subElement.attr(&#39;src&#39;);
                items.push({
                    title: $(element).attr(&#39;title&#39;),
                    href: $element.attr(&#39;href&#39;),
                    thumbSrc: thumbImgSrc
                });
            });
            res.json({ code: 200, msg: "", data: items });
        });
});
var server = app.listen(8081, function() {

    var host = server.address().address
    var port = server.address().port

    console.log("应用实例，访问地址为 http://%s:%s", host, port)

})

###執行demo.js就會回傳我們拿到的數據，如圖：###############一個簡單的node爬蟲就完成了。 ######相關推薦：#########node爬蟲之gbk網頁中文亂碼解決方案_html/css_WEB-ITnose###############node下的http小爬蟲的範例程式碼分享#######

以上是node如何爬取網頁中的圖片（附程式碼）的詳細內容。更多資訊請關注PHP中文網其他相關文章！

json jquery ajax html express JS http https

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：vue如何實作頁面鍵盤事件（附程式碼）下一篇：vue如何實作頁面鍵盤事件（附程式碼）

看更多

node如何爬取網頁中的圖片（附程式碼）

目錄

安裝node

建置伺服器

相關文章