Rumah >hujung hadapan web >tutorial js >利用nodejs爬虫使用superagent和cheerio的方法

利用nodejs爬虫使用superagent和cheerio的方法

亚连asal: 2018-06-01 14:38:382618semak imbas

这篇文章主要介绍了nodejs爬虫初试superagent和cheerio的相关知识，非常不错，具有参考借鉴价值,需要的朋友可以参考下

前言

　　早就听过爬虫，这几天开始学习nodejs，写了个爬虫https://github.com/leichangchun/node-crawlers/tree/master/superagent_cheerio_demo，爬取博客园首页的文章标题、用户名、阅读数、推荐数和用户头像，现做个小总结。

　　使用到这几个点：

　　1、node的核心模块-- 文件系统

　　2、用于http请求的第三方模块 -- superagent

　　3、用于解析DOM的第三方模块 -- cheerio

　　几个模块详细的讲解及API请到各个链接查阅，demo中只有简单的用法。

准备工作

　　使用npm管理依赖，依赖信息会存放在package.json中

//安装用到的第三方模块
cnpm install --save superagent cheerio

　　引入所需要用到的功能模块

//引入第三方模块，superagent用于http请求，cheerio用于解析DOM
const request = require(&#39;superagent&#39;);
const cheerio = require(&#39;cheerio&#39;);
const fs = require(&#39;fs&#39;);

请求 + 解析页面

　　想要爬到博客园首页的内容，首先要请求首页地址，拿到返回的html，这里使用superagent进行http请求，基本的使用方法如下：

request.get(url)
      .end(error,res){
      //do something     
}

　　向指定的url发起get请求，请求错误时，会有error返回（没有错误时，error为null或undefined），res为返回的数据。

　　拿到html内容后，要拿到我们想要的数据，这个时候就需要用cheerio解析DOM了，cheerio要先load目标html，然后再进行解析，API和jquery的API非常类似，熟悉jquery上手非常快。直接看代码实例

//目标链接 博客园首页
let targetUrl = &#39;https://www.cnblogs.com/&#39;;
//用来暂时保存解析到的内容和图片地址数据
let content = &#39;&#39;;
let imgs = [];
//发起请求
request.get(targetUrl)
    .end( (error,res) => {
      if(error){ //请求出错，打印错误，返回
        console.log(error)
        return;
      }
      // cheerio需要先load html
      let $ = cheerio.load(res.text);
      //抓取需要的数据,each为cheerio提供的方法用来遍历
      $(&#39;#post_list .post_item&#39;).each( (index,element) => {
        //分析所需要的数据的DOM结构
        //通过选择器定位到目标元素，再获取到数据
        let temp = {
          &#39;标题&#39; : $(element).find(&#39;h3 a&#39;).text(),
          &#39;作者&#39; : $(element).find(&#39;.post_item_foot > a&#39;).text(),
          &#39;阅读数&#39; : +$(element).find(&#39;.article_view a&#39;).text().slice(3,-2),
          &#39;推荐数&#39; : +$(element).find(&#39;.diggnum&#39;).text()
        }
        //拼接数据
        content += JSON.stringify(temp) + &#39;\n&#39;;
        //同样的方式获取图片地址
        if($(element).find(&#39;img.pfs&#39;).length > 0){
          imgs.push($(element).find(&#39;img.pfs&#39;).attr(&#39;src&#39;));
        }
      });
      //存放数据
      mkdir(&#39;./content&#39;,saveContent);
      mkdir(&#39;./imgs&#39;,downloadImg);
    })

存储数据

　　上面解析DOM之后，已经拼接了所需要的信息内容，也拿到了图片的URL，现在就进行存储，把内容存放到指定目录的txt文件中，而且下载图片到指定目录

　　先创建目录，使用nodejs核心的文件系统

//创建目录
function mkdir(_path,callback){
  if(fs.existsSync(_path)){
    console.log(`${_path}目录已存在`)
  }else{
    fs.mkdir(_path,(error)=>{
      if(error){
        return console.log(`创建${_path}目录失败`);
      }
      console.log(`创建${_path}目录成功`)
    })
  }
  callback(); //没有生成指定目录不会执行
}

　　有了指定目录之后，可以写入数据了，txt文件的内容已经有了，直接写入就可以了使用writeFile()

//将文字内容存入txt文件中
function saveContent() {
  fs.writeFile(&#39;./content/content.txt&#39;,content.toString());
}

　　取到了图片的链接，所以需要再使用superagent下载图片，存在本地。superagent可以直接返回一个响应流，再配合nodejs的管道，直接把图片内容写到本地

//下载爬到的图片
function downloadImg() {
  imgs.forEach((imgUrl,index) => {
    //获取图片名 
    let imgName = imgUrl.split(&#39;/&#39;).pop();

    //下载图片存放到指定目录
    let stream = fs.createWriteStream(`./imgs/${imgName}`);
    let req = request.get(&#39;https:&#39; + imgUrl); //响应流
    req.pipe(stream);
    console.log(`开始下载图片 https:${imgUrl} --> ./imgs/${imgName}`);     
  } )
}

效果　　

　　执行下demo，看下效果，数据已经正常爬下来了

　　非常简单的一个demo，可能也没有那么严谨，不过总是走出了node的第一小步。

上面是我整理给大家的，希望今后会对大家有帮助。

Vue的路由动态重定向和导航守卫实例

vue实现的上传图片到数据库并显示到页面功能示例

解决使用vue.js路由后失效的问题

Atas ialah kandungan terperinci 利用nodejs爬虫使用superagent和cheerio的方法. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：如何使用WebSocket通信Artikel seterusnya：如何使用jQuery遍历XML节点与属性

Artikel berkaitan

Lihat lagi