Rumah >hujung hadapan web >tutorial js >在Node.js中使用cheerio制作简单的网页爬虫（详细教程）

在Node.js中使用cheerio制作简单的网页爬虫（详细教程）

亚连asal: 2018-06-02 14:30:033500semak imbas

本篇文章主要介绍了Node.js 利用cheerio制作简单的网页爬虫示例，现在分享给大家，也给大家做个参考。

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例，分享给大家，具有如下：

1. 目标

完成对网站的标题信息获取
将获取到的信息输出在一个新文件
工具: cheerio，使用npm下载npm install cheerio
cheerio的API使用方法和jQuery的使用方法基本一致
如果熟练使用jQuery，那么cheerio将会很快上手

2. 代码部分

介绍: 获取segment fault页面的列表标题，将获取到的标题列表编号，最终输出到pageTitle.txt文件里

const https = require(&#39;https&#39;);
const fs = require(&#39;fs&#39;);
const cheerio = require(&#39;cheerio&#39;);
const url = &#39;https://segmentfault.com/&#39;;

https.get(url, (res) => {
  let html = &#39;&#39;;
  res.on(&#39;data&#39;, (data) => {
    html += data;
  });
  res.on(&#39;end&#39;, () => {
    getPageTitle(html);
  });
}).on(&#39;error&#39;, () => {
  console.log(&#39;获取网页信息错误&#39;);
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $(&#39;.news__item-title&#39;);
  let data = [];
  let index = 0;
  let fileName = &#39;pageTitle.txt&#39;;
  for (let i = 0; i < chapters.length; i++) {
    let chapterTitle = $(chapters[i]).find(&#39;a&#39;).text().trim();
    index++;
    data.push(`\n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, &#39;utf8&#39;, (err) => {
    if (err) {
      console.log(&#39;fs文件系统创建新文件失败&#39;, err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

上面是我整理给大家的，希望今后会对大家有帮助。

聊聊JS动画库 Velocity.js的使用

vue toggle做一个点击切换class(实例讲解)

Vue2.0 给Tab标签页和页面切换过渡添加样式的方法

Atas ialah kandungan terperinci 在Node.js中使用cheerio制作简单的网页爬虫（详细教程）. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：如何使用vue源码解析事件机制Artikel seterusnya：如何使用AngularJs用户输入动态模板XSS攻击

Artikel berkaitan

Lihat lagi