Home >Web Front-end >HTML Tutorial >利用Node写一只小爬虫爬一爬简书_html/css_WEB-ITnose

利用Node写一只小爬虫爬一爬简书_html/css_WEB-ITnose

WBOY
WBOYOriginal
2016-06-21 08:53:151160browse

不知不觉中经过了1年了,这一年很快,也给我带来了很多转变,这一年很累,也给我带来更多的知识。确实是很累呀,回想起每晚都在瞎搞搞,到两三点精疲力尽的时候才去睡觉,不过收获也是巨大的,特别我的肚子也在不知不觉由腹肌变成了小肚子0 0,这是我很悲伤的一个故事。

好了,不扯了,这也不是我的风格,今天给大家来点干货,用用 Node.js (以下简称 Node)来写一写小爬虫来爬一爬简书。首先来接受一下 Node

有看我博客的人也知道我是做 IOS 开发的,但是为什么今天突然来写 Node 呢?个人感觉吧,做什么开发也好, 会点后台也不会吃亏,毕竟网络层的东西,多了解一下总是好的。说不定以后自己要做个应用什么的,起码不会烦恼怎么做后台吧。

那么写爬虫有什么好处呢,最起码你写的应用需要的数据都能给你找回来吧,显示个图片什么的都是要数据的吧。那么用 Node 写爬虫的好处有什么呢,为什么要选择 Node 呢?1.写 Node 用的是 JavaScript,而 JavaScript 又是前端交互中经常用到的,所以我们的学习开发成本会降低,一方面练习了 JavaScript 语法,另一方面又能开发后台,一举两得; 2.Node 的效率就是它的优点了,由于Node的网络是异步的,所以基本如同几百个进程并发一样强大,内存和CPU占用非常小。

那么说了这么多,就是想告诉大家 Node 其实并没有想象中那么差。好了,开始我们今天的代码了

首先我们要下载 Node 这个家伙了,下载完后只要简单的几步安装步骤就可以了。那么我们还需要一个编辑器,当然你也可以使用系统有的文本编辑器,但是在这里我个人来说就选择了 Atom 这款编辑器了,它一方面是高仿 sublineText ,只要熟悉 sublineText 的小伙伴就能很快上手了,另一方面是它的界面设计真心不错,很吸引我,而且下载第三方包的工具是自带的 apm(atom package manage) 很不错。

以下是我们需要爬的 html 结构了

html 结构

很乱的说有木有,但是,相信大家,越难的东西才是我们应该挑战的嘛

1.创建 shujian.js 文件

2.引入我们需要的模块

// 引入 node 的网络模块,这个模块对 node 来说很重要var http = require('http');// 引入 `cheerio` 这个模块,gitHub 上有介绍,它就是一个服务端的 JQuery  库var cheerio = require('cheerio');// 以下这个 url 是我个人主页的,请使用的小伙伴换一下自己的主页喔var url =   'http://www.jianshu.com/users/53fb509bd05c/latest_articles';

3.进行一次 get的请求并对返回的 html 字符串进行解析

http.get(url, function(res){// 用于拼接接受到的 html 字符串var html = '';// on 是 node 的一个监听事件res.on('data', function(data) {  html += data;});res.on('end', function() {    // 解析 html 字符串的方法,返回文章数据的对象     var articlesData = filterChapter(html);    // 输出这个对象的属性      printArticleInfo(articlesData);  });}).on('error', function(){  console.log('个人主页数据失败');});

4.解析 html 字符串的方法,返回文章数据的对象数组

function filterChapter(html) {var $ = cheerio.load(html);var articleList = $('.article-list').children('li');// 创建一个空数组,用来装载我们的文章对象var articlesData = [];articleList.each(function(item) {  // 以下 JQ 的方法,相信会一点 JQ 的人都能看懂啦,哈  var article = $(this);  var title = article.find('div').find('.title').find('a').text();  var span =  article.find('div').find('div.list-footer').find('span');  var loveCount = span.text();  // .eq(i) 通过索引筛选匹配的元素。使用.eq(-i)就从最后一个元素向前数。  var readCount = span.parent().find('a').eq(0).text(); // 因为我们只要 喜欢的数量,并不想要这两个字,所以用 JS 的方法把它去掉了,以下阅读二字也是一样的  var loveNum = parseFloat(loveCount.substring(loveCount.search('喜欢') + '喜欢'.length)) ;  var readNum = parseFloat(readCount.substring(readCount.search('阅读') + '阅读'.length)); // 创建文章对象,JS 的对象确实跟 json 的很像呀var articleData = {    title : title,     love  : loveNum.toString(),    readCount : readNum.toString()};  articlesData.push(articleData);});  return articlesData;}

5.将这个文章数组内的文章对象转换成字符串输出

function printArticleInfo(articlesData) {console.log('止于浮水的简书 :\n');articlesData.forEach(function(item) {  var title = item.title;  var loveCount = item.love;  var readCount = item.readCount;  console.log('《' + title + '》' + ' \n ' + '阅读数为: ' + readCount  +   '\n'  + '喜欢数为:'  + loveCount + '\n');  });}

好了,写了以上代码,现在需要跑一跑了,打开终端 输入 node jianshu.js

以下就是我的输出了

好了,到这里我们的 简书小爬虫就完成了,根据这些方法,你可以去爬一些更多数据的网页,甚至可以写更多更多的爬虫同时去爬取数据,让你再创造 app 的时候不再惧怕没有数据这块了。当然,这些数据需要一个数据库,这就是我以后要告诉小伙伴们的事情了。

@end

心如止水,奋力前行

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn