如何使用爬虫监控一系列网站的更新情况？-Python教程-PHP中文网

首页

后端开发

Python教程

如何使用爬虫监控一系列网站的更新情况？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 04:22 PM

html

我现在想到的方法只有每天自动把网站爬下来然后对比新旧网站的HTML文件才决定有没有更新

回复内容：

1 第一次先请求某个网页，抓取到本地，假设文件名为 a.html。这时文件系统有个文件的修改时间。

2 第二次访问网页，如果发现本地已经有了 a.html，则向服务器发送一个 If-Modified-Since 的请求（http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html）。把 a.html 的修改时间写到请求里。

3 如果网页更新了，服务器会返回一个 200 的应答，这时就重新抓取网页，更新本地文件。

4 如果网页没有更新，服务器会返回一个304的应答。这时就不需要更新文件了。这个问题已经有人做出现成产品了，你可以看一下:
http://sleepingspider.com
注册成为用户后，可以选择需要关注的网页，如有更新会收到邮件提醒。还有一些高级的设置，没用过，你可以看看我的本科毕设就是这个。。
当时做了一套监控果库、想去、花瓣市集、暖岛的服务。

实现方式：
1. crontab 定时任务
2. node 读取配置并调用 phantomjs（内存型浏览器）访问各链接并存图。
3. 所有图片用日期分文件夹命名，用 Bootstrap 做个对比显示。

如果有这样一套服务，我觉得挺好的。
不过付费率可能是个问题。也许用git对扒下来网页做版本控制也行吧？我歪个楼
chrome有个Page Monitor的插件使用MD5数字签名
每次下载网页时，把服务器返回的数据流ResponseStream先放在内存缓冲区，然后对
ResponseStream生成MD5数字签名S1，下次下载同样生成签名S2,比较S2和S1，如果相同，则页面没有
跟新，否则网页就有跟新。可以使用网站资讯监控工具，非常符合你的要求

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Numpy数组与使用数组模块创建的数组有何不同？Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata，而learthearrayModuleSutableforbasic，内存效率段

Numpy数组的使用与使用Python中的数组模块阵列相比如何？Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing，而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1）NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2）

CTYPES模块与Python中的数组有何关系？Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1）usectypestoInterfacewithClibrariesForperfermance.2）createc-stylec-stylec-stylarraysfornumericalcomputations.3）passarraystocfunctions foreforfunctionsforeffortions.however.however，However，HoweverofiousofmemoryManageManiverage，Pressiveo，Pressivero

在Python的上下文中定义'数组”和'列表”。Apr 24, 2025 pm 03:41 PM

Inpython，一个“列表” isaversatile，mutableSequencethatCanholdMixedDatateTypes，而“阵列” isamorememory-效率，均质sepersequeSequeSequeReDencErequiringElements.1）

Python列表是可变还是不变的？那Python阵列呢？Apr 24, 2025 pm 03:37 PM

pythonlistsandArraysareBothable.1）列表Sareflexibleandsupportereceneousdatabutarelessmory-Memory-Empefficity.2）ArraysareMoremoremoremoreMemoremorememorememorememoremorememogeneSdatabutlesserversEversementime，defteringcorcttypecrecttypececeDepeceDyusagetoagetoavoavoiDerrors。