最近在写一个python程序要把一些rss中的文章不断获取下来
但不知道怎么判断rss是否更新过,只获取那些更新出来的文章
目前的想法是对每一个rss存一个最新文章的时间,下一次把所有更新的文章获取下来,然后更新这个最新时间
对了还有另外一个问题,就是感觉rss中的文章数没有网页上多,貌似好几天才有新的,但网页上是每天都有的,是什么原因?
ringa_lee2017-04-17 14:49:55
理论上来说,rss在http header应该返回一个last-modified或者etag(atom),可以通过这个来判断
python的feedparser中,可以这样用
import feedparser
d = feedparser.parse(rss_url)
d = feedparser.parse(rss_url, modified=d.modified, etag=d.etag)
d.status # 304
d.feed # {}
如果没有更新的话,第二次就不会获取到东西