爬虫获取页面链接，求问如何判断是最新的链接？

Question

想做一个自动转发网站新闻的微博机器人作为python练手项目。我知道需要api对接、需要爬取网站的新闻链接和标题。但是如何只提取最新的新闻呢？以下是按照我的要求过滤后，输出所有新闻的代码:bar = soup.find_all('li', attrs={'data-label': True})
news =&nbsp

三叔 · Answer

你是在爬取直播吧吧

可以设置一个变量lasttime记录上次爬取的时间

from datetime import datetime

#type datetime
lasttime

bar = soup.find_all('li', attrs={'data-label': True})
news = len(bar)
for i in range(news):
    d = datetime.strptime(bar[i].text[-19:], "%Y-%m-%d %H:%M:%S")
    if u'巴塞罗那' in bar[i]['data-label'].split(',') and d > lasttime:
        print bar[i]

爬虫获取页面链接，求问如何判断是最新的链接？

membalas semua(1)saya akan balas