Maison  >  Questions et réponses  >  le corps du texte

python - La page Web ne peut plus être explorée après la mise à jour des données

La page Web que j'ai explorée a mis à jour une information aujourd'hui, puis le robot l'a exécutée mais ne l'a pas explorée.


from pyspider.libs.base_handler import *
from pyspider.database.mysql.mysqldb import SQL

class Handler(BaseHandler):
    crawl_config = {
    }
       
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://www.yxztb.net/yxweb/zypd/012001/012001001/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('.tdmoreinfosub a').items():
            self.crawl(each.attr.href, callback=self.detail_page)
            
    @config(priority=2)
    def detail_page(self, response):
        
        return {
                "address":"宜兴市",
                "url":response.url,
                "title":response.doc('font  span').text(),
                "date" :response.doc('#tdTitle > .webfont').text()[8:17],
            }
    
    def on_result(self, result):
        print result
        if not result or not result['title']:
            return
        sql = SQL()
        sql.replace('zhaobiao',**result)
 

    

J'espère que les patrons pourront être plus précis et avoir plus d'échanges

给我你的怀抱给我你的怀抱2711 Il y a quelques jours574

répondre à tous(2)je répondrai

  • 我想大声告诉你

    我想大声告诉你2017-05-18 11:00:50

    Le réglage du paramètre

    @config (age) ignore directement l'exécution de index.page

    répondre
    0
  • 迷茫

    迷茫2017-05-18 11:00:50

    Puisque @every on_start dure un jour, alors définissez age=12 * 60 * 60 半天是比较合适的,保证每次 every 肯定不会被 age 所限制。另外 @config(age=10 * 24 * 60 * 60) dans self.crawl, ce qui signifie ne plus explorer dans les 10 jours.

    répondre
    0
  • Annulerrépondre