Maison > Questions et réponses > le corps du texte
Scrapy
爬虫时,由于重定向或是其他原因,会导致原始的start_url
发生改变,怎样才能得到原始的start_url
?
def start_requests(self):
start_url = 'your_scrapy_start_url'
yield Request(start_url, self.parse)
def parse(self, response):
item = YourItem()
item['start_url'] = 原始请求的start_url
yield item
为情所困2017-06-28 09:25:41
Article de référence : Résumé des problèmes courants avec les robots Scrapy
Utilisez Request
中的meta
paramètres pour transmettre des informations
def start_requests(self):
start_url = 'your_scrapy_start_url'
yield Request(start_url, self.parse, meta={'start_url':start_url})
def parse(self, response):
item = YourItem()
item['start_url'] = response.meta['start_url']
yield item