首页  >  问答  >  正文

python - scrapy 如何组合2个不同页面的数据,一并存储

1 比如有博客列表页 a ,获取文章列表
2 博客内容详情页 b , 获取文章正文
3 如何依次获取到文章 + 内容 到数据库 ?
4 当前问题主要是不知道如何组合2个不同页面的数据

女神的闺蜜爱上我女神的闺蜜爱上我2685 天前809

全部回复(1)我来回复

  • 巴扎黑

    巴扎黑2017-06-12 09:27:36

    可以用request.meta来存储额外的信息, 比如

    
    def parse_x1(self, response):
        extra = {}
        ...
        req = scrapy.Request(url2)
        req.callback = self.parse_x2
        ...
        req.meta['extra'] = extra 
        yield req
     
    def parse_x2(self, response):
        item = {}
        extra = response.meta['extra']
        item.update(extra)
        ...
        
        yield item
    

    回复
    0
  • 取消回复