cari

Rumah  >  Soal Jawab  >  teks badan

Scrapy cara mendapatkan start_url asal

Scrapy爬虫时,由于重定向或是其他原因,会导致原始的start_url发生改变,怎样才能得到原始的start_url?

def start_requests(self):
    start_url = 'your_scrapy_start_url'
    yield Request(start_url, self.parse)
    
def parse(self, response):
    item = YourItem()
    item['start_url'] = 原始请求的start_url
    yield item
代言代言2740 hari yang lalu1052

membalas semua(1)saya akan balas

  • 为情所困

    为情所困2017-06-28 09:25:41

    Artikel rujukan: Ringkasan masalah biasa dengan perangkak Scrapy

    Gunakan Request中的meta parameter untuk menghantar maklumat

    def start_requests(self):
        start_url = 'your_scrapy_start_url'
        yield Request(start_url, self.parse, meta={'start_url':start_url})
        
    def parse(self, response):
        item = YourItem()
        item['start_url'] = response.meta['start_url']
        yield item

    balas
    0
  • Batalbalas