首頁  >  文章  >  後端開發  >  Python Scrapy爬蟲:同步與非同步分頁的DEMO

Python Scrapy爬蟲:同步與非同步分頁的DEMO

高洛峰
高洛峰原創
2016-11-22 14:03:263677瀏覽

分頁互動在請求資料時有同步和非同步兩種情況,同步時頁面整體刷新,非同步時頁面局部刷新。對於這兩種分頁的資料在進行爬蟲時,處理的方式是不一樣的。 DEMO僅供學習,網域全部匿為test

同步分頁

同步分頁時,頁面整體刷新,url地址欄會發生變化

爬蟲解析的資料對像是html

測試場景:抓取某招聘網站北京區的Java職位

#coding=utf-8import scrapyclass TestSpider(scrapy.Spider):
    name='test'
    download_delay=3
    user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
    page_url = 'http://www.test.com/zhaopin/Java/{0}/?filterOption=2'
    page=1

    #执行入口
    def start_requests(self):
        #第一页
        yield scrapy.Request(self.page_url.format('1'),
            headers={'User-Agent':self.user_agent},
            callback=self.parse,
            errback=self.errback_httpbin)    #解析返回的数据
    def parse(self,response):
        for li in response.xpath('//*[@id="s_position_list"]/ul/li'):            yield{                'company':li.xpath('@data-company').extract(),                'salary':li.xpath('@data-salary').extract()
            }        #是否是最后一页,根据下一页的按钮css样式判断
        if response.css('a.page_no.pager_next_disabled'):
            print('---is the last page,stop!---')            
            pass
        else:
            self.page=self.page+1
            #抓取下一页
            yield scrapy.Request(self.page_url.format(str(self.page)),
                headers={'User-Agent':self.user_agent},
                callback=self.parse,
                errback=self.errback_httpbin)    #异常处理
    def errback_httpbin(self,failure):
        if failure.check(HttpError):
            response = failure.value.response            print 'HttpError on {0}'.format(response.url)        elif failure.check(DNSLookupError):
            request = failure.request            print'DNSLookupError on {0}'.format(request.url)        elif failure.check(TimeoutError, TCPTimedOutError):
            request = failure.request            print'TimeoutError on {0}'.format(request.url)

啟動爬蟲:scrapy runspider //spiders//test_spider.py -o test.csv 完成後產生csv格式的檔案: 

Python Scrapy爬蟲:同步與非同步分頁的DEMO

分頁

分頁

分頁

分頁url網址列不會改變

爬蟲解析的資料物件通常是Json

測試場景:抓取某電影網站的經典電影前100

#coding=utf-8import scrapyimport jsonclass TestSpider(scrapy.Spider):
    name ='test'
    download_delay = 3
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
    pre_url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start='
    page=0
    cnt=0
    def start_requests(self):
            url= self.pre_url+str(0*20)             yield scrapy.Request(url,headers={'User-Agent':self.user_agent},callback=self.parse)    def parse(self,response):
        if response.body:            # json字符串转换成Python对象
            python_obj=json.loads(response.body)
            subjects=python_obj['subjects']            if len(subjects)>0:                for sub in subjects:
                    self.cnt=self.cnt+1
                    yield {                        'title':sub["title"],                        'rate':sub["rate"]
                    }                if self.cnt<100:                    print &#39;next page-------&#39;
                    self.page=self.page+1
                    url= self.pre_url+str(self.page*20)                    yield scrapy.Request(url,headers={&#39;User-Agent&#39;:self.user_agent},callback=self.parse)
Python Scrapy爬蟲:同步與非同步分頁的DEMO啟動爬蟲:scrapy runspider //spiders//test_spider.py -o test .json 完成後產生json格式的檔案: 

Scrapy與BeautifulSoup or lxml的區別


scrapy是編寫爬蟲和抓取功能數據的一整套框架,而Beautifulfulp.就像scrapy的xpath和css選擇器,所以它們也可以在scrapy下使用,只是運作效率相對較低。 在使用scrapy的選擇器時,我們可以藉助瀏覽器的F12模式,直接Copy任意節點的xpath和css值。

🎜🎜🎜
陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn