ホームページ  >  に質問  >  本文

python - scrapy自动翻页采集,第二页跳转后,爬虫自动结束

# -*- coding: utf-8 -*-
import scrapy
from weather.items import WeatherItem
from scrapy.http import Request


class WeatherSpider(scrapy.Spider):
    name = "myweather"
    allowed_domains = ["http://xjh.haitou.cc/nj/uni-21"]
    start_urls = ["http://xjh.haitou.cc/nj/uni-21/page-2"]

    url="http://xjh.haitou.cc"

    def parse(self, response):
        item = WeatherItem()
        preachs=response.xpath('//table[@id="mainInfoTable"]/tbody/tr')
        for preach in preachs:
            item['corp']=preach.xpath('.//p[@class="text-success company"]/text()').extract()
            item['date']=preach.xpath('.//span[@class="hold-ymd"]/text()').extract()
            item['location']=preach.xpath('.//td[@class="text-ellipsis"]/span/text()').extract()
            item['click']=preach.xpath('.//td[@class="text-right"]/text()').extract()
            yield item

        nextlink=response.xpath('//li[@class="next"]/a/@href').extract()

        if nextlink:
            link=nextlink[0]
            print "##############"
            print self.url+link
            print "##############"

            yield Request(self.url+link,callback=self.parse )
##############
http://xjh.haitou.cc/nj/uni-21/page-3
##############
2015-10-23 22:05:57 [scrapy] DEBUG: Filtered offsite request to 'xjh.haitou.cc': <GET http://xjh.haitou.cc/nj/uni-21/page-3>
2015-10-23 22:05:57 [scrapy] INFO: Closing spider (finished)
2015-10-23 22:05:57 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 261,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 10508,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2015, 10, 23, 14, 5, 57, 9032),
 'item_scraped_count': 20,
 'log_count/DEBUG': 23,
 'log_count/INFO': 7,
 'offsite/domains': 1,
 'offsite/filtered': 1,
 'request_depth_max': 1,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2015, 10, 23, 14, 5, 56, 662979)}
2015-10-23 22:05:57 [scrapy] INFO: Spider closed (finished)
伊谢尔伦伊谢尔伦2742日前1012

全員に返信(2)返信します

  • 怪我咯

    怪我咯2017-04-17 16:13:17

    allowed_domainsとstart_urlsを変更するだけです(コードを簡素化するために、url="http://xjh.haitou.ccの定義を削除します(不要))。
    変更後、まだOKかどうかを判断してください時間がある場合は、データのクロールを続けます:
    yieldscrapy.Request(response.urljoin(nextlink[0]),callback=self.parse)

    コードは次のように変更されます。理由については詳しく説明しませんので、公式ドキュメントを参照することをお勧めします。

    リーリー リーリー

    データの一部は次のとおりです:
    1:{"date": ["2015-10-26 12:00"], "corp": ["Datong Securities Co., Ltd."], "場所": [" Jiaoyi-508"]、"クリック": ["159"]}
    2:{"日付": ["2015-10-26 14:00"]、"corp": [ "ゴア エレファント デザイン "]、"場所": ["四パイロウ キャンパス中大園 309"]、"クリック": ["497"]}
    3:{"日付": ["2015-10-26 14 :00" ]、「corp」: ["中国西南建築測量設計研究所有限公司"]、"location": ["四牌楼キャンパス中山病院 111"]、"クリック": ["403" ]}
    4: {"日付": ["2015-10-26 14:00"]、"corp": ["Suzhou Suntai Marine Instrument R&D Co., Ltd."]、"location": ["四牌楼キャンパス中山大学 201"] , "click": ["624"]}
    5:{"date": ["2015-10-26 14:00"], "corp": ["大唐電信技術有限公司"]、"場所": ["四牌楼志志堂キャンパス"]、"クリック": ["1031"]}
    6:{"日付": ["2015-10- 26 14:00"]、「企業」: ["華信コンサルティング設計研究所有限公司"]、"場所": ["Jiaoliu 403"]、"クリック": ["373"]}
    7 :{"date": ["2015-10-26 14:00"]、"corp": ["Shanshi Network Communication Technology Co., Ltd."]、"location": ["九龍湖キャンパス教育 4 302" ], "クリック": ["573"]}
    8:{"日付": ["2015-10-26 18:30"], "corp": ["北京開成不動産有限公司"], "location": ["Sipailou Campus Liuyuan Hotel Shaw Science and Technology Museum"], "click": ["254"]}
    9:{"date": ["2015-10-26 18: 30"]、"corp": ["China Construction International Group Co., Ltd. Company"]、"location": ["Lidong 101, Sipailou Campus"]、"click": ["237"]}
    10:{"date": ["2015-10-26 18:30" ]、"corp": ["無錫華潤微電子有限公司"]、"location": ["3階講堂四牌楼キャンパス群仙ビルの"]、"クリック": ["607"]}
    11 :{"日付": ["2015-10-26 19:00"]、"corp": ["上海飛群データ通信技術有限公司"]、"場所": ["礁渓208"]、"クリック": ["461"]}
    ....
    ....
    129 :{"date": ["2015-11-16 14:00"], "corp" : ["レンベングループ株式会社"], "location": ["大学生活動センター 多機能ホール322" ]、"クリック": ["26"]}
    130:{"日付": ["2015-11-17 18:30"]、"corp": ["Jones Lang LaSalle Surveyors (Shanghai) Co. 、株式会社"]、"場所": ["九龍湖学生活動センター 324 新聞"]、"クリック": ["19"]}
    131:{"日付": ["2015-11-18 15 :30"]、"corp": ["Xiamen Zhongjun Group Co., Ltd."]、"location": ["Sipailou Liuyuan Xinhua Hall"]、"click": ["63"]}
    132: {"日付": ["2015-11-19 14:00"]、"corp": ["Leoch International Technology Co., Ltd."]、"location": ["九龍湖学生活動センター 322 新聞"] 、「クリック」: ["22"]}

    返事
    0
  • 迷茫

    迷茫2017-04-17 16:13:17

    おすすめのリファレンスを教えてください

    参考リンク

    返事
    0
  • キャンセル返事