使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 am 11:29 AM

scrapy网络爬虫Spinne

代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector

from cnbeta.items import CnbetaItem
class CBSpider(CrawlSpider):
    name = 'cnbeta'
    allowed_domains = ['cnbeta.com']
    start_urls = ['http://www.bitsCN.com']

    rules = (
        Rule(SgmlLinkExtractor(allow=('/articles/.*\.htm', )),
             callback='parse_page', follow=True),
    )

    def parse_page(self, response):
        item = CnbetaItem()
        sel = Selector(response)
        item['title'] = sel.xpath('//title/text()').extract()
        item['url'] = response.url
        return item

实现蜘蛛爬虫步骤

1.实例初级目标：从一个网站的列表页抓取文章列表，然后存入数据库中，数据库包括文章标题、链接、时间

首先生成一个项目:scrapy startproject fjsen
先定义下items,打开items.py:

我们开始建模的项目，我们想抓取的标题，地址和时间的网站，我们定义域为这三个属性。这样做，我们编辑items.py，发现在开放目录目录。我们的项目看起来像这样：

代码如下:

from scrapy.item import Item, Field
class FjsenItem(Item):
    # define the fields for your item here like:
    # name = Field()
    title=Field()
    link=Field()
    addtime=Field()

第二步：定义一个spider,就是爬行蜘蛛（注意在工程的spiders文件夹下），他们确定一个初步清单的网址下载，如何跟随链接，以及如何分析这些内容的页面中提取项目（我们要抓取的网站是http://www.fjsen.com/j/node_94962.htm 这列表的所有十页的链接和时间）。
新建一个fjsen_spider.py,内容如下：

代码如下:

#-*- coding: utf-8 -*-
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from fjsen.items import FjsenItem
class FjsenSpider(BaseSpider):
    name="fjsen"
    allowed_domains=["fjsen.com"]
    start_urls=['http://www.fjsen.com/j/node_94962_'+str(x)+'.htm' for x in range(2,11)]+['http://www.fjsen.com/j/node_94962.htm']
    def parse(self,response):
        hxs=HtmlXPathSelector(response)
        sites=hxs.select('//ul/li')
        items=[]
        for site in sites:
            item=FjsenItem()
            item['title']=site.select('a/text()').extract()
            item['link'] = site.select('a/@href').extract()
            item['addtime']=site.select('span/text()').extract()
            items.append(item)
        return items

name:是确定蜘蛛的名称。它必须是独特的，就是说，你不能设置相同的名称不同的蜘蛛。
allowed_domains：这个很明显，就是允许的域名，或者说爬虫所允许抓取的范围仅限这个列表里面的域名。
start_urls：是一个网址列表，蜘蛛会开始爬。所以，第一页将被列在这里下载。随后的网址将生成先后从数据中包含的起始网址。我这里直接是列出十个列表页。
parse()：是蜘蛛的一个方法，当每一个开始下载的url返回的Response对象都会执行该函数。
这里面，我抓取每一个列表页中的

下的数据，包括title,链接，还有时间，并插入到一个列表中

第三步，将抓取到的数据存入数据库中，这里就得在pipelines.py这个文件里面修改了

代码如下:

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
from os import path
from scrapy import signals
from scrapy.xlib.pydispatch import dispatcher
class FjsenPipeline(object):

    def __init__(self):
        self.conn=None
        dispatcher.connect(self.initialize,signals.engine_started)
        dispatcher.connect(self.finalize,signals.engine_stopped)
    def process_item(self,item,spider):
        self.conn.execute('insert into fjsen values(?,?,?,?)',(None,item['title'][0],'http://www.bitsCN.com/'+item['link'][0],item['addtime'][0]))
        return item
    def initialize(self):
        if path.exists(self.filename):
            self.conn=sqlite3.connect(self.filename)
        else:
            self.conn=self.create_table(self.filename)
    def finalize(self):
        if self.conn is not None:
            self.conn.commit()
            self.conn.close()
            self.conn=None
    def create_table(self,filename):
        conn=sqlite3.connect(filename)
        conn.execute("""create table fjsen(id integer primary key autoincrement,title text,link text,addtime text)""")
        conn.commit()
        return conn

这里我暂时不解释，先继续，让这个蜘蛛跑起来再说。

第四步：修改setting.py这个文件：将下面这句话加进去

代码如下:

ITEM_PIPELINES=['fjsen.pipelines.FjsenPipeline']

接着，跑起来吧,执行：

代码如下:

scrapy crawl fjsen

就会在目前下生成一个data.sqlite的数据库文件，所有抓取到的数据都会存在这里。

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Scrapy实现微信公众号文章爬取和分析Jun 22, 2023 am 09:41 AM

Scrapy实现微信公众号文章爬取和分析微信是近年来备受欢迎的社交媒体应用，在其中运营的公众号也扮演着非常重要的角色。众所周知，微信公众号是一个信息和知识的海洋，因为其中每个公众号都可以发布文章、图文消息等信息。这些信息可以被广泛地应用在很多领域中，比如媒体报道、学术研究等。那么，本篇文章将介绍如何使用Scrapy框架来实现微信公众号文章的爬取和分析。Scr

Scrapy基于Ajax异步加载实现方法Jun 22, 2023 pm 11:09 PM

Scrapy是一个开源的Python爬虫框架，它可以快速高效地从网站上获取数据。然而，很多网站采用了Ajax异步加载技术，使得Scrapy无法直接获取数据。本文将介绍基于Ajax异步加载的Scrapy实现方法。一、Ajax异步加载原理Ajax异步加载：在传统的页面加载方式中，浏览器发送请求到服务器后，必须等待服务器返回响应并将页面全部加载完毕才能进行下一步操

Scrapy优化技巧：如何减少重复URL的爬取，提高效率Jun 22, 2023 pm 01:57 PM

Scrapy是一个功能强大的Python爬虫框架，可以用于从互联网上获取大量的数据。但是，在进行Scrapy开发时，经常会遇到重复URL的爬取问题，这会浪费大量的时间和资源，影响效率。本文将介绍一些Scrapy优化技巧，以减少重复URL的爬取，提高Scrapy爬虫的效率。一、使用start_urls和allowed_domains属性在Scrapy爬虫中，可

深度使用Scrapy：如何爬取HTML、XML、JSON数据？Jun 22, 2023 pm 05:58 PM

Scrapy是一款强大的Python爬虫框架，可以帮助我们快速、灵活地获取互联网上的数据。在实际爬取过程中，我们会经常遇到HTML、XML、JSON等各种数据格式。在这篇文章中，我们将介绍如何使用Scrapy分别爬取这三种数据格式的方法。一、爬取HTML数据创建Scrapy项目首先，我们需要创建一个Scrapy项目。打开命令行，输入以下命令：scrapys

Scrapy爬虫实践：爬取QQ空间数据进行社交网络分析Jun 22, 2023 pm 02:37 PM

近年来，人们对社交网络分析的需求越来越高。而QQ空间又是中国最大的社交网络之一，其数据的爬取和分析对于社交网络研究来说尤为重要。本文将介绍如何使用Scrapy框架来爬取QQ空间数据，并进行社交网络分析。一、Scrapy介绍Scrapy是一个基于Python的开源Web爬取框架，它可以帮助我们快速高效地通过Spider机制采集网站数据，并对其进行处理和保存。S

Scrapy如何提高爬取稳定性和抓取效率Jun 23, 2023 am 08:38 AM

Scrapy是一款Python编写的强大的网络爬虫框架，它可以帮助用户从互联网上快速、高效地抓取所需的信息。然而，在使用Scrapy进行爬取的过程中，往往会遇到一些问题，例如抓取失败、数据不完整或爬取速度慢等情况，这些问题都会影响到爬虫的效率和稳定性。因此，本文将探讨Scrapy如何提高爬取稳定性和抓取效率。设置请求头和User-Agent在进行网络爬取时，

在Scrapy爬虫中使用Selenium和PhantomJSJun 22, 2023 pm 06:03 PM

在Scrapy爬虫中使用Selenium和PhantomJSScrapy是Python下的一个优秀的网络爬虫框架，已经被广泛应用于各个领域中的数据采集和处理。在爬虫的实现中，有时候需要模拟浏览器操作去获取某些网站呈现的内容，这时候就需要用到Selenium和PhantomJS。Selenium是模拟人类对浏览器的操作，让我们可以自动化地进行Web应用程序测试

如何使用Scrapy爬取豆瓣图书及其评分和评论？Jun 22, 2023 am 10:21 AM

随着互联网的发展，人们越来越依赖于网络来获取信息。而对于图书爱好者而言，豆瓣图书已经成为了一个不可或缺的平台。并且，豆瓣图书也提供了丰富的图书评分和评论，使读者能够更加全面地了解一本图书。但是，手动获取这些信息无异于大海捞针，这时候，我们可以借助Scrapy工具进行数据爬取。Scrapy是一个基于Python的开源网络爬虫框架，它可以帮助我们高效地

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

2 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Repo: Wie man Teamkollegen wiederbelebt

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Wie lange dauert es, um Split Fiction zu schlagen?

3 Wochen vorByDDD

R.E.P.O. Dateispeicherspeicherort: Wo ist es und wie schützt sie?

3 Wochen vorByDDD

Heiße Werkzeuge

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.