Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?

Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?

WBOY
WBOYasal
2023-06-22 17:58:401769semak imbas

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh membantu kami mendapatkan data di Internet dengan cepat dan fleksibel. Dalam proses merangkak yang sebenar, kami sering menghadapi pelbagai format data seperti HTML, XML dan JSON. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk merangkak ketiga-tiga format data ini masing-masing.

1. Merangkak data HTML

  1. Membuat projek Scrapy

Pertama, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:

scrapy startproject myproject

Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.

  1. Tetapkan URL permulaan

Seterusnya, kita perlu menetapkan URL permulaan. Dalam direktori myproject/spiders, cipta fail bernama spider.py, edit fail dan masukkan kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        pass

Kod mula-mula mengimport perpustakaan Scrapy, kemudian mentakrifkan kelas perangkak MySpider dan menetapkan name ialah nama labah-labah myspider, dan menetapkan URL permulaan kepada http://example.com. Akhirnya, kaedah penghuraian ditakrifkan. Kaedah parse akan dipanggil oleh Scrapy secara lalai untuk memproses data respons.

  1. Menghuraikan data respons

Seterusnya, kita perlu menghuraikan data respons. Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}

Dalam kod, kami menggunakan kaedah response.xpath() untuk mendapatkan tajuk dalam halaman HTML. Gunakan hasil untuk mengembalikan data jenis kamus, termasuk tajuk yang kami perolehi.

  1. Menjalankan perangkak

Akhir sekali, kita perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:

scrapy crawl myspider -o output.json

Arahan ini akan mengeluarkan data ke fail output.json.

2. Merangkak data XML

  1. Buat projek Scrapy

Begitu juga, kita perlu mencipta projek Scrapy terlebih dahulu. Buka baris arahan dan masukkan arahan berikut:

scrapy startproject myproject

Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.

  1. Tetapkan URL permulaan

Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        pass

Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/xml.

  1. Menghuraikan data respons

Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/xml']

    def parse(self, response):
        for item in response.xpath('//item'):
            yield {
                'title': item.xpath('title/text()').get(),
                'link': item.xpath('link/text()').get(),
                'desc': item.xpath('desc/text()').get(),
            }

Dalam kod , kami menggunakan kaedah xpath() untuk mendapatkan data dalam halaman XML. Gunakan gelung for untuk melintasi teg item, dapatkan data teks dalam tiga teg tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.

  1. Jalankan perangkak

Akhir sekali, kita juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:

scrapy crawl myspider -o output.json

Arahan ini akan mengeluarkan data ke fail output.json.

3. Merangkak data JSON

  1. Buat projek Scrapy

Begitu juga, kita perlu mencipta projek Scrapy. Buka baris arahan dan masukkan arahan berikut:

scrapy startproject myproject

Perintah ini akan mencipta projek Scrapy yang dipanggil myproject dalam folder semasa.

  1. Tetapkan URL permulaan

Dalam direktori myproject/spiders, buat fail bernama spider.py, edit fail dan masukkan kod berikut:

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        pass

Dalam kod, kami menetapkan nama labah-labah bernama myspider dan menetapkan URL permulaan kepada http://example.com/json.

  1. Menghuraikan data respons

Teruskan mengedit fail myproject/spiders/spider.py dan tambah kod berikut:

import scrapy
import json

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com/json']

    def parse(self, response):
        data = json.loads(response.body)
        for item in data['items']:
            yield {
                'title': item['title'],
                'link': item['link'],
                'desc': item['desc'],
            }

Dalam kod , kami menggunakan kaedah json loads() untuk menghuraikan data format JSON. Gunakan gelung for untuk melintasi tatasusunan item, dapatkan tiga atribut setiap item: tajuk, pautan dan desc, dan gunakan hasil untuk mengembalikan data jenis kamus.

  1. Jalankan perangkak

Akhir sekali, anda juga perlu menjalankan perangkak Scrapy. Masukkan arahan berikut pada baris arahan:

scrapy crawl myspider -o output.json

Arahan ini akan mengeluarkan data ke fail output.json.

4. Ringkasan

Dalam artikel ini, kami memperkenalkan cara menggunakan Scrapy untuk merangkak data HTML, XML dan JSON masing-masing. Melalui contoh di atas, anda boleh memahami penggunaan asas Scrapy, dan anda juga boleh mempelajari penggunaan yang lebih maju secara mendalam seperti yang diperlukan.

Atas ialah kandungan terperinci Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn