Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu

Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu

王林
王林asal
2023-06-23 09:21:592385semak imbas

Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu

Dalam era Internet, sejumlah besar data dikumpul oleh tapak web Cara menggunakan data ini untuk analisis dan perlombongan telah menjadi isu penting. Artikel ini akan memperkenalkan penggunaan rangka kerja perangkak Scrapy untuk merangkak data tapak web novel dan penggunaan Python untuk analisis data.

1. Rangka kerja Scrapy

Scrapy ialah rangka kerja Python untuk merangkak data tapak web dengan cara yang cekap, pantas dan berskala. Scrapy ialah rangka kerja sumber terbuka yang membolehkan kami membuat Spider, Pipeline, DownloaderMiddleware dan modul lain untuk beberapa tugasan perlombongan data dan merangkak berskala besar, rangka kerja Scrapy sangat popular.

2. Laman web Novel

Laman web novel yang dirangkak oleh artikel ini ialah "Biquge", iaitu laman web membaca novel dalam talian percuma. Dalam laman web ini, kandungan novel disusun mengikut bab, jadi kandungan bab novel perlu dirangkak secara automatik, dan data boleh ditapis mengikut klasifikasi novel.

3. Reka bentuk Crawler

Dalam rangka kerja Scrapy, perangkak adalah modul yang sangat penting untuk tapak web yang berbeza atau halaman yang berbeza dengan mentakrifkan berbilang labah-labah. Perangkak yang ditulis dalam artikel ini terbahagi kepada dua bahagian: senarai novel dan kandungan bab novel.

  1. Senarai novel

Senarai novel merujuk kepada klasifikasi, nama, pengarang, status dan maklumat lain novel tersebut. Dalam laman web "Biquge", setiap kategori novel mempunyai sub-halaman yang sepadan Oleh itu, apabila merangkak senarai novel, mula-mula merangkak URL kategori novel, dan kemudian melintasi halaman kategori untuk mendapatkan maklumat setiap novel.

  1. Kandungan bab novel

Apabila merangkak kandungan bab novel, perkara utama ialah mendapatkan direktori bab setiap novel dan sambungkan kandungan dalam direktori bab tertib bersama. Dalam laman web "Biquge", setiap direktori bab novel mempunyai URL yang sepadan, jadi anda hanya perlu mendapatkan URL direktori bab setiap novel, dan kemudian dapatkan kandungan bab satu demi satu.

4. Pelaksanaan perangkak

Sebelum melaksanakan perangkak, anda perlu memasang rangka kerja Scrapy dan mencipta projek Scrapy. Dalam projek Scrapy, setiap perangkak perlu mentakrifkan bahagian berikut:

  1. Nama

Setiap perangkak mempunyai nama unik untuk membezakan antara reptilia yang berbeza. Dalam artikel ini, kami menamakan perangkak "novel_spider".

  1. Start_urls

URL Mula, iaitu untuk menetapkan titik permulaan perangkak.

start_urls = ['http://www.biquge.info/']
  1. parse

Kaedah penghuraian crawler, kaedah ini akan menghuraikan kandungan yang dikembalikan oleh setiap URL dalam start_urls dan mengekstrak maklumat berguna daripadanya.

Dalam kaedah ini, mula-mula menghuraikan halaman senarai novel, mengekstrak nama, pengarang, status dan maklumat URL bagi setiap novel, dan hantar maklumat ini ke kaedah penghuraian seterusnya melalui objek Permintaan.

def parse(self, response):
    # Get novel classifications
    classifications = response.xpath('//div[@class="nav"]/ul/li')
    for classification in classifications:
        url = classification.xpath('a/@href').extract_first()
        name = classification.xpath('a/text()').extract_first()

        # Get novels in classification
        yield scrapy.Request(url, callback=self.parse_classification, meta={'name': name})

Dalam halaman sub-peringkat, dapatkan kandungan novel, nama bab dan kandungan bab dalam urutan. Dan luluskan tajuk novel, nama bab dan maklumat kandungan bab melalui Item.

def parse_chapter(self, response):
    item = NovelChapter()
    item['novel_name'] = response.meta['novel_name']
    item['chapter_name'] = response.meta['chapter_name']
    item['chapter_content'] = response.xpath('//div[@id="content"]/text()').extract()
    yield item

5. Analisis Data

Selepas mendapatkan data, kami boleh menggunakan perpustakaan Python dan Pandas untuk menganalisis data novel yang diperolehi. Kod berikut boleh melakukan analisis data Pandas pada senarai novel.

import pandas as pd

# Load CSV data into dataframe
df = pd.read_csv('./novel.csv')

# Display novel counts by author's name
df.groupby('author_name')[['novel_name']].count().sort_values('novel_name', ascending=False)

6. Ringkasan

Scrapy ialah rangka kerja perangkak yang berkuasa yang boleh merangkak data daripada tapak web dengan mudah. Artikel ini menggunakan contoh tapak web membaca novel untuk memperkenalkan cara menggunakan rangka kerja Scrapy untuk menangkap klasifikasi novel dan kandungan bab, dan menggunakan perpustakaan Python dan Pandas untuk menganalisis data yang ditangkap. Teknologi ini digunakan secara meluas untuk merangkak data dari tapak web lain, seperti berita, maklumat produk, media sosial, dll.

Atas ialah kandungan terperinci Gunakan perangkak Scrapy untuk menganalisis data daripada tapak web baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn