cari
Rumahpembangunan bahagian belakangTutorial PythonAmalan perangkak buruk: data ruang QQ merangkak untuk analisis rangkaian sosial

Dalam beberapa tahun kebelakangan ini, permintaan orang ramai untuk analisis rangkaian sosial semakin tinggi. Zon QQ ialah salah satu rangkaian sosial terbesar di China, dan rangkak dan analisis datanya amat penting untuk penyelidikan rangkaian sosial. Artikel ini akan memperkenalkan cara menggunakan rangka kerja Scrapy untuk merangkak data QQ Space dan melakukan analisis rangkaian sosial.

1. Pengenalan kepada Scrapy

Scrapy ialah rangka kerja rangkak web sumber terbuka berdasarkan Python Ia boleh membantu kami mengumpul data tapak web dengan cepat dan cekap melalui mekanisme Spider, memproses dan menyimpannya. Rangka kerja Scrapy terdiri daripada lima komponen teras: Enjin, Penjadual, Pemuat Turun, Labah-labah dan Paip Projek ialah komponen teras logik perangkak, yang mentakrifkan cara mengakses tapak web dan cara menyimpan data yang diekstrak.

2. Proses operasi Scrapy

1 Cipta projek Scrapy

Gunakan baris arahan untuk memasuki direktori tempat anda ingin mencipta projek, dan kemudian masukkan yang berikut. arahan:

scrapy startproject qq_zone

Perintah ini akan mencipta projek Scrapy bernama "qq_zone".

2. Cipta Labah-labah

Dalam projek Scrapy, kita perlu mencipta Labah-labah dahulu. Cipta folder bernama "labah-labah" dalam direktori projek dan buat fail Python bernama "qq_zone_spider.py" di bawah folder.

Dalam qq_zone_spider.py, kita perlu terlebih dahulu mentakrifkan maklumat asas Spider, seperti nama, URL permulaan dan nama domain yang dibenarkan. Kodnya adalah seperti berikut:

import scrapy

class QQZoneSpider(scrapy.Spider):
    name = "qq_zone"
    start_urls = ['http://user.qzone.qq.com/xxxxxx']
    allowed_domains = ['user.qzone.qq.com']

Perlu diambil perhatian bahawa start_urls hendaklah digantikan dengan URL halaman utama ruang QQ untuk dirangkak dan "xxxxxx" hendaklah digantikan dengan ID berangka QQ sasaran nombor.

Kemudian, kita perlu menentukan peraturan pengekstrakan data. Memandangkan QQ Space ialah halaman yang dipaparkan melalui Javascript, kami perlu menggunakan Selenium + PhantomJS untuk mendapatkan data halaman. Kodnya adalah seperti berikut:

from scrapy.selector import Selector
from selenium import webdriver

class QQZoneSpider(scrapy.Spider):
    name = "qq_zone"
    start_urls = ['http://user.qzone.qq.com/xxxxxx']
    allowed_domains = ['user.qzone.qq.com']

    def __init__(self):
        self.driver = webdriver.PhantomJS()

    def parse(self, response):
        self.driver.get(response.url)
        sel = Selector(text=self.driver.page_source)
        # 爬取数据的代码

Seterusnya, anda boleh menggunakan XPath atau CSS Selector untuk mengekstrak data daripada halaman mengikut struktur halaman.

3. Memproses data dan menyimpan

Dalam qq_zone_spider.py, kita perlu menentukan cara memproses data yang diekstrak. Scrapy menyediakan mekanisme saluran paip projek untuk pemprosesan dan penyimpanan data. Kami boleh menghidupkan mekanisme ini dan menentukan saluran paip projek dalam fail settings.py.

Tambah kod berikut dalam fail settings.py:

ITEM_PIPELINES = {
    'qq_zone.pipelines.QQZonePipeline': 300,
}

DOWNLOAD_DELAY = 3

Antaranya, DOWNLOAD_DELAY ialah masa tunda semasa merangkak halaman, yang boleh dilaraskan mengikut keperluan.

Kemudian, cipta fail bernama "pipelines.py" dalam direktori akar projek dan tentukan cara memproses dan menyimpan data yang ditangkap.

import json

class QQZonePipeline(object):

    def __init__(self):
        self.file = open('qq_zone_data.json', 'w')

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "
"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.close()

Dalam kod di atas, kami menggunakan modul json untuk menukar data ke dalam format json dan kemudian menyimpannya ke dalam fail "qq_zone_data.json".

3. Analisis rangkaian sosial

Selepas penangkapan data ruang QQ selesai, kami boleh menggunakan modul NetworkX dalam Python untuk menjalankan analisis rangkaian sosial.

NetworkX ialah perpustakaan Python untuk menganalisis rangkaian yang kompleks. Ia menyediakan banyak alat yang berkuasa, seperti visualisasi graf, tetapan atribut nod dan tepi, penemuan komuniti, dsb. Berikut menunjukkan kod untuk analisis rangkaian sosial yang mudah:

import json
import networkx as nx
import matplotlib.pyplot as plt

G = nx.Graph()

with open("qq_zone_data.json", "r") as f:
    for line in f:
        data = json.loads(line)
        uid = data["uid"]
        friends = data["friends"]
        for friend in friends:
            friend_name = friend["name"]
            friend_id = friend["id"]
            G.add_edge(uid, friend_id)

# 可视化
pos = nx.spring_layout(G)
nx.draw_networkx_nodes(G, pos, node_size=20)
nx.draw_networkx_edges(G, pos, alpha=0.4)
plt.axis('off')
plt.show()

Dalam kod di atas, kami mula-mula membaca data yang ditangkap ke dalam ingatan dan menggunakan NetworkX untuk membina graf tidak terarah, di mana setiap nod mewakili akaun A QQ, setiap tepi mewakili hubungan rakan antara dua akaun QQ.

Kemudian, kami menggunakan algoritma reka letak musim bunga untuk susun atur grafik, dan akhirnya menggunakan matplotlib untuk visualisasi.

4. Ringkasan

Artikel ini memperkenalkan cara menggunakan rangka kerja Scrapy untuk menangkap data dan menggunakan NetworkX untuk melakukan analisis rangkaian sosial yang mudah. Saya percaya pembaca mempunyai pemahaman yang lebih mendalam tentang penggunaan Scrapy, Selenium dan NetworkX. Sudah tentu, data ruang QQ merangkak hanyalah sebahagian daripada analisis rangkaian sosial, dan penerokaan dan analisis data yang lebih mendalam diperlukan pada masa hadapan.

Atas ialah kandungan terperinci Amalan perangkak buruk: data ruang QQ merangkak untuk analisis rangkaian sosial. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Python vs C: Memahami perbezaan utamaPython vs C: Memahami perbezaan utamaApr 21, 2025 am 12:18 AM

Python dan C masing -masing mempunyai kelebihan sendiri, dan pilihannya harus berdasarkan keperluan projek. 1) Python sesuai untuk pembangunan pesat dan pemprosesan data kerana sintaks ringkas dan menaip dinamik. 2) C sesuai untuk prestasi tinggi dan pengaturcaraan sistem kerana menaip statik dan pengurusan memori manual.

Python vs C: Bahasa mana yang harus dipilih untuk projek anda?Python vs C: Bahasa mana yang harus dipilih untuk projek anda?Apr 21, 2025 am 12:17 AM

Memilih Python atau C bergantung kepada keperluan projek: 1) Jika anda memerlukan pembangunan pesat, pemprosesan data dan reka bentuk prototaip, pilih Python; 2) Jika anda memerlukan prestasi tinggi, latensi rendah dan kawalan perkakasan yang rapat, pilih C.

Mencapai matlamat python anda: kekuatan 2 jam sehariMencapai matlamat python anda: kekuatan 2 jam sehariApr 20, 2025 am 12:21 AM

Dengan melabur 2 jam pembelajaran python setiap hari, anda dapat meningkatkan kemahiran pengaturcaraan anda dengan berkesan. 1. Ketahui Pengetahuan Baru: Baca dokumen atau tutorial menonton. 2. Amalan: Tulis kod dan latihan lengkap. 3. Kajian: Menyatukan kandungan yang telah anda pelajari. 4. Amalan Projek: Sapukan apa yang telah anda pelajari dalam projek sebenar. Pelan pembelajaran berstruktur seperti ini dapat membantu anda menguasai Python secara sistematik dan mencapai matlamat kerjaya.

Memaksimumkan 2 Jam: Strategi Pembelajaran Python BerkesanMemaksimumkan 2 Jam: Strategi Pembelajaran Python BerkesanApr 20, 2025 am 12:20 AM

Kaedah untuk belajar python dengan cekap dalam masa dua jam termasuk: 1. Semak pengetahuan asas dan pastikan anda sudah biasa dengan pemasangan Python dan sintaks asas; 2. Memahami konsep teras python, seperti pembolehubah, senarai, fungsi, dan lain -lain; 3. Menguasai penggunaan asas dan lanjutan dengan menggunakan contoh; 4. Belajar kesilapan biasa dan teknik debugging; 5. Memohon pengoptimuman prestasi dan amalan terbaik, seperti menggunakan komprehensif senarai dan mengikuti panduan gaya PEP8.

Memilih antara python dan c: bahasa yang sesuai untuk andaMemilih antara python dan c: bahasa yang sesuai untuk andaApr 20, 2025 am 12:20 AM

Python sesuai untuk pemula dan sains data, dan C sesuai untuk pengaturcaraan sistem dan pembangunan permainan. 1. Python adalah mudah dan mudah digunakan, sesuai untuk sains data dan pembangunan web. 2.C menyediakan prestasi dan kawalan yang tinggi, sesuai untuk pembangunan permainan dan pengaturcaraan sistem. Pilihan harus berdasarkan keperluan projek dan kepentingan peribadi.

Python vs C: Analisis perbandingan bahasa pengaturcaraanPython vs C: Analisis perbandingan bahasa pengaturcaraanApr 20, 2025 am 12:14 AM

Python lebih sesuai untuk sains data dan perkembangan pesat, manakala C lebih sesuai untuk prestasi tinggi dan pengaturcaraan sistem. 1. Sintaks Python adalah ringkas dan mudah dipelajari, sesuai untuk pemprosesan data dan pengkomputeran saintifik. 2.C mempunyai sintaks kompleks tetapi prestasi yang sangat baik dan sering digunakan dalam pembangunan permainan dan pengaturcaraan sistem.

2 jam sehari: potensi pembelajaran python2 jam sehari: potensi pembelajaran pythonApr 20, 2025 am 12:14 AM

Adalah mungkin untuk melabur dua jam sehari untuk belajar Python. 1. Belajar Pengetahuan Baru: Ketahui konsep baru dalam satu jam, seperti senarai dan kamus. 2. Amalan dan Amalan: Gunakan satu jam untuk melakukan latihan pengaturcaraan, seperti menulis program kecil. Melalui perancangan dan ketekunan yang munasabah, anda boleh menguasai konsep teras Python dalam masa yang singkat.

Python vs C: Lengkung pembelajaran dan kemudahan penggunaanPython vs C: Lengkung pembelajaran dan kemudahan penggunaanApr 19, 2025 am 12:20 AM

Python lebih mudah dipelajari dan digunakan, manakala C lebih kuat tetapi kompleks. 1. Sintaks Python adalah ringkas dan sesuai untuk pemula. Penaipan dinamik dan pengurusan memori automatik menjadikannya mudah digunakan, tetapi boleh menyebabkan kesilapan runtime. 2.C menyediakan kawalan peringkat rendah dan ciri-ciri canggih, sesuai untuk aplikasi berprestasi tinggi, tetapi mempunyai ambang pembelajaran yang tinggi dan memerlukan memori manual dan pengurusan keselamatan jenis.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa