ホームページ >バックエンド開発 >Python チュートリアル >Scrapy クローラーの実践: ソーシャル ネットワーク分析のための QQ スペース データのクロール
近年、ソーシャル ネットワーク分析に対する人々の需要はますます高まっています。 QQ Zone は中国最大のソーシャル ネットワークの 1 つであり、そのデータのクローリングと分析はソーシャル ネットワークの調査において特に重要です。この記事では、Scrapy フレームワークを使用して QQ Space データをクロールし、ソーシャル ネットワーク分析を実行する方法を紹介します。
1. Scrapy の概要
Scrapy は、Python をベースにしたオープンソースの Web クローリング フレームワークで、Spider メカニズムを通じて Web サイト データを迅速かつ効率的に収集し、処理して保存するのに役立ちます。 Scrapy フレームワークは、エンジン、スケジューラー、ダウンローダー、スパイダー、プロジェクト パイプラインの 5 つのコア コンポーネントで構成されています。スパイダーは、Web サイトへのアクセス方法、Web ページからのデータの抽出、および抽出されたデータの保存方法を定義するクローラー ロジックのコア コンポーネントです。
2. Scrapy の操作プロセス
1. Scrapy プロジェクトの作成
コマンド ラインを使用してプロジェクトを作成するディレクトリを入力し、次のように入力します。コマンド:
scrapy startproject qq_zone
このコマンドは、「qq_zone」という名前の Scrapy プロジェクトを作成します。
2. スパイダーの作成
Scrapy プロジェクトでは、最初にスパイダーを作成する必要があります。プロジェクトのディレクトリに「spiders」という名前のフォルダーを作成し、そのフォルダーの下に「qq_zone_spider.py」という名前の Python ファイルを作成します。
qq_zone_spider.py では、まず名前、開始 URL、許可されるドメイン名などの Spider の基本情報を定義する必要があります。コードは次のとおりです。
import scrapy class QQZoneSpider(scrapy.Spider): name = "qq_zone" start_urls = ['http://user.qzone.qq.com/xxxxxx'] allowed_domains = ['user.qzone.qq.com']
start_urls はクロールする QQ スペースのメイン ページの URL に置き換える必要があり、「xxxxxx」はターゲット QQ の数値 ID に置き換える必要があることに注意してください。番号。
次に、データ抽出ルールを定義する必要があります。 QQ Space は Javascript を通じてレンダリングされるページであるため、ページ データを取得するには Selenium PhantomJS を使用する必要があります。コードは次のとおりです。
from scrapy.selector import Selector from selenium import webdriver class QQZoneSpider(scrapy.Spider): name = "qq_zone" start_urls = ['http://user.qzone.qq.com/xxxxxx'] allowed_domains = ['user.qzone.qq.com'] def __init__(self): self.driver = webdriver.PhantomJS() def parse(self, response): self.driver.get(response.url) sel = Selector(text=self.driver.page_source) # 爬取数据的代码
次に、XPath または CSS セレクターを使用して、ページ構造に従ってページからデータを抽出できます。
3. データの処理と保存
qq_zone_spider.py では、抽出されたデータの処理方法を定義する必要があります。 Scrapy は、データの処理と保存のためのプロジェクト パイプライン メカニズムを提供します。このメカニズムを有効にして、settings.py ファイルでプロジェクト パイプラインを定義できます。
settings.py ファイルに次のコードを追加します。
ITEM_PIPELINES = { 'qq_zone.pipelines.QQZonePipeline': 300, } DOWNLOAD_DELAY = 3
このうち、DOWNLOAD_DELAY はページをクロールするときの遅延時間で、必要に応じて調整できます。
次に、プロジェクトのルート ディレクトリに「pipelines.py」という名前のファイルを作成し、キャプチャしたデータの処理方法と保存方法を定義します。
import json class QQZonePipeline(object): def __init__(self): self.file = open('qq_zone_data.json', 'w') def process_item(self, item, spider): line = json.dumps(dict(item)) + " " self.file.write(line) return item def close_spider(self, spider): self.file.close()
上記のコードでは、json モジュールを使用してデータを json 形式に変換し、「qq_zone_data.json」ファイルに保存します。
3. ソーシャル ネットワーク分析
QQ スペース データのキャプチャが完了したら、Python の NetworkX モジュールを使用してソーシャル ネットワーク分析を実行できます。
NetworkX は、複雑なネットワークを分析するための Python ライブラリであり、グラフの視覚化、ノードとエッジの属性設定、コミュニティの検出など、多くの強力なツールを提供します。以下は、単純なソーシャル ネットワーク分析コードを示しています。
import json import networkx as nx import matplotlib.pyplot as plt G = nx.Graph() with open("qq_zone_data.json", "r") as f: for line in f: data = json.loads(line) uid = data["uid"] friends = data["friends"] for friend in friends: friend_name = friend["name"] friend_id = friend["id"] G.add_edge(uid, friend_id) # 可视化 pos = nx.spring_layout(G) nx.draw_networkx_nodes(G, pos, node_size=20) nx.draw_networkx_edges(G, pos, alpha=0.4) plt.axis('off') plt.show()
上記のコードでは、まずキャプチャされたデータをメモリに読み取り、NetworkX を使用して無向グラフを構築します。このグラフでは、各ノードが QQ アカウント、各エッジを表します。は 2 つの QQ アカウント間の友達関係を表します。
次に、スプリング レイアウト アルゴリズムを使用してグラフィックスをレイアウトし、最後に matplotlib を使用して視覚化します。
4. 概要
この記事では、データ キャプチャに Scrapy フレームワークを使用し、単純なソーシャル ネットワーク分析に NetworkX を使用する方法を紹介します。読者の皆様は Scrapy、Selenium、NetworkX の使用についてより深く理解していると思います。もちろん、QQ スペース データのクローリングはソーシャル ネットワーク分析の一部にすぎず、将来的にはデータのより詳細な調査と分析が必要になります。
以上がScrapy クローラーの実践: ソーシャル ネットワーク分析のための QQ スペース データのクロールの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。