Scrapy는 WeChat 공개 계정 기사의 크롤링 및 분석을 구현합니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Scrapy는 WeChat 공개 계정 기사의 크롤링 및 분석을 구현합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 am 09:41 AM

위챗 공개 계정분석하다.scrapy

Scrapy는 WeChat 공개 계정의 기사 크롤링 및 분석을 실현합니다

WeChat은 최근 몇 년간 매우 인기 있는 소셜 미디어 애플리케이션이며, 여기서 운영되는 공개 계정도 매우 중요한 역할을 합니다. 우리 모두 알고 있듯이 WeChat 공개 계정은 정보와 지식의 바다입니다. 왜냐하면 각 공개 계정은 기사, 그래픽 메시지 및 기타 정보를 게시할 수 있기 때문입니다. 이 정보는 언론보도, 학술연구 등 다양한 분야에서 폭넓게 활용될 수 있습니다.

그래서 이번 글에서는 Scrapy 프레임워크를 사용하여 WeChat 공개 계정 글을 크롤링하고 분석하는 방법을 소개하겠습니다. Scrapy는 데이터 마이닝과 정보 검색을 주요 기능으로 하는 Python 웹 크롤러 프레임워크입니다. 따라서 Scrapy는 사용자 정의가 가능하고 효율적입니다.

Scrapy 설치 및 프로젝트 생성

스크롤링에 Scrapy 프레임워크를 사용하려면 먼저 Scrapy 및 기타 종속 항목을 설치해야 합니다. pip 명령을 사용하여 설치할 수 있습니다. 설치 프로세스는 다음과 같습니다.

pip install scrapy
pip install pymongo
pip install mysql-connector-python

Scrapy를 설치한 후 Scrapy 명령줄 도구를 사용하여 프로젝트를 생성해야 합니다. 명령은 다음과 같습니다.

scrapy startproject wechat

이 명령을 실행하면 Scrapy는 "wechat"이라는 프로젝트를 생성하고 프로젝트 디렉터리에 많은 파일과 디렉터리를 생성합니다.

WeChat 공개 계정 기사 크롤링 구현

크롤링을 시작하기 전에 먼저 WeChat 공개 계정 기사 페이지의 URL 형식을 이해해야 합니다. 일반적인 WeChat 공개 계정 기사 페이지의 URL은 다음과 같습니다.

https://mp.weixin.qq.com/s?__biz=XXX&mid=XXX&idx=1&sn=XXX&chksm=XXX#wechat_redirect

그 중 __biz는 WeChat 공개 계정의 ID를 나타내고, mid는 기사의 ID를 나타내며, idx는 기사의 일련 번호, sn은 기사의 서명이고 chksm은 내용 확인을 나타냅니다. 따라서 특정 공식 계정의 모든 기사를 크롤링하려면 해당 공식 계정의 ID를 찾아 이를 사용하여 URL을 구축해야 합니다. 그 중 biz_id는 공식 계정의 고유 식별자이다.

우선 공식 계정의 기사를 크롤링하고 싶기 때문에 공식 계정 ID가 다수 포함된 목록을 준비해야 합니다. ID 수집은 다양한 수단을 통해 이루어질 수 있습니다. 여기서는 여러 테스트 ID가 포함된 목록을 예로 사용합니다.

biz_ids = ['MzU5MjcwMzA4MA==', 'MzI4MzMwNDgwMQ==', 'MzAxMTcyMzg2MA==']

다음으로 특정 공개 계정의 모든 기사를 크롤링하는 Spider를 작성해야 합니다. 여기서는 다양한 공식 계정 ID를 처리할 수 있도록 공식 계정의 이름과 ID를 Spider에 전달합니다.

import scrapy
import re

class WeChatSpider(scrapy.Spider):
    name = "wechat"
    allowed_domains = ["mp.weixin.qq.com"]
    
    def __init__(self, name=None, biz_id=None):
        super().__init__(name=name)
        self.start_urls = ['https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz={}==#wechat_redirect'.format(biz_id)]

    def parse(self, response):
        article_urls = response.xpath('//h4[1]/a/@href')
        for url in article_urls.extract():
            yield scrapy.Request(url, callback=self.parse_article)
        
        next_page = response.xpath('//a[@id="js_next"]/@href')
        if next_page:
            yield scrapy.Request(response.urljoin(next_page[0].extract()), callback=self.parse)
    
    def parse_article(self, response):
        url = response.url
        title = response.xpath('//h2[@class="rich_media_title"]/text()')
        yield {'url': url, 'title': title.extract_first().strip()}

Spider의 주요 기능은 지정된 공식 계정 ID를 사용하여 공식 계정 홈페이지에 액세스한 후 각 페이지를 재귀적으로 순회하여 모든 기사의 URL을 추출하는 것입니다. 또한, 후속 처리를 위해 기사의 URL과 제목을 추출하는 데에도 pars_article 메소드가 사용됩니다. 전체적으로 이 거미는 그다지 복잡하지 않지만 추출 속도가 느립니다.

마지막으로 Spider를 시작하려면 터미널에 다음 명령을 입력해야 합니다.

scrapy crawl wechat -a biz_id=XXXXXXXX

마찬가지로 여러 공식 계정을 크롤링할 수도 있습니다. 명령에 모든 공식 계정의 ID를 지정하면 됩니다.

scrapy crawl wechat -a biz_id=ID1,ID2,ID3

기사 데이터 저장

기사를 크롤링한 후 기사의 제목과 URL을 데이터베이스(예: MongoDB, MySQL 등)에 저장해야 합니다. 여기서는 pymongo 라이브러리를 사용하여 크롤링된 데이터를 저장하겠습니다.

import pymongo

class MongoPipeline(object):
    collection_name = 'wechat'

    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DATABASE', 'items')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item

이 파이프라인에서는 MongoDB를 데이터 저장을 위한 백엔드로 사용합니다. 이 클래스는 필요에 따라 수정되어 다른 데이터베이스 시스템을 사용할 수 있습니다.

다음으로 settings.py 파일에서 데이터베이스 관련 매개변수를 구성해야 합니다.

MONGO_URI = 'mongodb://localhost:27017/'
MONGO_DATABASE = 'wechat'
ITEM_PIPELINES = {'myproject.pipelines.MongoPipeline': 300}

마지막으로 Spider에서 Pipeline을 호출하여 MongoDB에 데이터를 저장합니다.

class WeChatSpider(scrapy.Spider):
    name = "wechat"
    allowed_domains = ["mp.weixin.qq.com"]
    
    def __init__(self, name=None, biz_id=None):
        super().__init__(name=name)
        self.start_urls = ['https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz={}==#wechat_redirect'.format(biz_id)]

    def parse(self, response):
        article_urls = response.xpath('//h4[1]/a/@href')
        for url in article_urls.extract():
            yield scrapy.Request(url, callback=self.parse_article)
        
        next_page = response.xpath('//a[@id="js_next"]/@href')
        if next_page:
            yield scrapy.Request(response.urljoin(next_page[0].extract()), callback=self.parse)
            
    def parse_article(self, response):
        url = response.url
        title = response.xpath('//h2[@class="rich_media_title"]/text()')
        yield {'url': url, 'title': title.extract_first().strip()}

        pipeline = response.meta.get('pipeline')
        if pipeline:
            item = dict()
            item['url'] = url
            item['title'] = title.extract_first().strip()
            yield item

위 코드에서 response.meta.get(' 파이프라인')은 Spider에서 설정한 파이프라인 개체를 얻는 데 사용됩니다. 따라서 파이프라인을 지원하려면 Spider 코드에 다음 코드를 추가하기만 하면 됩니다.

yield scrapy.Request(url, callback=self.parse_article, meta={'pipeline': 1})

Data analyze

마지막으로 Scrapy 및 pandas와 같은 라이브러리를 사용하여 데이터를 분석하고 시각화합니다.

여기에서는 MongoDB에서 크롤링한 데이터를 추출하여 CSV 파일에 저장하겠습니다. 그런 다음 팬더를 사용하여 CSV 파일을 처리하고 시각화할 수 있습니다.

구현 과정은 다음과 같습니다.

import pandas as pd
from pymongo import MongoClient

client = MongoClient('mongodb://localhost:27017/')
db = client['wechat']
articles = db['wechat']

cursor = articles.find()
doc = list(cursor)

df = pd.DataFrame(doc)
df.to_csv('wechat.csv', encoding='utf-8')

df.groupby('biz_id')['title'].count().plot(kind='bar')

위 코드에서는 MongoDB 및 Pandas 라이브러리를 사용하여 크롤링된 데이터를 CSV 파일의 데이터 폴더에 저장합니다. 이후 Pandas의 강력한 데이터 분석 기능을 사용하여 각 공개 계정의 기사 수를 시각적으로 표시했습니다.

위 내용은 Scrapy는 WeChat 공개 계정 기사의 크롤링 및 분석을 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python 학습 : 2 시간의 일일 연구가 충분합니까?Apr 18, 2025 am 12:22 AM

하루에 2 시간 동안 파이썬을 배우는 것으로 충분합니까? 목표와 학습 방법에 따라 다릅니다. 1) 명확한 학습 계획을 개발, 2) 적절한 학습 자원 및 방법을 선택하고 3) 실습 연습 및 검토 및 통합 연습 및 검토 및 통합,이 기간 동안 Python의 기본 지식과 고급 기능을 점차적으로 마스터 할 수 있습니다.

웹 개발을위한 파이썬 : 주요 응용 프로그램Apr 18, 2025 am 12:20 AM

웹 개발에서 Python의 주요 응용 프로그램에는 Django 및 Flask 프레임 워크 사용, API 개발, 데이터 분석 및 시각화, 머신 러닝 및 AI 및 성능 최적화가 포함됩니다. 1. Django 및 Flask 프레임 워크 : Django는 복잡한 응용 분야의 빠른 개발에 적합하며 플라스크는 소형 또는 고도로 맞춤형 프로젝트에 적합합니다. 2. API 개발 : Flask 또는 DjangorestFramework를 사용하여 RESTFULAPI를 구축하십시오. 3. 데이터 분석 및 시각화 : Python을 사용하여 데이터를 처리하고 웹 인터페이스를 통해 표시합니다. 4. 머신 러닝 및 AI : 파이썬은 지능형 웹 애플리케이션을 구축하는 데 사용됩니다. 5. 성능 최적화 : 비동기 프로그래밍, 캐싱 및 코드를 통해 최적화

Python vs. C : 성능과 효율성 탐색Apr 18, 2025 am 12:20 AM

Python은 개발 효율에서 C보다 낫지 만 C는 실행 성능이 높습니다. 1. Python의 간결한 구문 및 풍부한 라이브러리는 개발 효율성을 향상시킵니다. 2.C의 컴파일 유형 특성 및 하드웨어 제어는 실행 성능을 향상시킵니다. 선택할 때는 프로젝트 요구에 따라 개발 속도 및 실행 효율성을 평가해야합니다.

Python in Action : 실제 예제Apr 18, 2025 am 12:18 AM

Python의 실제 응용 프로그램에는 데이터 분석, 웹 개발, 인공 지능 및 자동화가 포함됩니다. 1) 데이터 분석에서 Python은 Pandas 및 Matplotlib를 사용하여 데이터를 처리하고 시각화합니다. 2) 웹 개발에서 Django 및 Flask 프레임 워크는 웹 응용 프로그램 생성을 단순화합니다. 3) 인공 지능 분야에서 Tensorflow와 Pytorch는 모델을 구축하고 훈련시키는 데 사용됩니다. 4) 자동화 측면에서 파이썬 스크립트는 파일 복사와 같은 작업에 사용할 수 있습니다.

Python의 주요 용도 : 포괄적 인 개요Apr 18, 2025 am 12:18 AM

Python은 데이터 과학, 웹 개발 및 자동화 스크립팅 필드에 널리 사용됩니다. 1) 데이터 과학에서 Python은 Numpy 및 Pandas와 같은 라이브러리를 통해 데이터 처리 및 분석을 단순화합니다. 2) 웹 개발에서 Django 및 Flask 프레임 워크를 통해 개발자는 응용 프로그램을 신속하게 구축 할 수 있습니다. 3) 자동 스크립트에서 Python의 단순성과 표준 라이브러리가 이상적입니다.

파이썬의 주요 목적 : 유연성과 사용 편의성Apr 17, 2025 am 12:14 AM

Python의 유연성은 다중 파리가 지원 및 동적 유형 시스템에 반영되며, 사용 편의성은 간단한 구문 및 풍부한 표준 라이브러리에서 나옵니다. 유연성 : 객체 지향, 기능 및 절차 프로그래밍을 지원하며 동적 유형 시스템은 개발 효율성을 향상시킵니다. 2. 사용 편의성 : 문법은 자연 언어에 가깝고 표준 라이브러리는 광범위한 기능을 다루며 개발 프로세스를 단순화합니다.

파이썬 : 다목적 프로그래밍의 힘Apr 17, 2025 am 12:09 AM

Python은 초보자부터 고급 개발자에 이르기까지 모든 요구에 적합한 단순성과 힘에 호의적입니다. 다목적 성은 다음과 같이 반영됩니다. 1) 배우고 사용하기 쉽고 간단한 구문; 2) Numpy, Pandas 등과 같은 풍부한 라이브러리 및 프레임 워크; 3) 다양한 운영 체제에서 실행할 수있는 크로스 플랫폼 지원; 4) 작업 효율성을 향상시키기위한 스크립팅 및 자동화 작업에 적합합니다.

하루 2 시간 안에 파이썬 학습 : 실용 가이드Apr 17, 2025 am 12:05 AM

예, 하루에 2 시간 후에 파이썬을 배우십시오. 1. 합리적인 학습 계획 개발, 2. 올바른 학습 자원을 선택하십시오. 3. 실습을 통해 학습 된 지식을 통합하십시오. 이 단계는 짧은 시간 안에 Python을 마스터하는 데 도움이 될 수 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는