>  기사  >  백엔드 개발  >  Scrapy 실행: Baidu 뉴스 데이터 크롤링

Scrapy 실행: Baidu 뉴스 데이터 크롤링

WBOY
WBOY원래의
2023-06-23 08:50:091696검색

스크래피 실행: Baidu 뉴스 데이터 크롤링

인터넷의 발전과 함께 사람들이 정보를 얻는 주요 방법은 전통적인 미디어에서 인터넷으로 바뀌었고 사람들은 뉴스 정보를 얻기 위해 점점 더 인터넷에 의존하고 있습니다. 연구원이나 분석가의 경우 분석 및 연구를 위해 많은 양의 데이터가 필요합니다. 따라서 이 글에서는 Scrapy를 사용하여 Baidu 뉴스 데이터를 크롤링하는 방법을 소개합니다.

Scrapy는 웹사이트 데이터를 빠르고 효율적으로 크롤링할 수 있는 오픈 소스 Python 크롤러 프레임워크입니다. Scrapy는 강력한 웹 페이지 구문 분석 및 크롤링 기능은 물론 우수한 확장성과 높은 수준의 사용자 정의 기능을 제공합니다.

1단계: Scrapy 설치

시작하기 전에 Scrapy와 기타 라이브러리를 설치해야 합니다. 다음 명령을 통해 설치를 완료할 수 있습니다.

pip install scrapy
pip install requests
pip install bs4

2단계: Scrapy 프로젝트 생성

다음 명령을 통해 Scrapy 프로젝트를 생성합니다.

scrapy startproject baiduNews

명령이 실행되면 현재 폴더에 baiduNews라는 파일이 생성됩니다. Scrapy 프로젝트의 초기 구조가 포함된 디렉터리 폴더입니다.

3단계: Spider 작성

Scrapy에서 Spider는 웹 콘텐츠를 크롤링하는 데 사용되는 프로세서입니다. Baidu News 웹사이트에서 데이터를 얻으려면 Spider를 작성해야 합니다. 먼저 프로젝트 루트 디렉터리에 spiders 폴더를 만들고 그 안에 Spider 템플릿에 맞는 Python 파일을 만들어야 합니다.

import scrapy

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    start_urls = [
        "http://news.baidu.com/"
    ]

    def parse(self, response):
        pass

위 코드에서는 먼저 Scrapy 라이브러리를 가져오고 BaiduSpider라는 클래스를 만들었습니다. 클래스에서는 Baidu 뉴스 URL이 포함된 목록인 start_urls 변수를 정의합니다. 구문 분석 메소드는 데이터 캡처를 수행하는 핵심 기능입니다. 여기서는 빈 기능만 정의합니다. 이제 뉴스 데이터를 가져오기 위한 템플릿을 정의해야 합니다.

import scrapy
from baiduNews.items import BaidunewsItem
from bs4 import BeautifulSoup

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    start_urls = [
        "http://news.baidu.com/"
    ]

    def parse(self, response):
        soup = BeautifulSoup(response.body, "html.parser")

        results = soup.find_all("div", class_="hdline_article_tit")
        for res in results:
            item = BaidunewsItem()
            item["title"] = res.a.string.strip()
            item["url"] = res.a.get("href").strip()
            item["source"] = "百度新闻"
            yield item

위 코드에서는 바이두 뉴스의 헤드라인인 hdline_article_tit 클래스를 포함한 모든 요소를 ​​찾았습니다. 그런 다음 BeautifulSoup을 사용하여 페이지를 구문 분석하고 루프에서 BaidunewsItem 클래스 개체를 만듭니다. 마지막으로 Yield 문을 통해 데이터를 반환합니다.

4단계: 항목 정의

Scrapy에서 항목은 캡처된 데이터 구조를 정의하는 데 사용됩니다. 프로젝트의 items.py 파일에 항목 템플릿을 정의해야 합니다.

import scrapy

class BaidunewsItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    source = scrapy.Field()

5단계: Spider 시작 및 데이터 출력

Spider를 시작하고 데이터를 출력하려면 다음 명령만 실행하면 됩니다.

scrapy crawl baidu -o baiduNews.csv

명령이 실행되면 프로젝트에 baiduNews.csv라는 파일이 생성됩니다. 루트 디렉터리 파일에는 크롤링된 모든 뉴스 데이터가 포함되어 있습니다.

요약

Scrapy를 사용하면 Baidu 뉴스 데이터를 빠르고 효율적으로 가져와 로컬에 저장할 수 있습니다. Scrapy는 확장성이 뛰어나고 다양한 데이터 형식의 출력을 지원합니다. 이 기사에서는 Scrapy의 간단한 애플리케이션 시나리오만 소개하지만 Scrapy에는 여전히 우리가 탐색할 수 있는 강력한 기능이 많이 있습니다.

위 내용은 Scrapy 실행: Baidu 뉴스 데이터 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.