Scrapy 실행: Baidu 뉴스 데이터 크롤링-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Scrapy 실행: Baidu 뉴스 데이터 크롤링

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 23, 2023 am 08:50 AM

소식기다scrapy

스크래피 실행: Baidu 뉴스 데이터 크롤링

인터넷의 발전과 함께 사람들이 정보를 얻는 주요 방법은 전통적인 미디어에서 인터넷으로 바뀌었고 사람들은 뉴스 정보를 얻기 위해 점점 더 인터넷에 의존하고 있습니다. 연구원이나 분석가의 경우 분석 및 연구를 위해 많은 양의 데이터가 필요합니다. 따라서 이 글에서는 Scrapy를 사용하여 Baidu 뉴스 데이터를 크롤링하는 방법을 소개합니다.

Scrapy는 웹사이트 데이터를 빠르고 효율적으로 크롤링할 수 있는 오픈 소스 Python 크롤러 프레임워크입니다. Scrapy는 강력한 웹 페이지 구문 분석 및 크롤링 기능은 물론 우수한 확장성과 높은 수준의 사용자 정의 기능을 제공합니다.

1단계: Scrapy 설치

시작하기 전에 Scrapy와 기타 라이브러리를 설치해야 합니다. 다음 명령을 통해 설치를 완료할 수 있습니다.

pip install scrapy
pip install requests
pip install bs4

2단계: Scrapy 프로젝트 생성

다음 명령을 통해 Scrapy 프로젝트를 생성합니다.

scrapy startproject baiduNews

명령이 실행되면 현재 폴더에 baiduNews라는 파일이 생성됩니다. Scrapy 프로젝트의 초기 구조가 포함된 디렉터리 폴더입니다.

3단계: Spider 작성

Scrapy에서 Spider는 웹 콘텐츠를 크롤링하는 데 사용되는 프로세서입니다. Baidu News 웹사이트에서 데이터를 얻으려면 Spider를 작성해야 합니다. 먼저 프로젝트 루트 디렉터리에 spiders 폴더를 만들고 그 안에 Spider 템플릿에 맞는 Python 파일을 만들어야 합니다.

import scrapy

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    start_urls = [
        "http://news.baidu.com/"
    ]

    def parse(self, response):
        pass

위 코드에서는 먼저 Scrapy 라이브러리를 가져오고 BaiduSpider라는 클래스를 만들었습니다. 클래스에서는 Baidu 뉴스 URL이 포함된 목록인 start_urls 변수를 정의합니다. 구문 분석 메소드는 데이터 캡처를 수행하는 핵심 기능입니다. 여기서는 빈 기능만 정의합니다. 이제 뉴스 데이터를 가져오기 위한 템플릿을 정의해야 합니다.

import scrapy
from baiduNews.items import BaidunewsItem
from bs4 import BeautifulSoup

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    start_urls = [
        "http://news.baidu.com/"
    ]

    def parse(self, response):
        soup = BeautifulSoup(response.body, "html.parser")

        results = soup.find_all("div", class_="hdline_article_tit")
        for res in results:
            item = BaidunewsItem()
            item["title"] = res.a.string.strip()
            item["url"] = res.a.get("href").strip()
            item["source"] = "百度新闻"
            yield item

위 코드에서는 바이두 뉴스의 헤드라인인 hdline_article_tit 클래스를 포함한 모든 요소를 찾았습니다. 그런 다음 BeautifulSoup을 사용하여 페이지를 구문 분석하고 루프에서 BaidunewsItem 클래스 개체를 만듭니다. 마지막으로 Yield 문을 통해 데이터를 반환합니다.

4단계: 항목 정의

Scrapy에서 항목은 캡처된 데이터 구조를 정의하는 데 사용됩니다. 프로젝트의 items.py 파일에 항목 템플릿을 정의해야 합니다.

import scrapy

class BaidunewsItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    source = scrapy.Field()

5단계: Spider 시작 및 데이터 출력

Spider를 시작하고 데이터를 출력하려면 다음 명령만 실행하면 됩니다.

scrapy crawl baidu -o baiduNews.csv

명령이 실행되면 프로젝트에 baiduNews.csv라는 파일이 생성됩니다. 루트 디렉터리 파일에는 크롤링된 모든 뉴스 데이터가 포함되어 있습니다.

요약

Scrapy를 사용하면 Baidu 뉴스 데이터를 빠르고 효율적으로 가져와 로컬에 저장할 수 있습니다. Scrapy는 확장성이 뛰어나고 다양한 데이터 형식의 출력을 지원합니다. 이 기사에서는 Scrapy의 간단한 애플리케이션 시나리오만 소개하지만 Scrapy에는 여전히 우리가 탐색할 수 있는 강력한 기능이 많이 있습니다.

위 내용은 Scrapy 실행: Baidu 뉴스 데이터 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 스크립트가 UNIX에서 실행되지 않는 일반적인 이유는 무엇입니까?Apr 28, 2025 am 12:18 AM

Python 스크립트가 UNIX 시스템에서 실행할 수없는 이유는 다음과 같습니다. 1) CHMOD XYOUR_SCRIPT.PY를 사용하여 실행 권한을 부여하는 권한이 불충분합니다. 2) 잘못되거나 누락 된 Shebang 라인은 #!/usr/bin/envpython을 사용해야합니다. 3) 잘못된 환경 변수 설정, os.environ 디버깅을 인쇄 할 수 있습니다. 4) 잘못된 Python 버전을 사용하여 Shebang 행 또는 명령 줄에 버전을 지정할 수 있습니다. 5) 가상 환경을 사용하여 종속성을 분리하는 의존성 문제; 6) 구문 오류, python-mpy_compileyour_script.py를 사용하여 감지하십시오.

파이썬 어레이를 사용하는 것이 목록을 사용하는 것보다 더 적절한 시나리오의 예를 제시하십시오.Apr 28, 2025 am 12:15 AM

파이썬 어레이를 사용하는 것은 목록보다 많은 양의 숫자 데이터를 처리하는 데 더 적합합니다. 1) 배열 더 많은 메모리를 저장, 2) 배열은 숫자 값으로 작동하는 것이 더 빠르며, 3) 배열 힘 유형 일관성, 4) 배열은 C 배열과 호환되지만 목록만큼 유연하고 편리하지 않습니다.

Python에서 목록 대 배열 사용의 성능은 무엇입니까?Apr 28, 2025 am 12:10 AM

더 나은 orfelexibility 및 mixdatatatatytys, 탁월한 정비 계산 모래 데이터 세트.

Numpy는 대형 배열의 메모리 관리를 어떻게 처리합니까?Apr 28, 2025 am 12:07 AM

numpymanagesmemoryforlargearraysefficiedviews, 사본 및 메모리-맵핑 파일

모듈 가져와 목록 또는 배열을 가져와야합니까?Apr 28, 2025 am 12:06 AM

ListSinpythondonoTrequireimportingAmodule, whilearraysfromtheArrayModuledOneedAnimport.1) ListSareBuilt-in, Versatile, andCanholdixedDatatypes.2) arraysarraysaremorememorememeMorememeMorememeMorememeMorememeMorememeMorememeMoremeMoremeTeverTopeTeveTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeveTeTeTeTeTeTeTeTete가 필요합니다.

파이썬 어레이에 어떤 데이터 유형을 저장할 수 있습니까?Apr 27, 2025 am 12:11 AM

PythonlistsCanstoreAnyDatAtype, ArrayModuLearRaysStoreOneType 및 NUMPYARRAYSAREFORNUMERICALPUTATION.1) LISTSAREVERSATILEBUTLESSMEMORY-EFFICENT.2) ARRAYMODUERRAYRAYRAYSARRYSARESARESARESARESARESARESAREDOREDORY-UNFICEDONOUNEOUSDATA.3) NumpyArraysUraysOrcepperperperperperperperperperperperperperperperferperferperferferpercient

파이썬 어레이에 잘못된 데이터 유형의 값을 저장하려고하면 어떻게됩니까?Apr 27, 2025 am 12:10 AM

whenyouattempttoreavalueofthewrongdatatypeinapythonaphonarray, thisiSdueTotheArrayModule의 stricttyPeenforcement, theAllElementStobeofthesAmetypecified bythetypecode.forperformancersassion, arraysaremoreficats the thraysaremoreficats thetheperfication the thraysaremorefications는

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까?Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

See all articles