스크래피 실행: Baidu 뉴스 데이터 크롤링
인터넷의 발전과 함께 사람들이 정보를 얻는 주요 방법은 전통적인 미디어에서 인터넷으로 바뀌었고 사람들은 뉴스 정보를 얻기 위해 점점 더 인터넷에 의존하고 있습니다. 연구원이나 분석가의 경우 분석 및 연구를 위해 많은 양의 데이터가 필요합니다. 따라서 이 글에서는 Scrapy를 사용하여 Baidu 뉴스 데이터를 크롤링하는 방법을 소개합니다.
Scrapy는 웹사이트 데이터를 빠르고 효율적으로 크롤링할 수 있는 오픈 소스 Python 크롤러 프레임워크입니다. Scrapy는 강력한 웹 페이지 구문 분석 및 크롤링 기능은 물론 우수한 확장성과 높은 수준의 사용자 정의 기능을 제공합니다.
1단계: Scrapy 설치
시작하기 전에 Scrapy와 기타 라이브러리를 설치해야 합니다. 다음 명령을 통해 설치를 완료할 수 있습니다.
pip install scrapy pip install requests pip install bs4
2단계: Scrapy 프로젝트 생성
다음 명령을 통해 Scrapy 프로젝트를 생성합니다.
scrapy startproject baiduNews
명령이 실행되면 현재 폴더에 baiduNews라는 파일이 생성됩니다. Scrapy 프로젝트의 초기 구조가 포함된 디렉터리 폴더입니다.
3단계: Spider 작성
Scrapy에서 Spider는 웹 콘텐츠를 크롤링하는 데 사용되는 프로세서입니다. Baidu News 웹사이트에서 데이터를 얻으려면 Spider를 작성해야 합니다. 먼저 프로젝트 루트 디렉터리에 spiders 폴더를 만들고 그 안에 Spider 템플릿에 맞는 Python 파일을 만들어야 합니다.
import scrapy class BaiduSpider(scrapy.Spider): name = "baidu" start_urls = [ "http://news.baidu.com/" ] def parse(self, response): pass
위 코드에서는 먼저 Scrapy 라이브러리를 가져오고 BaiduSpider라는 클래스를 만들었습니다. 클래스에서는 Baidu 뉴스 URL이 포함된 목록인 start_urls 변수를 정의합니다. 구문 분석 메소드는 데이터 캡처를 수행하는 핵심 기능입니다. 여기서는 빈 기능만 정의합니다. 이제 뉴스 데이터를 가져오기 위한 템플릿을 정의해야 합니다.
import scrapy from baiduNews.items import BaidunewsItem from bs4 import BeautifulSoup class BaiduSpider(scrapy.Spider): name = "baidu" start_urls = [ "http://news.baidu.com/" ] def parse(self, response): soup = BeautifulSoup(response.body, "html.parser") results = soup.find_all("div", class_="hdline_article_tit") for res in results: item = BaidunewsItem() item["title"] = res.a.string.strip() item["url"] = res.a.get("href").strip() item["source"] = "百度新闻" yield item
위 코드에서는 바이두 뉴스의 헤드라인인 hdline_article_tit 클래스를 포함한 모든 요소를 찾았습니다. 그런 다음 BeautifulSoup을 사용하여 페이지를 구문 분석하고 루프에서 BaidunewsItem 클래스 개체를 만듭니다. 마지막으로 Yield 문을 통해 데이터를 반환합니다.
4단계: 항목 정의
Scrapy에서 항목은 캡처된 데이터 구조를 정의하는 데 사용됩니다. 프로젝트의 items.py 파일에 항목 템플릿을 정의해야 합니다.
import scrapy class BaidunewsItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() source = scrapy.Field()
5단계: Spider 시작 및 데이터 출력
Spider를 시작하고 데이터를 출력하려면 다음 명령만 실행하면 됩니다.
scrapy crawl baidu -o baiduNews.csv
명령이 실행되면 프로젝트에 baiduNews.csv라는 파일이 생성됩니다. 루트 디렉터리 파일에는 크롤링된 모든 뉴스 데이터가 포함되어 있습니다.
요약
Scrapy를 사용하면 Baidu 뉴스 데이터를 빠르고 효율적으로 가져와 로컬에 저장할 수 있습니다. Scrapy는 확장성이 뛰어나고 다양한 데이터 형식의 출력을 지원합니다. 이 기사에서는 Scrapy의 간단한 애플리케이션 시나리오만 소개하지만 Scrapy에는 여전히 우리가 탐색할 수 있는 강력한 기능이 많이 있습니다.
위 내용은 Scrapy 실행: Baidu 뉴스 데이터 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python 스크립트가 UNIX 시스템에서 실행할 수없는 이유는 다음과 같습니다. 1) CHMOD XYOUR_SCRIPT.PY를 사용하여 실행 권한을 부여하는 권한이 불충분합니다. 2) 잘못되거나 누락 된 Shebang 라인은 #!/usr/bin/envpython을 사용해야합니다. 3) 잘못된 환경 변수 설정, os.environ 디버깅을 인쇄 할 수 있습니다. 4) 잘못된 Python 버전을 사용하여 Shebang 행 또는 명령 줄에 버전을 지정할 수 있습니다. 5) 가상 환경을 사용하여 종속성을 분리하는 의존성 문제; 6) 구문 오류, python-mpy_compileyour_script.py를 사용하여 감지하십시오.

파이썬 어레이를 사용하는 것은 목록보다 많은 양의 숫자 데이터를 처리하는 데 더 적합합니다. 1) 배열 더 많은 메모리를 저장, 2) 배열은 숫자 값으로 작동하는 것이 더 빠르며, 3) 배열 힘 유형 일관성, 4) 배열은 C 배열과 호환되지만 목록만큼 유연하고 편리하지 않습니다.

더 나은 orfelexibility 및 mixdatatatatytys, 탁월한 정비 계산 모래 데이터 세트.

numpymanagesmemoryforlargearraysefficiedviews, 사본 및 메모리-맵핑 파일

ListSinpythondonoTrequireimportingAmodule, whilearraysfromtheArrayModuledOneedAnimport.1) ListSareBuilt-in, Versatile, andCanholdixedDatatypes.2) arraysarraysaremorememorememeMorememeMorememeMorememeMorememeMorememeMorememeMoremeMoremeTeverTopeTeveTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeveTeTeTeTeTeTeTeTete가 필요합니다.

PythonlistsCanstoreAnyDatAtype, ArrayModuLearRaysStoreOneType 및 NUMPYARRAYSAREFORNUMERICALPUTATION.1) LISTSAREVERSATILEBUTLESSMEMORY-EFFICENT.2) ARRAYMODUERRAYRAYRAYSARRYSARESARESARESARESARESARESAREDOREDORY-UNFICEDONOUNEOUSDATA.3) NumpyArraysUraysOrcepperperperperperperperperperperperperperperperferperferperferferpercient

whenyouattempttoreavalueofthewrongdatatypeinapythonaphonarray, thisiSdueTotheArrayModule의 stricttyPeenforcement, theAllElementStobeofthesAmetypecified bythetypecode.forperformancersassion, arraysaremoreficats the thraysaremoreficats thetheperfication the thraysaremorefications는

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

PhpStorm 맥 버전
최신(2018.2.1) 전문 PHP 통합 개발 도구

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

드림위버 CS6
시각적 웹 개발 도구
