강력한 크롤러 프레임워크인 Scrapy란 무엇입니까?-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

강력한 크롤러 프레임워크인 Scrapy란 무엇입니까?

爱喝马黛茶的安东尼

Jun 05, 2019 pm 06:02 PM

pythonscrapy비열한

웹 크롤러는 특정 규칙에 따라 World Wide Web 정보를 자동으로 크롤링하는 프로그램 또는 스크립트로, 인터넷 검색 엔진이나 기타 유사한 웹사이트에서 널리 사용되며 액세스할 수 있는 모든 페이지를 자동으로 수집하여 해당 웹사이트의 콘텐츠를 얻을 수 있습니다. . Scrapy는 매우 강력한 크롤러 프레임워크이며 python로 작성되었습니다. Scrapy가 무엇인지 살펴볼까요?

강력한 크롤러 프레임워크인 Scrapy란 무엇입니까?

1. 필수 지식

필수 지식은 Linux 시스템 + Python 언어 + Scrapy 프레임워크 + XPath(XML 경로 언어) + 일부 보조 도구(브라우저 개발자) 도구 및 XPath 도우미 플러그인).

저희 크롤러는 Python 언어의 Scrapy 크롤러 프레임워크를 사용하여 개발되었으며 Linux에서 실행되므로 Python 언어 및 Scrapy 프레임워크에 능숙해야 하며 Linux 운영 체제에 대한 기본 지식이 필요합니다.

중국어 텍스트 단락 및 "다음 페이지" 링크 등을 포함하여 대상 HTML 페이지에서 원하는 내용을 추출하려면 XPath를 사용해야 합니다.

브라우저 개발자 도구는 크롤러 작성을 위한 주요 보조 도구입니다. 이 도구를 사용하여 페이지 링크 패턴을 분석하고 HTML 페이지에서 추출하려는 요소를 찾은 다음 크롤러 코드에서 사용할 XPath 표현식을 추출할 수도 있습니다. 페이지 요청 헤더. 크롤링 대상이 동적 웹사이트인 경우 도구는 그 뒤에 있는 JavaScript 요청도 분석할 수 있습니다.

XPath 도우미 플러그인은 크롬용 플러그인으로, 크롬 코어 기반의 브라우저에도 설치할 수 있습니다. XPath 도우미를 사용하여 XPath 식을 디버깅할 수 있습니다.

2. 환경 설정

pip 명령을 사용하여 Scrapy를 설치할 수 있습니다: pip install Scrapy

Scrapy에는 많은 종속성이 있으므로 설치 프로세스 중에 다음과 같은 문제가 발생할 수 있습니다.

ImportError: w3lib라는 모듈이 없습니다. .http

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　int in in in in libx ml/xmlversion.h: 해당 파일 또는 디렉토리가 없습니다

ImportError: OpenSSL이라는 모듈이 없습니다

해결책: pip install pyOpenSSL

제안:

사용 간단한 방법: 아나콘다를 사용하여 설치합니다.

3. Scrapy 프레임워크

1. Scrapy 소개

Scrapy는 Python으로 작성된 유명한 크롤러 프레임워크입니다. Scrapy는 웹 스크래핑을 쉽게 수행할 수 있으며, 필요에 따라 쉽게 사용자 정의할 수도 있습니다.

Scrapy의 전체 아키텍처는 대략 다음과 같습니다.

2. Scrapy 구성 요소

Scrapy에는 주로 다음 구성 요소가 포함됩니다.

Engine(Scrapy)

처리하는 데 사용됩니다. 전체 시스템의 데이터 흐름, 트랜잭션 트리거(프레임워크 코어)

강력한 크롤러 프레임워크인 Scrapy란 무엇입니까?

Scheduler(Scheduler)

는 엔진의 요청을 수락하고 이를 대기열에 넣은 다음 엔진이 다시 요청할 때 반환하는 데 사용됩니다. URL(웹 페이지의 URL 또는 링크)로 상상할 수 있습니다. 캡처됨) 다음에 크롤링할 URL을 결정하고 중복 URL을 제거하는 우선순위 대기열입니다.

Downloader

는 웹 콘텐츠를 다운로드하고 웹 콘텐츠를 스파이더에 반환하는 데 사용됩니다(Scrapy 다운로더는 효율적인 비동기 모델을 기반으로 구축되었습니다).

Crawlers

크롤러는 소위 엔터티(항목)라고 불리는 특정 웹 페이지에서 필요한 정보를 추출하는 데 주로 사용됩니다. 사용자는 여기에서 링크를 추출하고 Scrapy가 다음 페이지를 계속 크롤링하도록 할 수도 있습니다.

프로젝트 파이프라인(Pipeline)

은 크롤러가 웹페이지에서 추출한 엔터티를 처리하는 역할을 하며, 주요 기능은 엔터티를 유지하고 엔터티의 유효성을 확인하며 불필요한 정보를 제거하는 것입니다. 크롤러가 페이지를 구문 분석하면 프로젝트 파이프라인으로 전송되고 데이터는 여러 특정 시퀀스를 통해 처리됩니다.

Downloader Middlewares

Scrapy 엔진과 다운로더 사이에 위치한 프레임워크는 주로 Scrapy 엔진과 다운로더 간의 요청과 응답을 처리합니다.

Spider Middlewares

Scrapy 엔진과 크롤러 사이의 프레임워크의 주요 임무는 스파이더의 응답 입력과 요청 출력을 처리하는 것입니다.

스케줄러 미드데웨어

Scrapy 엔진과 디스패처 사이의 미들웨어로, Scrapy 엔진의 요청과 응답을 디스패처로 보냅니다.

스크래피 작업 프로세스:

1. 엔진은 후속 크롤링을 위해 스케줄러에서 링크(URL)를 가져옵니다.

2 엔진은 URL을 요청(요청)으로 캡슐화하여 다운로더에 전달합니다

3. 다운로더는 리소스를 다운로드하여 응답 패키지(응답)

4로 캡슐화합니다. 크롤러는 응답

5을 구문 분석한 다음 추가 처리를 위해 엔터티 파이프라인에 전달합니다

6. 링크(URL)를 구문 분석한 다음 URL을 스케줄러에 전달하여 크롤링을 기다립니다.

위 내용은 강력한 크롤러 프레임워크인 Scrapy란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 CSDN에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

파이썬 : 기본 응용 프로그램 탐색Apr 10, 2025 am 09:41 AM

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?Apr 09, 2025 pm 04:33 PM

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까?Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Python 3.6에 피클 파일을로드 할 때 '__builtin__'모듈을 찾을 수없는 경우 어떻게해야합니까?Apr 02, 2025 am 07:12 AM

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

경치 좋은 스팟 코멘트 분석에서 Jieba Word 세분화의 정확성을 향상시키는 방법은 무엇입니까?Apr 02, 2025 am 07:09 AM

경치 좋은 스팟 댓글 분석에서 Jieba Word 세분화 문제를 해결하는 방법은 무엇입니까? 경치가 좋은 스팟 댓글 및 분석을 수행 할 때 종종 Jieba Word 세분화 도구를 사용하여 텍스트를 처리합니다 ...

정규 표현식을 사용하여 첫 번째 닫힌 태그와 정지와 일치하는 방법은 무엇입니까?Apr 02, 2025 am 07:06 AM

정규 표현식을 사용하여 첫 번째 닫힌 태그와 정지와 일치하는 방법은 무엇입니까? HTML 또는 기타 마크 업 언어를 다룰 때는 정규 표현식이 종종 필요합니다.

Inversiting.com의 크롤링 메커니즘을 우회하는 방법은 무엇입니까?Apr 02, 2025 am 07:03 AM

Investing.com의 크롤링 전략 이해 많은 사람들이 종종 Investing.com (https://cn.investing.com/news/latest-news)에서 뉴스 데이터를 크롤링하려고합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.