>  기사  >  백엔드 개발  >  Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

不言
不言원래의
2018-09-07 15:38:426646검색

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 만드는 방법은 무엇입니까? 이 글은 Anaconda 환경에서 Scrapy 크롤러 프레임워크 프로젝트를 생성하는 단계를 소개합니다. 읽어볼 가치가 있습니다.

Python 크롤러 튜토리얼-31-스크래피 크롤러 프레임워크 프로젝트 만들기

우선 이 글은 아나콘다 환경이므로 아나콘다가 설치되어 있지 않다면 공식 홈페이지에 가서 먼저 다운로드 받아 설치하시기 바랍니다

Anaconda 다운로드 주소: https://www.anaconda.com/download/

스크래피 크롤러 프레임워크 프로젝트 생성

0. [cmd]

1. 사용하려는 Anaconda 환경을 입력하세요.

여기서 프로젝트가 생성되었습니다.

1의 역할은 [Pycharm]

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

2의 [설정] 아래 [프로젝트:]에서 찾을 수 있습니다. 예를 들면 다음과 같습니다.

activate learn

3. 원하는 scrapy 프로젝트가 저장될 디렉터리를 입력하세요. [참고]

4. 새 프로젝트: scrapy startproject xxx 프로젝트 이름, 예:

scrapy startproject new_project

5. 스크린샷:

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

6. 파일 탐색기 디렉터리에서 열면 여러 파일이 생성된 것을 확인할 수 있습니다

Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

7. Pycharm을 사용하여 프로젝트가 있는 디렉터리를 엽니다.

Scrapy 크롤러 프레임워크 프로젝트 개발

0. Pycharm을 사용하여 프로젝트를 엽니다. 스크린샷:
Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러

프로젝트 개발의 일반적인 프로세스:

spider/xxspider.py 주소는 다운로드한 데이터를 분해하고 추출하는 역할을 담당합니다

1. 크롤링해야 하는 대상/제품: item.py

2. 스파이더 디렉터리에서 다운로드하여 생성합니다. Python 파일 생성 크롤러:

3 저장 콘텐츠: Pipelines.py

Pipeline.py 파일

스파이더 객체가 닫힐 때 호출됨

스파이더 객체가 열릴 때 호출됨

필요한 매개변수를 초기화하기 위해

스파이더가 추출한 항목이 스파이더와 함께 매개변수로 전달됨

이 메서드를 구현해야 함

항목 개체를 반환해야 하며 버려진 항목은 후속 파이프라인

해당 파이프라인 파일

에 포함되지 않습니다. 크롤러가 데이터를 추출하여 항목에 저장한 후 항목에 저장된 데이터는 추가 처리가 필요합니다.

파이프라인에서는 process_item 함수를 처리해야 합니다.

process_item

_ init _: 생성자

open_spider( spider):

close_spider(spider): 아이더 디렉토리

는 스파이더 폴더 아래의 파일에 해당합니다.

_ init _: 크롤러 이름 초기화, _urls 목록 시작

start_requests: 요청 객체를 생성하여 Scrapy에 전달 다운로드 및 응답 반환

parse: 해당 항목 구문 분석 반환된 응답을 기반으로 항목이 자동으로 파이프라인에 들어갑니다. 필요한 경우 URL을 구문 분석하면 URL이 자동으로 요청 모듈로 전달되고 루프가 계속됩니다.

start_requests: 이 메서드는 한 번만 호출할 수 있습니다. 가능, start_urls 콘텐츠를 읽고 루프 프로세스를 시작합니다.

name: 크롤러 이름 설정

start_urls: 첫 번째 크롤링 배치를 시작할 URL 설정

allow_domains: 스파이더가 크롤링할 수 있는 도메인 이름 목록

start_request(self): 한 번 호출에 의해서만 사용됨

parse: 감지 인코딩

log: 로깅

관련 권장 사항:

Python 크롤러 프레임워크의 스크랩 예제에 대한 자세한 설명

Scrapy 크롤러 소개 튜토리얼 four Spider (크롤러)

Python의 Scrapy 프레임워크 사용 웹 크롤러 작성의 간단한 예

위 내용은 Anaconda 환경에서 Scrapy 크롤러 프레임워크를 생성하는 Python 크롤러의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.