>  기사  >  백엔드 개발  >  Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

高洛峰
高洛峰원래의
2017-02-20 10:06:372547검색

사용 도구: Python2.7

스크래피 프레임워크

sublime text3

하나. Python 빌드(Windows 버전)

1. python2.7 설치 --- cmd에 python을 입력하면 다음과 같이 인터페이스가 나오면 설치 성공

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

2. Scrapy 프레임워크 통합----명령줄 입력: pip install Scrapy

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

성공적인 설치 인터페이스는 다음과 같습니다.

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

실패 상황은 다양합니다. 예를 들면 다음과 같습니다.

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

해결 방법:

다른 오류는 Baidu에서 검색할 수 있습니다.

둘. 프로그래밍을 시작하세요.

파이썬 코드는 다음과 같습니다.

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

코드 설명: urllib, re라는 두 개의 모듈이 소개됩니다. 두 가지 함수를 정의합니다. 첫 번째 기능은 대상 웹 페이지 전체 데이터를 얻는 것입니다. 두 번째 기능은 대상 웹 페이지에서 대상 이미지를 얻고, 웹 페이지를 순회하며, 획득된 이미지를 0부터 정렬하는 것입니다.

참고: 모듈 지식 포인트:

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

크롤링 이미지 렌더링:

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

이미지 기본적으로 , 저장 경로는 생성된 .py 파일과 동일한 디렉터리에 있습니다.

2. 크롤러 방지 조치를 통해 Baidu 이미지를 크롤링합니다. Baidu 사진 등

예를 들어 키워드 검색 "이모티콘 패키지" https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7% E9% B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

사진이 스크롤 방식으로 로드됩니다. , 가장 큰 사진은 처음 30장의 우선순위 사진으로 크롤링됩니다.

코드는 다음과 같습니다.

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

코드 설명: 4개의 모듈을 가져오며, os 모듈을 사용하여 저장 경로를 지정합니다. 처음 두 기능은 위와 동일합니다. 세 번째 함수는 if 문과 tryException을 사용합니다.

크롤링 프로세스는 다음과 같습니다.

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

크롤링 결과:

Python 크롤러: 키워드를 통해 Baidu 이미지를 크롤링합니다.

참고: python 작성 코드 정렬에 주의하고, 오류를 보고하기 쉽기 때문에 탭과 공백을 혼합하지 마십시오.

더 많은 Python 크롤러: 키워드를 통한 Baidu 이미지 크롤링, 관련 기사는 PHP 중국어 웹사이트에 주목하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.