사용 도구: Python2.7
스크래피 프레임워크
sublime text3
하나. Python 빌드(Windows 버전)
1. python2.7 설치 --- cmd에 python을 입력하면 다음과 같이 인터페이스가 나오면 설치 성공
2. Scrapy 프레임워크 통합----명령줄 입력: pip install Scrapy
성공적인 설치 인터페이스는 다음과 같습니다.
실패 상황은 다양합니다. 예를 들면 다음과 같습니다.
해결 방법:
다른 오류는 Baidu에서 검색할 수 있습니다.
둘. 프로그래밍을 시작하세요.
파이썬 코드는 다음과 같습니다.
코드 설명: urllib, re라는 두 개의 모듈이 소개됩니다. 두 가지 함수를 정의합니다. 첫 번째 기능은 대상 웹 페이지 전체 데이터를 얻는 것입니다. 두 번째 기능은 대상 웹 페이지에서 대상 이미지를 얻고, 웹 페이지를 순회하며, 획득된 이미지를 0부터 정렬하는 것입니다.
참고: 모듈 지식 포인트:
크롤링 이미지 렌더링:
이미지 기본적으로 , 저장 경로는 생성된 .py 파일과 동일한 디렉터리에 있습니다.
2. 크롤러 방지 조치를 통해 Baidu 이미지를 크롤링합니다. Baidu 사진 등
예를 들어 키워드 검색 "이모티콘 패키지" https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7% E9% B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
사진이 스크롤 방식으로 로드됩니다. , 가장 큰 사진은 처음 30장의 우선순위 사진으로 크롤링됩니다.
코드는 다음과 같습니다.
코드 설명: 4개의 모듈을 가져오며, os 모듈을 사용하여 저장 경로를 지정합니다. 처음 두 기능은 위와 동일합니다. 세 번째 함수는 if 문과 tryException을 사용합니다.
크롤링 프로세스는 다음과 같습니다.
크롤링 결과:
참고: python 작성 코드 정렬에 주의하고, 오류를 보고하기 쉽기 때문에 탭과 공백을 혼합하지 마십시오.
더 많은 Python 크롤러: 키워드를 통한 Baidu 이미지 크롤링, 관련 기사는 PHP 중국어 웹사이트에 주목하세요!