Python 크롤러에 대한 실제 소개: 웹 이미지 크롤링-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python 크롤러에 대한 실제 소개: 웹 이미지 크롤링

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 11, 2022 pm 12:06 PM

python

이 기사에서는 웹 이미지 크롤링과 관련된 문제를 주로 정리하는 Python에 대한 관련 지식을 제공합니다. 데이터를 효율적으로 얻으려면 크롤러를 사용하는 것이 매우 쉽고 Python을 사용하여 크롤러를 수행하는 것도 매우 유용합니다. 간단하고 편리합니다. 간단한 작은 크롤러 프로그램을 통해 크롤러를 작성하는 기본 과정을 함께 살펴보겠습니다.

Python 크롤러에 대한 실제 소개: 웹 이미지 크롤링

【관련 추천: Python3 동영상 튜토리얼】

정보가 폭발적으로 증가하는 시대에 데이터를 효율적으로 얻고 싶다면 크롤러를 사용하는 것이 매우 쉽습니다. Python을 사용하여 크롤러를 만드는 것도 매우 간단하고 편리합니다. 간단한 작은 크롤러 프로그램을 통해 크롤러를 작성하는 기본 과정을 살펴보겠습니다.

Preparation

Language: python

IDE: pycharm

우선 사용해야 할 것이 있습니다. 처음 시작하기 위한 가장 간단한 프로그램이기 때문에 주로 다음 두 가지 라이브러리를 사용합니다.

import requests //用于请求网页
import re  //正则表达式，用于解析筛选网页中的信息

그 중 re는 Python과 함께 제공되며 요청 라이브러리는 직접 설치해야 합니다. 명령줄에 pip 설치 요청을 입력하면 됩니다.

그런 다음 임의의 웹사이트를 찾으세요. 다음은 이모티콘 웹사이트입니다.

참고: 여기 이모티콘 웹사이트의 콘텐츠는 무료로 다운로드할 수 있으므로 크롤러는 프로세스를 단순화합니다. . 이 과정에서 유료 리소스를 크롤링하지 않도록 주의하세요.

우리가 해야 할 일은 크롤러를 통해 이러한 이모티콘을 컴퓨터에 다운로드하는 것입니다.

크롤러 프로그램 작성

먼저 이 웹사이트에 Python을 통해 접속해야 합니다. 코드는 다음과 같습니다.

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)  //请求网页

헤더 섹션을 추가하는 이유는 일부 웹 페이지에서 Python을 통해 요청한다는 것을 인식하기 때문입니다. 거부하므로 일반 요청 헤더로 변경합니다. 임의로 하나를 찾거나 f12를 사용하여 네트워크 정보에서 하나를 복사할 수 있습니다.

그런 다음 웹 페이지 코드에서 크롤링하려는 이미지의 위치를 찾아야 합니다. f12로 소스 코드를 확인하고 다음과 같이 이모티콘 패키지를 찾습니다.

그런 다음 일치하는 규칙을 만들고 정규식을 사용하여 중간에 있는 문자열을 일치시키세요. 교체하세요. 가장 간단한 것은 이렇게 .*?

t = '<img  src="/static/imghwm/default1.png" data-src="(.*?)" class="lazy" alt="Python 크롤러에 대한 실제 소개: 웹 이미지 크롤링" >'

입니다.

그런 다음 re 라이브러리에서 findall 메소드를 호출하여 관련 콘텐츠를 크롤링할 수 있습니다.

result = re.findall(t, response.text)

반환된 콘텐츠는 문자열로 구성된 목록입니다. 마지막으로 이미지를 다운로드하고 Python 문을 통해 파일에 저장합니다. 크롤링된 주소를 폴더에 넣으면 됩니다.

프로그램 코드

import requests
import re
import os

image = '表情包'
if not os.path.exists(image):
    os.mkdir(image)
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'
print(response.request.headers)
print(response.status_code)
t = '<img  src="/static/imghwm/default1.png" data-src="(.*?)" class="lazy" alt="Python 크롤러에 대한 실제 소개: 웹 이미지 크롤링" >'
result = re.findall(t, response.text)
for img in result:
    print(img)
    res = requests.get(img[0])
    print(res.status_code)
    s = img[0].split('.')[-1]  #截取图片后缀，得到表情包格式，如jpg ，gif
    with open(image + '/' + img[1] + '.' + s, mode='wb') as file:
        file.write(res.content)

최종 결과는 다음과 같습니다.

[관련 권장 사항: Python3 비디오 튜토리얼 ]

위 내용은 Python 크롤러에 대한 실제 소개: 웹 이미지 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 CSDN에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

파이썬의 주요 목적 : 유연성과 사용 편의성Apr 17, 2025 am 12:14 AM

Python의 유연성은 다중 파리가 지원 및 동적 유형 시스템에 반영되며, 사용 편의성은 간단한 구문 및 풍부한 표준 라이브러리에서 나옵니다. 유연성 : 객체 지향, 기능 및 절차 프로그래밍을 지원하며 동적 유형 시스템은 개발 효율성을 향상시킵니다. 2. 사용 편의성 : 문법은 자연 언어에 가깝고 표준 라이브러리는 광범위한 기능을 다루며 개발 프로세스를 단순화합니다.

파이썬 : 다목적 프로그래밍의 힘Apr 17, 2025 am 12:09 AM

Python은 초보자부터 고급 개발자에 이르기까지 모든 요구에 적합한 단순성과 힘에 호의적입니다. 다목적 성은 다음과 같이 반영됩니다. 1) 배우고 사용하기 쉽고 간단한 구문; 2) Numpy, Pandas 등과 같은 풍부한 라이브러리 및 프레임 워크; 3) 다양한 운영 체제에서 실행할 수있는 크로스 플랫폼 지원; 4) 작업 효율성을 향상시키기위한 스크립팅 및 자동화 작업에 적합합니다.

하루 2 시간 안에 파이썬 학습 : 실용 가이드Apr 17, 2025 am 12:05 AM

예, 하루에 2 시간 후에 파이썬을 배우십시오. 1. 합리적인 학습 계획 개발, 2. 올바른 학습 자원을 선택하십시오. 3. 실습을 통해 학습 된 지식을 통합하십시오. 이 단계는 짧은 시간 안에 Python을 마스터하는 데 도움이 될 수 있습니다.

Python vs. C : 개발자를위한 장단점Apr 17, 2025 am 12:04 AM

Python은 빠른 개발 및 데이터 처리에 적합한 반면 C는 고성능 및 기본 제어에 적합합니다. 1) Python은 간결한 구문과 함께 사용하기 쉽고 데이터 과학 및 웹 개발에 적합합니다. 2) C는 고성능과 정확한 제어를 가지고 있으며 게임 및 시스템 프로그래밍에 종종 사용됩니다.

파이썬 : 시간 약속과 학습 속도Apr 17, 2025 am 12:03 AM

Python을 배우는 데 필요한 시간은 개인마다 다릅니다. 주로 이전 프로그래밍 경험, 학습 동기 부여, 학습 리소스 및 방법 및 학습 리듬의 영향을받습니다. 실질적인 학습 목표를 설정하고 실용적인 프로젝트를 통해 최선을 다하십시오.

파이썬 : 자동화, 스크립팅 및 작업 관리Apr 16, 2025 am 12:14 AM

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.

파이썬과 시간 : 공부 시간을 최대한 활용Apr 14, 2025 am 12:02 AM

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

파이썬 : 게임, Guis 등Apr 13, 2025 am 12:14 AM

Python은 게임 및 GUI 개발에서 탁월합니다. 1) 게임 개발은 Pygame을 사용하여 드로잉, 오디오 및 기타 기능을 제공하며 2D 게임을 만드는 데 적합합니다. 2) GUI 개발은 Tkinter 또는 PYQT를 선택할 수 있습니다. Tkinter는 간단하고 사용하기 쉽고 PYQT는 풍부한 기능을 가지고 있으며 전문 개발에 적합합니다.

See all articles