Python은 간단한 크롤러 기능을 구현합니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python은 간단한 크롤러 기능을 구현합니다.

高洛峰

Dec 13, 2016 pm 01:32 PM

우리는 매일 인터넷을 검색하다 보면 멋진 사진들을 자주 보게 되는데, 우리는 이 사진들을 저장하고 다운로드하거나 바탕화면이나 디자인 자료로 사용하고 싶어합니다.

가장 일반적인 접근 방식은 마우스 오른쪽 버튼을 클릭하고 다른 이름으로 저장을 선택하는 것입니다. 그러나 일부 사진에는 마우스 오른쪽 버튼을 클릭할 때 다른 이름으로 저장 옵션이 없습니다. 다른 방법은 스크린샷 도구를 사용하여 캡처하는 것이지만 이렇게 하면 사진의 선명도가 떨어집니다. 알았어~! 실제로 페이지 소스 코드를 보려면 마우스 오른쪽 버튼을 클릭하세요.

파이썬을 사용하여 이러한 간단한 크롤러 기능을 구현하고 원하는 코드를 로컬에서 크롤링할 수 있습니다. Python을 사용하여 이러한 함수를 구현하는 방법을 살펴보겠습니다.

1. 전체 페이지 데이터를 가져옵니다.

먼저 이미지의 전체 페이지 정보를 가져올 수 있습니다. 다운로드되었습니다.

getjpg.py

#coding=utf-8
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2738151262")

print html

Urllib 모듈은 로컬 파일처럼 www 및 ftp의 데이터를 읽을 수 있는 인터페이스를 제공합니다. 먼저 getHtml() 함수를 정의합니다.

urllib.urlopen() 메서드는 URL 주소를 여는 데 사용됩니다.

read() 메소드는 URL의 데이터를 읽고, getHtml() 함수에 URL을 전달하고, 전체 페이지를 다운로드하는 데 사용됩니다. 프로그램을 실행하면 전체 웹 페이지가 인쇄됩니다.

둘째, 페이지에서 원하는 데이터를 필터링합니다.

Python은 매우 강력한 정규 표현식을 제공합니다. 먼저 Python 정규 표현식에 대해 조금 알아 보겠습니다.

Baidu Tieba에서 몇 가지 아름다운 배경화면을 발견하고 도구를 보기 위해 이전 섹션으로 이동한다고 가정해 보겠습니다. 다음과 같은 사진 주소를 찾았습니다: src="http://imgsrc.baidu.com/forum...jpg" pic_ext="jpeg"

Python은 간단한 크롤러 기능을 구현합니다.

다음과 같이 코드를 수정합니다.

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r&#39;src="(.+?\.jpg)" pic_ext&#39;
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

또한 가져온 전체 페이지에서 필요한 이미지 링크를 필터링하는 getImg() 함수를 만들었습니다. re 모듈에는 주로 정규 표현식이 포함되어 있습니다.

re.compile()은 정규 표현식을 정규 표현식 객체로 컴파일할 수 있습니다.

re.findall() 메소드는 html imgre( 정규식) 데이터.

스크립트를 실행하면 전체 페이지에 포함된 이미지의 URL 주소를 얻을 수 있습니다.

셋째, 페이지 필터링된 데이터를 로컬에 저장합니다.

for 루프를 통해 필터링된 이미지 주소를 탐색하고 저장합니다. local의 경우 코드는 다음과 같습니다.

#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r&#39;src="(.+?\.jpg)" pic_ext&#39;
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,&#39;%s.jpg&#39; % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

여기서 핵심은 urllib.urlretrieve() 메서드를 사용하여 원격 데이터를 로컬에 직접 다운로드하는 것입니다.

for 루프를 통해 얻은 이미지 연결을 탐색합니다. 이미지 파일 이름을 보다 표준화되게 보이도록 이름 지정 규칙은 x 변수에 1을 추가하는 것입니다. 저장 위치는 기본적으로 프로그램의 저장 디렉터리입니다.

프로그램 실행이 완료되고 해당 디렉터리에 로컬 디렉터리에 다운로드된 파일이 표시됩니다.

Python은 간단한 크롤러 기능을 구현합니다.

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python vs. C : 주요 차이점 이해Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python vs. C : 프로젝트를 위해 어떤 언어를 선택해야합니까?Apr 21, 2025 am 12:17 AM

Python 또는 C를 선택하는 것은 프로젝트 요구 사항에 따라 다릅니다. 1) 빠른 개발, 데이터 처리 및 프로토 타입 설계가 필요한 경우 Python을 선택하십시오. 2) 고성능, 낮은 대기 시간 및 근접 하드웨어 제어가 필요한 경우 C를 선택하십시오.

파이썬 목표에 도달 : 매일 2 시간의 힘Apr 20, 2025 am 12:21 AM

매일 2 시간의 파이썬 학습을 투자하면 프로그래밍 기술을 효과적으로 향상시킬 수 있습니다. 1. 새로운 지식 배우기 : 문서를 읽거나 자습서를 시청하십시오. 2. 연습 : 코드를 작성하고 완전한 연습을합니다. 3. 검토 : 배운 내용을 통합하십시오. 4. 프로젝트 실무 : 실제 프로젝트에서 배운 것을 적용하십시오. 이러한 구조화 된 학습 계획은 파이썬을 체계적으로 마스터하고 경력 목표를 달성하는 데 도움이 될 수 있습니다.

2 시간 극대화 : 효과적인 파이썬 학습 전략Apr 20, 2025 am 12:20 AM

2 시간 이내에 Python을 효율적으로 학습하는 방법 : 1. 기본 지식을 검토하고 Python 설치 및 기본 구문에 익숙한 지 확인하십시오. 2. 변수, 목록, 기능 등과 같은 파이썬의 핵심 개념을 이해합니다. 3. 예제를 사용하여 마스터 기본 및 고급 사용; 4. 일반적인 오류 및 디버깅 기술을 배우십시오. 5. 목록 이해력 사용 및 PEP8 스타일 안내서와 같은 성능 최적화 및 모범 사례를 적용합니다.

Python과 C : The Hight Language 중에서 선택Apr 20, 2025 am 12:20 AM

Python은 초보자 및 데이터 과학에 적합하며 C는 시스템 프로그래밍 및 게임 개발에 적합합니다. 1. 파이썬은 간단하고 사용하기 쉽고 데이터 과학 및 웹 개발에 적합합니다. 2.C는 게임 개발 및 시스템 프로그래밍에 적합한 고성능 및 제어를 제공합니다. 선택은 프로젝트 요구와 개인적인 이익을 기반으로해야합니다.

Python vs. C : 프로그래밍 언어의 비교 분석Apr 20, 2025 am 12:14 AM

Python은 데이터 과학 및 빠른 개발에 더 적합한 반면 C는 고성능 및 시스템 프로그래밍에 더 적합합니다. 1. Python Syntax는 간결하고 학습하기 쉽고 데이터 처리 및 과학 컴퓨팅에 적합합니다. 2.C는 복잡한 구문을 가지고 있지만 성능이 뛰어나고 게임 개발 및 시스템 프로그래밍에 종종 사용됩니다.

하루 2 시간 : 파이썬 학습의 잠재력Apr 20, 2025 am 12:14 AM

파이썬을 배우기 위해 하루에 2 시간을 투자하는 것이 가능합니다. 1. 새로운 지식 배우기 : 목록 및 사전과 같은 1 시간 안에 새로운 개념을 배우십시오. 2. 연습 및 연습 : 1 시간을 사용하여 소규모 프로그램 작성과 같은 프로그래밍 연습을 수행하십시오. 합리적인 계획과 인내를 통해 짧은 시간에 Python의 핵심 개념을 마스터 할 수 있습니다.

Python vs. C : 학습 곡선 및 사용 편의성Apr 19, 2025 am 12:20 AM

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

See all articles