[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법

黄舟

Jan 21, 2017 pm 02:04 PM

앞서 urllib2에 대한 간단한 소개를 말씀드렸는데, 여기서는 urllib2의 사용법을 좀 더 자세히 설명드리겠습니다.

1. 프록시 설정

urllib2는 기본적으로 HTTP 프록시를 설정하기 위해 환경 변수 http_proxy를 사용합니다.

환경 변수의 영향을 받지 않고 프로그램에서 프록시를 명시적으로 제어하려면 프록시를 사용할 수 있습니다.

이것은 나중에 사용하기에는 매우 편리하지만 프로그램에서 두 가지 다른 프록시 설정을 사용하려는 등 더 자세한 제어를 제공할 수는 없습니다.

더 나은 접근 방식은 install_opener를 사용하여 전역 설정을 변경하는 것이 아니라 전역 urlopen 메서드 대신 오프너의 open 메서드를 직접 호출하는 것입니다.

2. 시간 초과 설정

Python 2.6 이전 버전에서는 urllib2의 API가 시간 초과 값을 설정하려면 전역 설정만 변경할 수 있습니다. 소켓 값의 시간 초과입니다.

import urllib2  
enable_proxy = True  
proxy_handler = urllib2.ProxyHandler({"http" : &#39;http://some-proxy.com:8080&#39;})  
null_proxy_handler = urllib2.ProxyHandler({})  
if enable_proxy:  
    opener = urllib2.build_opener(proxy_handler)  
else:  
    opener = urllib2.build_opener(null_proxy_handler)  
urllib2.install_opener(opener)

Python 2.6 이후에는 urllib2.urlopen()의 timeout 매개변수를 통해 직접 시간 제한을 설정할 수 있습니다.

import urllib2  
import socket  
socket.setdefaulttimeout(10) # 10 秒钟后超时  
urllib2.socket.setdefaulttimeout(10) # 另一种方式

3. HTTP 요청에 특정 헤더를 추가합니다

헤더를 추가하려면 요청 객체를 사용해야 합니다:

import urllib2  
response = urllib2.urlopen(&#39;http://www.google.com&#39;, timeout=10)

일부 헤더, 서버 이 헤더가 확인됩니다

User-Agent: 일부 서버 또는 프록시는 이 값을 사용하여 브라우저에서 요청이 이루어졌는지 여부를 결정합니다.

Content-Type: REST 인터페이스를 사용할 때 서버는 이 값을 확인하려면 HTTP 본문의 콘텐츠를 구문 분석하는 방법을 결정하는 데 사용하세요. 일반적인 값은 다음과 같습니다.

application/xml: RESTful/SOAP 등 XML RPC 호출 시

application/json 사용: JSON RPC 호출 시
application/x-www-form-urlencoded 사용: 사용
브라우저가 웹 양식을 제출할 때 서버에서 제공하는 RESTful 또는 SOAP 서비스를 사용할 때 잘못된 Content-Type 설정으로 인해 서버가 서비스를 거부하게 됩니다.

4.Redirect

urllib2는 수동 구성 없이 기본적으로 HTTP 3XX 반환 코드에 대해 자동으로 리디렉션됩니다. 리디렉션 작업이 발생했는지 확인하려면 응답 URL과 요청 URL이 일치하는지 확인하세요.

import urllib2  
request = urllib2.Request(&#39;http://www.baidu.com/&#39;)  
request.add_header(&#39;User-Agent&#39;, &#39;fake-client&#39;)  
response = urllib2.urlopen(request)  
print response.read()

자동으로 리디렉션하지 않으려면 하위 수준 httplib 라이브러리를 사용하는 것 외에 HTTPRedirectHandler 클래스를 사용자 정의할 수도 있습니다.

import urllib2  
my_url = &#39;http://www.google.cn&#39;  
response = urllib2.urlopen(my_url)  
redirected = response.geturl() == my_url  
print redirected  
  
my_url = &#39;http://rrurl.cn/b1UZuP&#39;  
response = urllib2.urlopen(my_url)  
redirected = response.geturl() == my_url  
print redirected

5.Cookie

urllib2도 쿠키를 자동으로 처리합니다. 쿠키 항목의 값을 가져와야 하는 경우 다음을 수행할 수 있습니다.

import urllib2  
class RedirectHandler(urllib2.HTTPRedirectHandler):  
    def http_error_301(self, req, fp, code, msg, headers):  
        print "301"  
        pass  
    def http_error_302(self, req, fp, code, msg, headers):  
        print "303"  
        pass  
  
opener = urllib2.build_opener(RedirectHandler)  
opener.open(&#39;http://rrurl.cn/b1UZuP&#39;)

실행 후 Baidu 방문에 대한 쿠키 값이 출력됩니다.

6. HTTP PUT 및 DELETE 방법 사용

[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법 urllib2는 HTTP GET 및 POST 방법만 지원합니다. HTTP PUT 및 DELETE를 사용하려면 하위 수준 httplib 라이브러리만 사용할 수 있습니다. 그럼에도 불구하고 다음과 같은 방법으로 urllib2가 PUT 또는 DELETE 요청을 발행하도록 활성화할 수 있습니다:

import urllib2  
import cookielib  
cookie = cookielib.CookieJar()  
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
response = opener.open(&#39;http://www.baidu.com&#39;)  
for item in cookie:  
    print &#39;Name = &#39;+item.name  
    print &#39;Value = &#39;+item.value

7. HTTP 반환 코드 가져오기

200 OK인 경우 urlopen을 사용하세요. HTTP 반환 코드 반환된 응답 객체의 getcode() 메서드를 사용하여 얻을 수 있습니다. 그러나 다른 반환 코드의 경우 urlopen은 예외를 발생시킵니다. 이때 예외 객체의 코드 속성을 확인하는 것이 필요합니다:

import urllib2  
request = urllib2.Request(uri, data=data)  
request.get_method = lambda: &#39;PUT&#39; # or &#39;DELETE&#39;  
response = urllib2.urlopen(request)

8.디버그 로그

urllib2를 사용할 경우 다음 방법을 통해 디버그 로그를 열 수 있으므로 보내고 받는 패킷의 내용은 디버깅을 용이하게 하기 위해 화면에 출력되며, 때로는 패킷 캡처 작업을 저장할 수도 있습니다

import urllib2  
try:  
    response = urllib2.urlopen(&#39;http://bbs.csdn.net/why&#39;)  
except urllib2.HTTPError, e:  
    print e.code

이런 방법으로 전송된 패킷의 내용을 볼 수 있습니다 데이터 패킷:

[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법

9. 양식 처리

로그인 시 양식을 작성해야 합니다. 방법 양식을 작성하려고?

먼저 도구를 사용하여 작성할 양식의 내용을 가로채세요.

예를 들어 저는 보통 어떤 패키지를 보냈는지 확인하기 위해 firefox+httpfox 플러그인을 사용합니다.

verycd를 예로 들어 먼저 보낸 POST 요청과 POST 양식 항목을 찾으세요.

verycd의 경우 사용자 이름, 비밀번호, continueURI, fk, login_submit을 입력해야 하는 것을 볼 수 있습니다. 그 중 fk는 무작위로 생성됩니다(실제로는 너무 무작위가 아니며 단순히 에포크 시간을 인코딩하여 생성된 것처럼 보입니다. ) 웹페이지에서 가져와야 합니다. 즉, 먼저 웹페이지를 방문하고 정규식과 같은 도구를 사용하여 반환된 데이터에서 fk 항목을 가로채야 합니다. 이름에서 알 수 있듯이 continueURI는 아무렇게나 작성할 수 있고, login_submit은 고정되어 있어 소스 코드에서 확인할 수 있습니다. 사용자 이름과 비밀번호도 있습니다.

import urllib2  
httpHandler = urllib2.HTTPHandler(debuglevel=1)  
httpsHandler = urllib2.HTTPSHandler(debuglevel=1)  
opener = urllib2.build_opener(httpHandler, httpsHandler)  
urllib2.install_opener(opener)  
response = urllib2.urlopen(&#39;http://www.google.com&#39;)

10. 브라우저로 위장하여 액세스합니다.
일부 웹사이트는 크롤러의 방문을 혐오하여 크롤러의 요청을 거부합니다.
이에 브라우저로 Disguise가 필요한 경우 http 패키지

# -*- coding: utf-8 -*-  
import urllib  
import urllib2  
postdata=urllib.urlencode({  
    &#39;username&#39;:&#39;汪小光&#39;,  
    &#39;password&#39;:&#39;why888&#39;,  
    &#39;continueURI&#39;:&#39;http://www.verycd.com/&#39;,  
    &#39;fk&#39;:&#39;&#39;,  
    &#39;login_submit&#39;:&#39;登录&#39;  
})  
req = urllib2.Request(  
    url = &#39;http://secure.verycd.com/signin&#39;,  
    data = postdata  
)  
result = urllib2.urlopen(req)  
print result.read()

의 헤더를 수정하면 됩니다. 11. "핫링크 방지" 처리
일부 사이트에는 소위 핫링크 방지 설정이 있습니다. 사실 직설적으로 말하면 매우 간단합니다.

은 요청을 보낸 헤더의 추천 사이트가 자신의 사이트인지 확인하는 것입니다.

그래서 헤더의 참조자를 이것으로 변경하기만 하면 됩니다. cnbeta를 예로 들어 웹사이트를 사용하세요.

#…  
  
headers = {  
    &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6&#39;  
}  
req = urllib2.Request(  
    url = &#39;http://secure.verycd.com/signin/*/http://www.verycd.com/&#39;,  
    data = postdata,  
    headers = headers  
)  
#...

Headers는 dict 데이터 구조에 넣을 수 있습니다. 변장하려는 헤더.

예를 들어 일부 웹사이트에서는 실제 IP를 확인하기 위해 헤더의 X-Forwarded-For를 읽는 것을 좋아합니다. X-Forwarde-For를 직접 변경할 수 있습니다.

위는 [Python] Web Crawler (5) : urllib2 사용법과 웹사이트 크롤링 기법에 대한 자세한 내용은 PHP 중국어 홈페이지(www.php.cn)를 참고해주세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 어레이에 어떤 데이터 유형을 저장할 수 있습니까?Apr 27, 2025 am 12:11 AM

PythonlistsCanstoreAnyDatAtype, ArrayModuLearRaysStoreOneType 및 NUMPYARRAYSAREFORNUMERICALPUTATION.1) LISTSAREVERSATILEBUTLESSMEMORY-EFFICENT.2) ARRAYMODUERRAYRAYRAYSARRYSARESARESARESARESARESARESAREDOREDORY-UNFICEDONOUNEOUSDATA.3) NumpyArraysUraysOrcepperperperperperperperperperperperperperperperferperferperferferpercient

파이썬 어레이에 잘못된 데이터 유형의 값을 저장하려고하면 어떻게됩니까?Apr 27, 2025 am 12:10 AM

whenyouattempttoreavalueofthewrongdatatypeinapythonaphonarray, thisiSdueTotheArrayModule의 stricttyPeenforcement, theAllElementStobeofthesAmetypecified bythetypecode.forperformancersassion, arraysaremoreficats the thraysaremoreficats thetheperfication the thraysaremorefications는

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까?Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

스크립트가 잘못된 파이썬 버전으로 실행되는지 확인해야합니까?Apr 27, 2025 am 12:01 AM

thescriptIsrunningwithHongpyThonversionDueCorRectDefaultTerpretersEttings.tofixThis : 1) checktheDefaultPyThonVersionUsingPyThon-VersionorPyThon3- version.2) usvirtual-ErondmentsBythePython.9-Mvenvmyenv, 활성화, 및 파괴

파이썬 어레이에서 수행 할 수있는 일반적인 작업은 무엇입니까?Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousOperations : 1) SlicingExtractsSubsets, 2) 추가/확장 어드먼트, 3) 삽입 값 삽입 ATSpecificPositions, 4) retingdeletesElements, 5) 분류/ReversingChangesOrder 및 6) ListsompectionScreateNewListSbasedOnsistin

어떤 유형의 응용 프로그램에서 Numpy Array가 일반적으로 사용됩니까?Apr 26, 2025 am 12:13 AM

NumpyArraysareSentialplosplicationSefficationSefficientNumericalcomputationsanddatamanipulation. Theyarcrucialindatascience, MachineLearning, Physics, Engineering 및 Financeduetotheiribility에 대한 handlarge-scaledataefficivally. forexample, Infinancialanyaly

파이썬의 목록 위의 배열을 언제 사용 하시겠습니까?Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOveralistInpyThonWhendealingwithhomogeneousData, Performance-CriticalCode, OrinterFacingwithCcode.1) HomogeneousData : ArraysSaveMemorywithtypepletement.2) Performance-CriticalCode : arraysofferbetterporcomanceFornumericalOperations.3) Interf

모든 목록 작업은 배열에 의해 지원됩니까? 왜 또는 왜 그렇지 않습니까?Apr 26, 2025 am 12:05 AM

아니요, NOTALLLISTOPERATIONARESUPPORTEDBYARRARES, andVICEVERSA.1) ArraySDONOTSUPPORTDYNAMICOPERATIONSLIKEPENDORINSERTWITHUTRESIGING, WHITHIMPACTSPERFORMANCE.2) ListSDONOTEECONSTANTTIMECOMPLEXITEFORDITITICCESSLIKEARRAYSDO.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는