>  기사  >  백엔드 개발  >  [Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법

[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법

黄舟
黄舟원래의
2017-01-21 14:04:031090검색

앞서 urllib2에 대한 간단한 소개를 말씀드렸는데, 여기서는 urllib2의 사용법을 좀 더 자세히 설명드리겠습니다.


1. 프록시 설정

urllib2는 기본적으로 HTTP 프록시를 설정하기 위해 환경 변수 http_proxy를 사용합니다.

환경 변수의 영향을 받지 않고 프로그램에서 프록시를 명시적으로 제어하려면 프록시를 사용할 수 있습니다.

이것은 나중에 사용하기에는 매우 편리하지만 프로그램에서 두 가지 다른 프록시 설정을 사용하려는 등 더 자세한 제어를 제공할 수는 없습니다.

더 나은 접근 방식은 install_opener를 사용하여 전역 설정을 변경하는 것이 아니라 전역 urlopen 메서드 대신 오프너의 open 메서드를 직접 호출하는 것입니다.

2. 시간 초과 설정

Python 2.6 이전 버전에서는 urllib2의 API가 시간 초과 값을 설정하려면 전역 설정만 변경할 수 있습니다. 소켓 값의 시간 초과입니다.

import urllib2  
enable_proxy = True  
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})  
null_proxy_handler = urllib2.ProxyHandler({})  
if enable_proxy:  
    opener = urllib2.build_opener(proxy_handler)  
else:  
    opener = urllib2.build_opener(null_proxy_handler)  
urllib2.install_opener(opener)

Python 2.6 이후에는 urllib2.urlopen()의 timeout 매개변수를 통해 직접 시간 제한을 설정할 수 있습니다.

import urllib2  
import socket  
socket.setdefaulttimeout(10) # 10 秒钟后超时  
urllib2.socket.setdefaulttimeout(10) # 另一种方式

3. HTTP 요청에 특정 헤더를 추가합니다


헤더를 추가하려면 요청 객체를 사용해야 합니다:

import urllib2  
response = urllib2.urlopen('http://www.google.com', timeout=10)

일부 헤더, 서버 이 헤더가 확인됩니다

User-Agent: 일부 서버 또는 프록시는 이 값을 사용하여 브라우저에서 요청이 이루어졌는지 여부를 결정합니다.

Content-Type: REST 인터페이스를 사용할 때 서버는 이 값을 확인하려면 HTTP 본문의 콘텐츠를 구문 분석하는 방법을 결정하는 데 사용하세요. 일반적인 값은 다음과 같습니다.

application/xml: RESTful/SOAP 등 XML RPC 호출 시

application/json 사용: JSON RPC 호출 시
application/x-www-form-urlencoded 사용: 사용
브라우저가 웹 양식을 제출할 때 서버에서 제공하는 RESTful 또는 SOAP 서비스를 사용할 때 잘못된 Content-Type 설정으로 인해 서버가 서비스를 거부하게 됩니다.





4.Redirect

urllib2는 수동 구성 없이 기본적으로 HTTP 3XX 반환 코드에 대해 자동으로 리디렉션됩니다. 리디렉션 작업이 발생했는지 확인하려면 응답 URL과 요청 URL이 일치하는지 확인하세요.

import urllib2  
request = urllib2.Request('http://www.baidu.com/')  
request.add_header('User-Agent', 'fake-client')  
response = urllib2.urlopen(request)  
print response.read()

자동으로 리디렉션하지 않으려면 하위 수준 httplib 라이브러리를 사용하는 것 외에 HTTPRedirectHandler 클래스를 사용자 정의할 수도 있습니다.


import urllib2  
my_url = 'http://www.google.cn'  
response = urllib2.urlopen(my_url)  
redirected = response.geturl() == my_url  
print redirected  
  
my_url = 'http://rrurl.cn/b1UZuP'  
response = urllib2.urlopen(my_url)  
redirected = response.geturl() == my_url  
print redirected

5.Cookie


urllib2도 쿠키를 자동으로 처리합니다. 쿠키 항목의 값을 가져와야 하는 경우 다음을 수행할 수 있습니다.

import urllib2  
class RedirectHandler(urllib2.HTTPRedirectHandler):  
    def http_error_301(self, req, fp, code, msg, headers):  
        print "301"  
        pass  
    def http_error_302(self, req, fp, code, msg, headers):  
        print "303"  
        pass  
  
opener = urllib2.build_opener(RedirectHandler)  
opener.open('http://rrurl.cn/b1UZuP')

실행 후 Baidu 방문에 대한 쿠키 값이 출력됩니다.

6. HTTP PUT 및 DELETE 방법 사용

[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법urllib2는 HTTP GET 및 POST 방법만 지원합니다. HTTP PUT 및 DELETE를 사용하려면 하위 수준 httplib 라이브러리만 사용할 수 있습니다. 그럼에도 불구하고 다음과 같은 방법으로 urllib2가 PUT 또는 DELETE 요청을 발행하도록 활성화할 수 있습니다:

import urllib2  
import cookielib  
cookie = cookielib.CookieJar()  
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
response = opener.open('http://www.baidu.com')  
for item in cookie:  
    print 'Name = '+item.name  
    print 'Value = '+item.value

7. HTTP 반환 코드 가져오기

200 OK인 경우 urlopen을 사용하세요. HTTP 반환 코드 반환된 응답 객체의 getcode() 메서드를 사용하여 얻을 수 있습니다. 그러나 다른 반환 코드의 경우 urlopen은 예외를 발생시킵니다. 이때 예외 객체의 코드 속성을 확인하는 것이 필요합니다:

import urllib2  
request = urllib2.Request(uri, data=data)  
request.get_method = lambda: 'PUT' # or 'DELETE'  
response = urllib2.urlopen(request)

8.디버그 로그

urllib2를 사용할 경우 다음 방법을 통해 디버그 로그를 열 수 있으므로 보내고 받는 패킷의 내용은 디버깅을 용이하게 하기 위해 화면에 출력되며, 때로는 패킷 캡처 작업을 저장할 수도 있습니다

import urllib2  
try:  
    response = urllib2.urlopen('http://bbs.csdn.net/why')  
except urllib2.HTTPError, e:  
    print e.code

이런 방법으로 전송된 패킷의 내용을 볼 수 있습니다 데이터 패킷:

[Python] Web Crawler (5): urllib2 사용내역 및 웹사이트 크롤링 기법

9. 양식 처리


로그인 시 양식을 작성해야 합니다. 방법 양식을 작성하려고?

먼저 도구를 사용하여 작성할 양식의 내용을 가로채세요.

예를 들어 저는 보통 어떤 패키지를 보냈는지 확인하기 위해 firefox+httpfox 플러그인을 사용합니다.

verycd를 예로 들어 먼저 보낸 POST 요청과 POST 양식 항목을 찾으세요.

verycd의 경우 사용자 이름, 비밀번호, continueURI, fk, login_submit을 입력해야 하는 것을 볼 수 있습니다. 그 중 fk는 무작위로 생성됩니다(실제로는 너무 무작위가 아니며 단순히 에포크 시간을 인코딩하여 생성된 것처럼 보입니다. ) 웹페이지에서 가져와야 합니다. 즉, 먼저 웹페이지를 방문하고 정규식과 같은 도구를 사용하여 반환된 데이터에서 fk 항목을 가로채야 합니다. 이름에서 알 수 있듯이 continueURI는 아무렇게나 작성할 수 있고, login_submit은 고정되어 있어 소스 코드에서 확인할 수 있습니다. 사용자 이름과 비밀번호도 있습니다.

import urllib2  
httpHandler = urllib2.HTTPHandler(debuglevel=1)  
httpsHandler = urllib2.HTTPSHandler(debuglevel=1)  
opener = urllib2.build_opener(httpHandler, httpsHandler)  
urllib2.install_opener(opener)  
response = urllib2.urlopen('http://www.google.com')

10. 브라우저로 위장하여 액세스합니다.
일부 웹사이트는 크롤러의 방문을 혐오하여 크롤러의 요청을 거부합니다.
이에 브라우저로 Disguise가 필요한 경우 http 패키지

# -*- coding: utf-8 -*-  
import urllib  
import urllib2  
postdata=urllib.urlencode({  
    'username':'汪小光',  
    'password':'why888',  
    'continueURI':'http://www.verycd.com/',  
    'fk':'',  
    'login_submit':'登录'  
})  
req = urllib2.Request(  
    url = 'http://secure.verycd.com/signin',  
    data = postdata  
)  
result = urllib2.urlopen(req)  
print result.read()

의 헤더를 수정하면 됩니다. 11. "핫링크 방지" 처리
일부 사이트에는 소위 핫링크 방지 설정이 있습니다. 사실 직설적으로 말하면 매우 간단합니다.


은 요청을 보낸 헤더의 추천 사이트가 자신의 사이트인지 확인하는 것입니다.


그래서 헤더의 참조자를 이것으로 변경하기만 하면 됩니다. cnbeta를 예로 들어 웹사이트를 사용하세요.

#…  
  
headers = {  
    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
}  
req = urllib2.Request(  
    url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',  
    data = postdata,  
    headers = headers  
)  
#...

Headers는 dict 데이터 구조에 넣을 수 있습니다. 변장하려는 헤더.

예를 들어 일부 웹사이트에서는 실제 IP를 확인하기 위해 헤더의 X-Forwarded-For를 읽는 것을 좋아합니다. X-Forwarde-For를 직접 변경할 수 있습니다.

위는 [Python] Web Crawler (5) : urllib2 사용법과 웹사이트 크롤링 기법에 대한 자세한 내용은 PHP 중국어 홈페이지(www.php.cn)를 참고해주세요!


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.