>  기사  >  백엔드 개발  >  urllib.request 라이브러리 사용의 기본 사항

urllib.request 라이브러리 사용의 기본 사항

巴扎黑
巴扎黑원래의
2017-07-18 13:50:492985검색

소위 웹 페이지 크롤링은 URL 주소에 지정된 네트워크 리소스를 네트워크 스트림에서 읽어 로컬에 저장하는 것입니다. Python에는 웹 페이지를 크롤링하는 데 사용할 수 있는 많은 라이브러리가 있습니다. 먼저 urllib.request를 배워보겠습니다. (python2의 urllib2. 출력 결과는 위 프로그램을 실행했을 때와 정확히 동일합니다. 즉, 위의 몇 줄의 코드는 Baidu 홈페이지의 모든 코드를 크롤링하는 데 도움이 되었습니다.

Reuqest

위의 예에서 urlopen()의 매개변수는 URL 주소입니다.

그러나 HTTP 헤더 추가와 같은 더 복잡한 작업을 수행해야 하는 경우 urlopen()의 매개 변수로 Request 인스턴스를 생성하고, Request 인스턴스의 매개 변수로 액세스해야 하는 URL 주소를 생성해야 합니다.

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

# 导入urllib.request库
import urllib.request

# 向指定的url发送请求,并返回服务器响应的类文件对象
response = urllib.request.urlopen("http://www.baidu.com/")

# 类文件对象支持 文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read()

# 打印字符串
print(html)

실행 결과는 정확히 동일합니다.

url 매개변수 외에도 새 요청 인스턴스는 두 개의 다른 매개변수도 설정할 수 있습니다.

1.data(기본값은 비어 있음): 함께 제공되는 URL입니다. 데이터(예: 게시 데이터) 및 HTTP 요청이 "GET"에서 "POST"로 변경됩니다.

2.headers(기본적으로 비어 있음): 전송해야 하는 HTTP 헤더의 키-값 쌍이 포함된 사전입니다.

User-Agent

크롤러 프로그램이 실제 사용자와 유사해지기를 원한다면, 첫 번째 단계는 인식된 브라우저인 것처럼 가장하는 것입니다. 요청을 보낼 때 브라우저마다 User-Agent 헤더가 다릅니다. urllib.request의 기본 User-Agent 헤더는 다음과 같습니다. Python-urllib/x.y(x와 y는 Python-urllib/3.5와 같은 Python 주 및 부 버전 번호입니다.)

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

# 导入urllib.request库
import urllib.request

# url 作为Request()方法的参数,构造并返回一个Request对象
request = urllib.request.Request("http://www.baidu.com/")

# 向服务器发送这个请求
response = urllib.request.urlopen(request)

html = response.read()

print(html)

Add more Header information

완전한 HTTP 요청 메시지를 구성하려면 HTTP 요청에 특정 헤더를 추가하세요.

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

# 导入urllib.request库
import urllib.request

# chrome 的 User-Agent,包含在 header里
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

# url 连同 headers,一起构造Request请求,这个请求将附带 chrome 浏览器的User-Agent
request = urllib.request.Request("http://www.baidu.com/", headers = header)

# 向服务器发送这个请求
response = urllib.request.urlopen(request)

html = response.read()

print(html)

특정 헤더 추가

可以通过调用Request.add_header() 添加/修改一个特定的header
也可以通过调用Request.get_header()来查看已有的header。

위 내용은 urllib.request 라이브러리 사용의 기본 사항의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.