urllib2는 Python2.7과 함께 제공되는 모듈입니다(다운로드할 필요 없이 가져와서 사용하기만 하면 됩니다).
urllib2 라이브러리의 기본 사용
소위 웹 페이지 크롤링은 URL 주소에 지정된 네트워크 리소스를 네트워크 스트림에서 읽어 로컬에 저장하는 것입니다. Python에는 웹 페이지를 크롤링하는 데 사용할 수 있는 많은 라이브러리가 있습니다. 먼저 urllib2를 배워 보겠습니다.
urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https://docs.python.org/2/library/urllib2.html urllib2 源码:https://hg.python.org/cpython/file/2.7/Lib/urllib2.py
urllib2는 python3에서 urllib.request
urlopen
으로 변경되었습니다. 컴퓨터에서 Baidu 홈페이지를 열고 마우스 오른쪽 버튼을 클릭한 후 "소스 코드 보기"를 선택하면 정확히 동일한 것을 확인할 수 있습니다. 방금 인쇄했습니다. 즉, 위의 4줄의 코드는 Baidu 홈페이지의 모든 코드를 크롤링하는 데 도움이 되었습니다.
기본 URL 요청에 해당하는 Python 코드는 정말 매우 간단합니다.
Request첫 번째 예에서 urlopen()의 매개 변수는 URL 주소입니다. 그러나 HTTP 헤더 추가와 같은 더 복잡한 작업을 수행해야 하는 경우 urlopen( ); 액세스해야 하는 URL 주소는 요청 인스턴스의 매개변수로 사용됩니다.
urllib2_request.py를 편집했습니다
# urllib2_urlopen.py # 导入urllib2 库 import urllib2 # 向指定的url发送请求,并返回服务器响应的类文件对象 response = urllib2.urlopen("http://www.baidu.com") # 类文件对象支持 文件对象的操作方法,如read()方法读取文件全部内容,返回字符串 html = response.read() # 打印字符串 print html
실행 결과는 완전히 같습니다:
Power@PowerMac ~$: python urllib2_urlopen.pyUser-Agent
하지만 urllib2를 직접 사용하여 웹사이트에 요청을 보내는 경우에는 실제로 약간 갑작스럽습니다. 다들 그렇듯 집집마다 문이 있으니 그냥 지나가던 사람처럼 끼어드는 건 예의가 아닌 게 분명해요. 또한 일부 사이트는 프로그램의 방문(사람이 아닌 방문)을 좋아하지 않으며 귀하의 액세스 요청을 거부할 수도 있습니다. 그러나 다른 사람의 웹사이트를 요청하기 위해 법적 ID를 사용한다면 그들은 분명히 이를 환영할 것이므로 소위 User-Agent 헤더라고 하는 코드에 ID를 추가해야 합니다.
브라우저는 인터넷 세계에서 인정되고 허용되는 ID입니다. 크롤러 프로그램이 실제 사용자와 유사해지기를 원한다면 첫 번째 단계는 인식된 브라우저인 것처럼 가장하는 것입니다. 요청을 보낼 때 브라우저마다 User-Agent 헤더가 다릅니다. urllib2의 기본 User-Agent 헤더는 다음과 같습니다. Python-urllib/x.y(x와 y는 Python-urllib/2.7과 같은 Python 주 및 부 버전 번호입니다)# urllib2_request.py import urllib2 # url 作为Request()方法的参数,构造并返回一个Request对象 request = urllib2.Request("http://www.baidu.com") # Request对象作为urlopen()方法的参数,发送给服务器并接收响应 response = urllib2.urlopen(request) html = response.read() print html
HTTP에서 더 많은 헤더 정보 추가
완전한 HTTP 요청 메시지를 구성하려면 요청에 특정 헤더를 추가하세요.
Request.add_header()를 호출하여 특정 헤더를 추가/수정하거나 Request.get_header()를 호출하여 기존 헤더를 볼 수 있습니다.특정 헤더 추가
新建Request实例,除了必须要有 url 参数之外,还可以设置另外两个参数: data(默认空):是伴随 url 提交的数据(比如要post的数据),同时 HTTP 请求将从 "GET"方式 改为 "POST"方式。 headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对。 这两个参数下面会说到。
User-Agent를 임의로 추가/수정
#urllib2_useragent.py import urllib2 url = "http://www.itcast.cn" #IE 9.0 的 User-Agent,包含在 ua_header里 ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} # url 连同 headers,一起构造Request请求,这个请求将附带 IE9.0 浏览器的User-Agent request = urllib2.Request(url, headers = ua_header) # 向服务器发送这个请求 response = urllib2.urlopen(request) html = response.read() print html
관련 튜토리얼 권장 사항: Python 비디오 튜토리얼
위 내용은 Python에 urllib2 라이브러리를 설치하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于Seaborn的相关问题,包括了数据可视化处理的散点图、折线图、条形图等等内容,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于进程池与进程锁的相关问题,包括进程池的创建模块,进程池函数等等内容,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于简历筛选的相关问题,包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容,下面一起来看一下,希望对大家有帮助。

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件,能够让原本单薄的VS Code如虎添翼,开发效率顿时提升到一个新的阶段。

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间,Guido van Rossum在家闲的没事干,为了跟朋友庆祝圣诞节,决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python,所以便把这门语言叫做python。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于数据类型之字符串、数字的相关问题,下面一起来看一下,希望对大家有帮助。

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于numpy模块的相关问题,Numpy是Numerical Python extensions的缩写,字面意思是Python数值计算扩展,下面一起来看一下,希望对大家有帮助。


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음
