Python爬虫：HTTP协议、Requests库-Python教程-PHP中文网

首页

后端开发

Python教程

Python爬虫：HTTP协议、Requests库

巴扎黑

Jun 23, 2017 pm 04:25 PM

httppythonrequests协议爬虫

HTTP协议：

HTTP（Hypertext Transfer Protocol）：即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

HTTP协议对资源的操作：

Requests库提供了HTTP所有的基本请求方式。官方介绍：

Requests库的6个主要方法：

Requests库的异常：

Requests库的两个重要对象：Request（请求）、Response（相应）。Request对象支持多种请求方法；Response对象包含服务器返回的所有信息，也包含请求的Request信息。

Response对象的属性：

其中，r.encoding指：如果header中不存在charset，则认为编码为ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等于200。

HTTP协议与Requests库对比：

爬取网页的通用代码框架：

1 try:2     r = requests.get(url,timeout = 30)3     r.raise_for_status()4     # 如果状态不是200，引发HTTPError异常5     r.encoding = r.apparent_encoding6     return r.text7 except:8     return '产生异常'

例如，获取PMCAFF首页的信息：

 1 import requests 2  3 def getHtmlText(url): 4     try: 5         r = requests.get(url,timeout = 30) 6         r.raise_for_status() 7         r.encoding = r.apparent_encoding 8         return r.text 9     except:10         return '产生异常'11 12 if __name__ == '__main__':13     url = ''14     print(getHtmlText(url))

爬取网页的通用代码框架：操作环境：Mac，Python 3.6，PyCharm 2016.2

参考资料：中国大学MOOC课程《Python网络爬虫与信息提取》

----- End -----

作者：杜王丹，微信公众号：杜王丹，互联网产品经理。

以上是Python爬虫：HTTP协议、Requests库的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您如何切成python列表？May 02, 2025 am 12:14 AM

SlicingaPythonlistisdoneusingthesyntaxlist[start:stop:step].Here'showitworks:1)Startistheindexofthefirstelementtoinclude.2)Stopistheindexofthefirstelementtoexclude.3)Stepistheincrementbetweenelements.It'susefulforextractingportionsoflistsandcanuseneg

在Numpy阵列上可以执行哪些常见操作？May 02, 2025 am 12:09 AM

numpyallowsforvariousoperationsonArrays：1）basicarithmeticlikeaddition，减法，乘法和division; 2）evationAperationssuchasmatrixmultiplication; 3）element-wiseOperations wiseOperationswithOutexpliitloops; 4）

Python的数据分析中如何使用阵列？May 02, 2025 am 12:09 AM

Arresinpython，尤其是Throughnumpyandpandas，weessentialFordataAnalysis，offeringSpeedAndeffied.1）NumpyArseNable efflaysenable efficefliceHandlingAtaSetSetSetSetSetSetSetSetSetSetSetsetSetSetSetSetsopplexoperationslikemovingaverages.2）

列表的内存足迹与python数组的内存足迹相比如何？May 02, 2025 am 12:08 AM

列表sandnumpyArraysInpyThonHavedIfferentMemoryfootprints：listSaremoreFlexibleButlessMemory-效率，而alenumpyArraySareSareOptimizedFornumericalData.1）listsStorReereReereReereReereFerenceStoObjects，withoverHeadeBheadaroundAroundaroundaround64bytaround64bitson64-bitsysysysyssyssyssyssyssyssysssys2）

部署可执行的Python脚本时，如何处理特定环境的配置？May 02, 2025 am 12:07 AM

toensurepythonscriptsbehavecorrectlyacrycrossdevelvermations，登台和生产，USETHESTERTATE：1）Environment varriablesforsimplesettings，2）configurationFilesForefilesForcomPlexSetups，3）dynamiCofforAdaptapity.eachmethodofferSuniquebeneiquebeneiquebeneniqueBenefitsaniqueBenefitsandrefitsandRequiresandRequireSandRequireSca

您如何切成python阵列？May 01, 2025 am 12:18 AM

Python列表切片的基本语法是list[start:stop:step]。1.start是包含的第一个元素索引，2.stop是排除的第一个元素索引，3.step决定元素之间的步长。切片不仅用于提取数据，还可以修改和反转列表。

在什么情况下，列表的表现比数组表现更好？May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin：1）DynamicsizicsizingandFrequentInsertions/删除，2）储存的二聚体和3）MemoryFeliceFiceForceforseforsparsedata，butmayhaveslightperformancecostsinclentoperations。

如何将Python数组转换为Python列表？May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist，usEthelist（）constructororageneratorexpression.1）intimpthearraymoduleandcreateanArray.2）USELIST（ARR）或[XFORXINARR] to ConconverTittoalist，请考虑performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

See all articles