爬虫能获取什么样的数据和具体的解析方式-Python教程-PHP中文网

首页

后端开发

Python教程

爬虫能获取什么样的数据和具体的解析方式

爱喝马黛茶的安东尼

Jun 05, 2019 am 11:12 AM

python数据爬虫

随着互联网的飞速发展，越来越多的数据充斥着这个时代。而获取和处理数据就成为我们生活中必不可少的部分，爬虫也是应运而生。

众多语言都能进行爬虫，但基于python的爬虫显得更加简洁，方便。爬虫也成了python语言中必不可少的一部分。那我们通过爬虫可以获取什么样的数据呢？又有什么样的解析方式呢？

在上一篇给大家介绍的是爬虫基本流程Request和Response的介绍，本篇给大家带来的是爬虫可以获取什么样的数据和它的具体解析方式。

能抓到什么样的数据？

网页文本：如 HTML 文档，Ajax加载的Json格式文本等；

图片，视频等：获取到的是二进制文件，保存为图片或视频格式；

其他只要能请求到的，都能获取。

演示

import requests
 
headers = {&#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36&#39;}
resp = requests.get(&#39;http://www.baidu.com/img/baidu_jgylogo3.gif&#39;,headers=headers)
print(resp.content) # 二进制文件使用content
# 保存图片
with open(&#39;logo.gif&#39;,&#39;wb&#39;) as f:
    f.write(resp.content)
    print(&#39;Ok&#39;)

成功运行就可以看到打印出来的图片的二进制数据，可保存成功后打印的 OK，这个时候我们打开文件夹就可以看到下载下来的图片了。这几行代码就简单的演示了爬虫保存文件的过程。

解析方式有哪些？

直接处理，比如简单的页面文档，只要去除一些空格的数据；

Json解析，处理Ajax加载的页面；

正则表达式；

BeautifulSoup库；

PyQuery；

XPath。

总结

看到这里，大家是不是已经对爬虫的基本工作原理有了清晰的认识了呢。当然，罗马并不是一天建成的，只要积累了足够多的经验，大家肯定能成为爬虫大神的。相信大家把我分享的相关资料看完，一定会成功的。

以上是爬虫能获取什么样的数据和具体的解析方式的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：CSDN。如有侵权，请联系admin@php.cn删除

您如何切成python列表？May 02, 2025 am 12:14 AM

SlicingaPythonlistisdoneusingthesyntaxlist[start:stop:step].Here'showitworks:1)Startistheindexofthefirstelementtoinclude.2)Stopistheindexofthefirstelementtoexclude.3)Stepistheincrementbetweenelements.It'susefulforextractingportionsoflistsandcanuseneg

在Numpy阵列上可以执行哪些常见操作？May 02, 2025 am 12:09 AM

numpyallowsforvariousoperationsonArrays：1）basicarithmeticlikeaddition，减法，乘法和division; 2）evationAperationssuchasmatrixmultiplication; 3）element-wiseOperations wiseOperationswithOutexpliitloops; 4）

Python的数据分析中如何使用阵列？May 02, 2025 am 12:09 AM

Arresinpython，尤其是Throughnumpyandpandas，weessentialFordataAnalysis，offeringSpeedAndeffied.1）NumpyArseNable efflaysenable efficefliceHandlingAtaSetSetSetSetSetSetSetSetSetSetSetsetSetSetSetSetsopplexoperationslikemovingaverages.2）

列表的内存足迹与python数组的内存足迹相比如何？May 02, 2025 am 12:08 AM

列表sandnumpyArraysInpyThonHavedIfferentMemoryfootprints：listSaremoreFlexibleButlessMemory-效率，而alenumpyArraySareSareOptimizedFornumericalData.1）listsStorReereReereReereReereFerenceStoObjects，withoverHeadeBheadaroundAroundaroundaround64bytaround64bitson64-bitsysysysyssyssyssyssyssyssysssys2）

部署可执行的Python脚本时，如何处理特定环境的配置？May 02, 2025 am 12:07 AM

toensurepythonscriptsbehavecorrectlyacrycrossdevelvermations，登台和生产，USETHESTERTATE：1）Environment varriablesforsimplesettings，2）configurationFilesForefilesForcomPlexSetups，3）dynamiCofforAdaptapity.eachmethodofferSuniquebeneiquebeneiquebeneniqueBenefitsaniqueBenefitsandrefitsandRequiresandRequireSandRequireSca

您如何切成python阵列？May 01, 2025 am 12:18 AM

Python列表切片的基本语法是list[start:stop:step]。1.start是包含的第一个元素索引，2.stop是排除的第一个元素索引，3.step决定元素之间的步长。切片不仅用于提取数据，还可以修改和反转列表。

在什么情况下，列表的表现比数组表现更好？May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin：1）DynamicsizicsizingandFrequentInsertions/删除，2）储存的二聚体和3）MemoryFeliceFiceForceforseforsparsedata，butmayhaveslightperformancecostsinclentoperations。

如何将Python数组转换为Python列表？May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist，usEthelist（）constructororageneratorexpression.1）intimpthearraymoduleandcreateanArray.2）USELIST（ARR）或[XFORXINARR] to ConconverTittoalist，请考虑performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

See all articles