Python网络爬虫实例讲解-Python教程-PHP中文网

首页

后端开发

Python教程

Python网络爬虫实例讲解

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2016 pm 03:05 PM

python网络爬虫

聊一聊Python与网络爬虫。

1、爬虫的定义

爬虫：自动抓取互联网数据的程序。

2、爬虫的主要框架

爬虫程序的主要框架如上图所示，爬虫调度端通过URL管理器获取待爬取的URL链接，若URL管理器中存在待爬取的URL链接，爬虫调度器调用网页下载器下载相应网页，然后调用网页解析器解析该网页，并将该网页中新的URL添加到URL管理器中，将有价值的数据输出。

3、爬虫的时序图

4、URL管理器

URL管理器管理待抓取的URL集合和已抓取的URL集合，防止重复抓取与循环抓取。URL管理器的主要职能如下图所示：

URL管理器在实现方式上，Python中主要采用内存(set)、和关系数据库(MySQL)。对于小型程序，一般在内存中实现，Python内置的set()类型能够自动判断元素是否重复。对于大一点的程序，一般使用数据库来实现。

5、网页下载器

Python中的网页下载器主要使用urllib库，这是python自带的模块。对于2.x版本中的urllib2库，在python3.x中集成到urllib中，在其request等子模块中。urllib中的urlopen函数用于打开url，并获取url数据。urlopen函数的参数可以是url链接，也可以使request对象，对于简单的网页，直接使用url字符串做参数就已足够，但对于复杂的网页，设有防爬虫机制的网页，再使用urlopen函数时，需要添加http header。对于带有登录机制的网页，需要设置cookie。

6、网页解析器

网页解析器从网页下载器下载到的url数据中提取有价值的数据和新的url。对于数据的提取，可以使用正则表达式和BeautifulSoup等方法。正则表达式使用基于字符串的模糊匹配，对于特点比较鲜明的目标数据具有较好的作用，但通用性不高。BeautifulSoup是第三方模块，用于结构化解析url内容。将下载到的网页内容解析为DOM树，下图为使用BeautifulSoup打印抓取到的百度百科中某网页的输出的一部分。

关于BeautifulSoup的具体使用，在以后的文章中再写。下面的代码使用python抓取百度百科中英雄联盟词条中的其他与英雄联盟相关的词条，并将这些词条保存在新建的excel中。上代码：

from bs4 import BeautifulSoup 
import re 
import xlrd 
<span style="font-size:18px;">import xlwt 
from urllib.request import urlopen 
 
 
 
excelFile=xlwt.Workbook() 
sheet=excelFile.add_sheet('league of legend') 
## 百度百科：英雄联盟## 
html=urlopen("http://baike.baidu.com/subview/3049782/11262116.htm") 
bsObj=BeautifulSoup(html.read(),"html.parser") 
#print(bsObj.prettify()) 
 
row=0 
 
for node in bsObj.find("div",{"class":"main-content"}).findAll("div",{"class":"para"}): 
  links=node.findAll("a",href=re.compile("^(/view/)[0-9]+\.htm$")) 
  for link in links: 
    if 'href' in link.attrs: 
      print(link.attrs['href'],link.get_text()) 
      sheet.write(row,0,link.attrs['href']) 
      sheet.write(row,1,link.get_text()) 
      row=row+1 
 
 
excelFile.save('E:\Project\Python\lol.xls')</span>

输出的部分截图如下：

excel部分的截图如下：

以上就是本文的全部内容，希望对大家学习Python网络爬虫有所帮助。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python是否列表动态阵列或引擎盖下的链接列表？May 07, 2025 am 12:16 AM

pythonlistsareimplementedasdynamicarrays，notlinkedlists.1）他们areStoredIncoNtiguulMemoryBlocks，mayrequireRealLealLocationWhenAppendingItems，EmpactingPerformance.2）LinkesedlistSwoldOfferefeRefeRefeRefeRefficeInsertions/DeletionsButslowerIndexeDexedAccess，Lestpypytypypytypypytypy

如何从python列表中删除元素？May 07, 2025 am 12:15 AM

pythonoffersFourmainMethodStoreMoveElement Fromalist：1）删除（值）emovesthefirstoccurrenceofavalue，2）pop（index）emovesanderturnsanelementataSpecifiedIndex，3）delstatementremoveselemsbybybyselementbybyindexorslicebybyindexorslice，and 4）

试图运行脚本时，应该检查是否会遇到'权限拒绝”错误？May 07, 2025 am 12:12 AM

toresolvea“ dermissionded”错误Whenrunningascript，跟随台词：1）CheckAndAdjustTheScript'Spermissions ofchmod xmyscript.shtomakeitexecutable.2）nesureThEseRethEserethescriptistriptocriptibationalocatiforecationAdirectorywherewhereyOuhaveWritePerMissionsyOuhaveWritePermissionsyYouHaveWritePermissions，susteSyAsyOURHomeRecretectory。

与Python的图像处理中如何使用阵列？May 07, 2025 am 12:04 AM

ArraysarecrucialinPythonimageprocessingastheyenableefficientmanipulationandanalysisofimagedata.1)ImagesareconvertedtoNumPyarrays,withgrayscaleimagesas2Darraysandcolorimagesas3Darrays.2)Arraysallowforvectorizedoperations,enablingfastadjustmentslikebri

对于哪些类型的操作，阵列比列表要快得多？May 07, 2025 am 12:01 AM

ArraySaresificatificallyfasterthanlistsForoperationsBenefiting fromDirectMemoryAcccccccCesandFixed-Sizestructures.1）conscessingElements：arraysprovideconstant-timeaccessduetocontoconcotigunmorystorage.2）iteration：araysleveragececacelocality.3）

说明列表和数组之间元素操作的性能差异。May 06, 2025 am 12:15 AM

ArraySareBetterForlement-WiseOperationsDuetofasterAccessCessCessCessCessCessAndOptimizedImplementations.1）ArrayshaveContiguucuulmemoryfordirectAccesscess.2）列出sareflexible butslible dueTopotentEnallymideNamicizing.3）forlarargedAtaTasetsetsetsetsetsetsetsetsetsetsetlib

如何有效地对整个Numpy阵列进行数学操作？May 06, 2025 am 12:15 AM

在NumPy中进行整个数组的数学运算可以通过向量化操作高效实现。 1)使用简单运算符如加法（arr 2）可对数组进行运算。 2)NumPy使用C语言底层库，提升了运算速度。 3)可以进行乘法、除法、指数等复杂运算。 4)需注意广播操作，确保数组形状兼容。 5)使用NumPy函数如np.sum()能显着提高性能。

您如何将元素插入python数组中？May 06, 2025 am 12:14 AM

在Python中，向列表插入元素有两种主要方法：1)使用insert(index,value)方法，可以在指定索引处插入元素，但在大列表开头插入效率低；2)使用append(value)方法，在列表末尾添加元素，效率高。对于大列表，建议使用append()或考虑使用deque或NumPy数组来优化性能。

See all articles