python的爬虫技术爬去糗事百科的的方法详解-Python教程-PHP中文网

首页

后端开发

Python教程

python的爬虫技术爬去糗事百科的的方法详解

高洛峰

Mar 20, 2017 am 09:25 AM

蟒蛇爬行动物

初次学习爬虫技术，在知乎上看了如何爬去糗事百科的段子，于是打算自己也做一个。

实现目标：1，爬取到糗事百科的段子

2，实现每次爬去一个段子，每按一次回车爬取到下一页

技术实现：基于python的实现，利用Requests库，re库，bs4库的BeautifulSoup方法来实现的

主要内容：首先我们要理清一下爬取实现的思路，我们来构建一下主体框架。第一步我们先写一个利用Requests库来获取网页的方法，第二步我们利用bs4库的BeautifulSoup方法来分析所获取的网页信息并利用正则表达式来匹配相关的段子信息。第三步我们来打印出获得的信息。以上方法我们都通过一个主函数来进行执行。

一，首先导入相关的库

import requests
from bs4 import BeautifulSoup
import bs4
import  re

二，首先进行网页信息的获取

def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

三，把信息放到r后再进行解析

soup = BeautifulSoup(html,"html.parser")

我们需要的是段子的内容和发布人，通过网页的查看源代码我们知道段子的发布人在：

'p', attrs={'class': 'content'}中

段子的内容在

'p', attrs={'class': 'author clearfix'}中

所以我们通过bs4库的方法来提取这两个标签的具体内容

def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('p', attrs={'class': 'content'})
        ll = soup.find_all('p', attrs={'class': 'author clearfix'})

然后通过具体到正则表达式来获取信息

for sp in a:
    patten = re.compile(r'<span>(.*?)</span>',re.S)
    Info = re.findall(patten,str(sp))
    lis.append(Info)
    count = count + 1
for mc in ll:
    namePatten = re.compile(r'<h2>(.*?)</h2>', re.S)
    d = re.findall(namePatten, str(mc))
    li.append(d)

我们需要注意的是使用find_all以及re的findall方法返回的都是一个列表，使用正则表达式时我们只是粗略提取并没有把标签中的换行符去掉

接下来我们只需要把2个列表的内容进行组合输出就可以了

def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)

然后我做一个输入控制函数，输入Q返回错误，退出，输入回车返回正确，进行下一页段子的加载

def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True

我们通过主函数来实现所输入的控制，如果控制函数返回的是错误就不执行输出，如果返回的是正确就继续输出。我们通过一个for循环来进行加载下一页。

def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break

这里我们需要注意到是每一次for循环都会刷新一次lis【】和li【】，这样每次都可以正确输出该网页的段子内容

一下为源代码：

import requests
from bs4 import BeautifulSoup
import bs4
import  re
def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('p', attrs={'class': 'content'})
        ll = soup.find_all('p', attrs={'class': 'author clearfix'})
        for sp in a:
            patten = re.compile(r'(.*?)',re.S)
            Info = re.findall(patten,str(sp))
            lis.append(Info)
            count = count + 1
        for mc in ll:
            namePatten = re.compile(r'(.*?)', re.S)
            d = re.findall(namePatten, str(mc))
            li.append(d)
    except:
        return ""
    return count
def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)
def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True
def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break
main()

第一次做还是有很多可以优化的地方希望大家可以指出来。

以上是python的爬虫技术爬去糗事百科的的方法详解的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您如何切成python列表？May 02, 2025 am 12:14 AM

SlicingaPythonlistisdoneusingthesyntaxlist[start:stop:step].Here'showitworks:1)Startistheindexofthefirstelementtoinclude.2)Stopistheindexofthefirstelementtoexclude.3)Stepistheincrementbetweenelements.It'susefulforextractingportionsoflistsandcanuseneg

在Numpy阵列上可以执行哪些常见操作？May 02, 2025 am 12:09 AM

numpyallowsforvariousoperationsonArrays：1）basicarithmeticlikeaddition，减法，乘法和division; 2）evationAperationssuchasmatrixmultiplication; 3）element-wiseOperations wiseOperationswithOutexpliitloops; 4）

Python的数据分析中如何使用阵列？May 02, 2025 am 12:09 AM

Arresinpython，尤其是Throughnumpyandpandas，weessentialFordataAnalysis，offeringSpeedAndeffied.1）NumpyArseNable efflaysenable efficefliceHandlingAtaSetSetSetSetSetSetSetSetSetSetSetsetSetSetSetSetsopplexoperationslikemovingaverages.2）

列表的内存足迹与python数组的内存足迹相比如何？May 02, 2025 am 12:08 AM

列表sandnumpyArraysInpyThonHavedIfferentMemoryfootprints：listSaremoreFlexibleButlessMemory-效率，而alenumpyArraySareSareOptimizedFornumericalData.1）listsStorReereReereReereReereFerenceStoObjects，withoverHeadeBheadaroundAroundaroundaround64bytaround64bitson64-bitsysysysyssyssyssyssyssyssysssys2）

部署可执行的Python脚本时，如何处理特定环境的配置？May 02, 2025 am 12:07 AM

toensurepythonscriptsbehavecorrectlyacrycrossdevelvermations，登台和生产，USETHESTERTATE：1）Environment varriablesforsimplesettings，2）configurationFilesForefilesForcomPlexSetups，3）dynamiCofforAdaptapity.eachmethodofferSuniquebeneiquebeneiquebeneniqueBenefitsaniqueBenefitsandrefitsandRequiresandRequireSandRequireSca

您如何切成python阵列？May 01, 2025 am 12:18 AM

Python列表切片的基本语法是list[start:stop:step]。1.start是包含的第一个元素索引，2.stop是排除的第一个元素索引，3.step决定元素之间的步长。切片不仅用于提取数据，还可以修改和反转列表。

在什么情况下，列表的表现比数组表现更好？May 01, 2025 am 12:06 AM

ListSoutPerformarRaysin：1）DynamicsizicsizingandFrequentInsertions/删除，2）储存的二聚体和3）MemoryFeliceFiceForceforseforsparsedata，butmayhaveslightperformancecostsinclentoperations。

如何将Python数组转换为Python列表？May 01, 2025 am 12:05 AM

toConvertapythonarraytoalist，usEthelist（）constructororageneratorexpression.1）intimpthearraymoduleandcreateanArray.2）USELIST（ARR）或[XFORXINARR] to ConconverTittoalist，请考虑performorefformanceandmemoryfformanceandmemoryfformienceforlargedAtasetset。

See all articles