python的爬蟲技術爬去糗事百科的方法詳解-Python教學-PHP中文網

首頁

後端開發

Python教學

python的爬蟲技術爬去糗事百科的方法詳解

高洛峰

Mar 20, 2017 am 09:25 AM

python爬蟲

初次學習爬蟲技術，在知乎上看瞭如何爬去糗事百科的段子，於是打算自己也做一個。

實現目標：1，爬取到糗事百科的段子

2，實現每次爬去段子，每按一次回車爬取到下一頁

#技術實現：基於python的實現，利用Requests庫，re庫，bs4庫的BeautifulSoup方法來實現的

主要內容：首先我們要理清一下爬取實現的思路，我們來建構一下主體框架。第一步我們先寫一個利用Requests庫來獲取網頁的方法，第二步我們利用bs4庫的BeautifulSoup方法來分析所獲取的網頁信息並利用正則表達式來匹配相關的段子信息。第三步我們來列印出所獲得的資訊。以上方法我們都透過一個主函數來執行。

一，先導入相關的函式庫

import requests
from bs4 import BeautifulSoup
import bs4
import  re

二，先進行網頁資訊的取得

def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

三，把資訊放到r後再進行解析

soup = BeautifulSoup(html,"html.parser")

我們需要的是段子的內容和發佈人，透過網頁的查看源代碼我們知道段子的發佈人在：

'p', attrs={'class': 'content'}中

段子的內容在

'p', attrs={'class': 'author clearfix'}中

所以我們通過bs4庫的方法來提取這兩個標籤的具體內容

def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('p', attrs={'class': 'content'})
        ll = soup.find_all('p', attrs={'class': 'author clearfix'})

然後通過具體到正則表達式來獲取信息

for sp in a:
    patten = re.compile(r'<span>(.*?)</span>',re.S)
    Info = re.findall(patten,str(sp))
    lis.append(Info)
    count = count + 1
for mc in ll:
    namePatten = re.compile(r'<h2 id="">(.*?)</h2>', re.S)
    d = re.findall(namePatten, str(mc))
    li.append(d)

我們需要注意的是使用find_all以及re的findall方法返回的都是一個列表，使用正規表示式時我們只是粗略提取並沒有把標籤中的換行符去掉

#接下來我們只需要把2個列表的內容進行組合輸出就可以了

def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)

然後我做一個輸入控制函數，輸入Q返回錯誤，退出，輸入回車返回正確，進行下一頁段子的加載

def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True

我們透過主函數來實現所輸入的控制，如果控制函數回傳的是錯誤就不執行輸出，如果回傳的是正確就繼續輸出。我們透過一個for迴圈來進行載入下一頁。

def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break

這裡我們需要注意到是每一次for迴圈都會刷新一次lis【】和li【】，這樣每次都可以正確輸出該網頁的段子內容

一下為原始碼：

import requests
from bs4 import BeautifulSoup
import bs4
import  re
def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('p', attrs={'class': 'content'})
        ll = soup.find_all('p', attrs={'class': 'author clearfix'})
        for sp in a:
            patten = re.compile(r'(.*?)',re.S)
            Info = re.findall(patten,str(sp))
            lis.append(Info)
            count = count + 1
        for mc in ll:
            namePatten = re.compile(r'(.*?)', re.S)
            d = re.findall(namePatten, str(mc))
            li.append(d)
    except:
        return ""
    return count
def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)
def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True
def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break
main()

第一次做還是有很多可以優化的地方希望大家可以指出來。

以上是python的爬蟲技術爬去糗事百科的方法詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

學習Python：2小時的每日學習是否足夠？Apr 18, 2025 am 12:22 AM

每天學習Python兩個小時是否足夠？這取決於你的目標和學習方法。 1)制定清晰的學習計劃，2)選擇合適的學習資源和方法，3)動手實踐和復習鞏固，可以在這段時間內逐步掌握Python的基本知識和高級功能。

Web開發的Python：關鍵應用程序Apr 18, 2025 am 12:20 AM

Python在Web開發中的關鍵應用包括使用Django和Flask框架、API開發、數據分析與可視化、機器學習與AI、以及性能優化。 1.Django和Flask框架：Django適合快速開發複雜應用，Flask適用於小型或高度自定義項目。 2.API開發：使用Flask或DjangoRESTFramework構建RESTfulAPI。 3.數據分析與可視化：利用Python處理數據並通過Web界面展示。 4.機器學習與AI：Python用於構建智能Web應用。 5.性能優化：通過異步編程、緩存和代碼優

Python vs.C：探索性能和效率Apr 18, 2025 am 12:20 AM

Python在開發效率上優於C ，但C 在執行性能上更高。 1.Python的簡潔語法和豐富庫提高開發效率。 2.C 的編譯型特性和硬件控制提升執行性能。選擇時需根據項目需求權衡開發速度與執行效率。

python在行動中：現實世界中的例子Apr 18, 2025 am 12:18 AM

Python在現實世界中的應用包括數據分析、Web開發、人工智能和自動化。 1)在數據分析中，Python使用Pandas和Matplotlib處理和可視化數據。 2)Web開發中，Django和Flask框架簡化了Web應用的創建。 3)人工智能領域，TensorFlow和PyTorch用於構建和訓練模型。 4)自動化方面，Python腳本可用於復製文件等任務。