Python網路爬蟲功能的基本寫法介紹-Python教學-PHP中文網

首頁

後端開發

Python教學

Python網路爬蟲功能的基本寫法介紹

高洛峰

Mar 13, 2017 pm 06:12 PM

這篇文章主要介紹了Python網路爬蟲功能的基本寫法，網路爬蟲，即Web Spider，是一個很形象的名字。把網路比喻成蜘蛛網，那麼Spider就是在網路上爬來爬去的蜘蛛，對網路爬蟲有興趣的朋友可以參考本文

網路爬蟲，也就是Web Spider，是一個很形象的名字。把網路比喻成蜘蛛網，那麼Spider就是在網路上爬來爬去的蜘蛛。

1. 網路爬蟲的定義

網路蜘蛛是透過網頁的連結位址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它鏈接地址，然後通過這些鏈接地址尋找下一個網頁，這樣一直循環下去，直到把這個網站所有的網頁都抓完為止。如果把整個網路當成一個網站，那麼網路蜘蛛就可以用這個原理把網路上所有的網頁都抓取下來。這樣看來，網路爬蟲就是一個爬行程序，一個抓取網頁的程式。網路爬蟲的基本操作是抓取網頁。

2. 瀏覽網頁的過程

抓取網頁的過程其實和讀者平時使用IE瀏覽器瀏覽網頁的道理是一樣的。例如你在瀏覽器的網址列輸入 www.baidu.com 這個位址。

打開網頁的過程其實就是瀏覽器作為一個瀏覽的“客戶端”，向伺服器端發送了一次請求，把伺服器端的文件“抓”到本地，再進行解釋、展現。

HTML是一種標記語言，用標籤標記內容並解析和區分。瀏覽器的功能是將取得到的HTML程式碼進行解析，然後將原始的程式碼轉換成我們直接看到的網站頁面。

3. 基於python實作的網路爬蟲功能

#1).python取得html頁面

#其實，最基本的抓站，兩句話就可以了:

import urllib2
content = urllib2.urlopen(&#39;http://XXXX&#39;).read()

這樣可以得到整個html 文檔，關鍵的問題是我們可能需要從這個文檔中獲取我們需要的有用信息，而不是整個文件。這就需要解析充滿了各種標籤的 html。

2).python爬蟲抓取頁面後解析html方法

python爬蟲 html解析庫SGMLParser

Python 預設自帶HTMLParser 以及SGMLParser 等等解析器，前者實在是太難用了，我就用SGMLParser 寫了一個範例程式：

import urllib2
from sgmllib import SGMLParser
 
class ListName(SGMLParser):
def init(self):
SGMLParser.init(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
 
content = urllib2.urlopen(&#39;http://169it.com/xxx.htm&#39;).read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode(&#39;gbk&#39;).encode(&#39;utf8&#39;)

很簡單，這裡定義了一個叫做ListName 的類，繼承# SGMLParser 裡面的方法。使用一個變數 is_h4 做標記判定 html 檔案中的 h4 標籤，如果遇到 h4 標籤，則將標籤內的內容加入到 List 變數 name 中。解釋一下start_h4() 和end_h4() 函數，他們原型是SGMLParser 中的

start_tagname(self, attrs)
end_tagname(self)

tagname 就是標籤名稱，例如當遇到，就會呼叫start_pre，遇到，就會呼叫end_pre。 attrs 為標籤的參數，以 [(attribute, value), (attribute, value), ...] 的形式傳回。

python爬蟲html解析函式庫pyQuery

#pyQuery 是jQuery 在python 中的實現，能夠以jQuery 的語法來操作解析HTML 文檔，十分方便。使用前需安裝，easy_install pyquery 即可，或Ubuntu 下

sudo apt-get install python-pyquery

以下範例：

from pyquery import PyQuery as pyq
doc=pyq(url=r&#39;http://169it.com/xxx.html&#39;)
cts=doc(&#39;.market-cat&#39;)
 
for i in cts:
print &#39;====&#39;,pyq(i).find(&#39;h4&#39;).text() ,&#39;====&#39;
for j in pyq(i).find(&#39;.sub&#39;):
print pyq(j).text() ,
print &#39;\n&#39;

python爬蟲html解析庫BeautifulSoup

有個頭痛的問題是，大部分的網頁都沒有完全遵照標準來寫，各種莫名其妙的錯誤令人想要找出那個寫網頁的人痛打一頓。為了解決這個問題，我們可以選擇著名的 BeautifulSoup 來解析html 文檔，它具有很好的容錯能力。

以上就是本文的全部內容，對Python網路爬蟲功能的實現進行了詳細的分析介紹，希望對大家的學習有所幫助。

以上是Python網路爬蟲功能的基本寫法介紹的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python的科學計算中如何使用陣列？Apr 25, 2025 am 12:28 AM

Arraysinpython，尤其是Vianumpy，ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1）Heasuedfornumerericalicerationalation，dataAnalysis和Machinelearning.2）Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3）inthanypythonlists.3）andAreseNableAblequick

您如何處理同一系統上的不同Python版本？Apr 25, 2025 am 12:24 AM

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1）使用pyenv管理多個Python版本：安裝pyenv，設置全局和本地版本。 2）使用venv創建虛擬環境以隔離項目依賴。 3）使用Anaconda管理數據科學項目中的Python版本。 4）保留系統Python用於系統級任務。通過這些工具和策略，你可以有效地管理不同版本的Python，確保項目順利運行。

與標準Python陣列相比，使用Numpy數組的一些優點是什麼？Apr 25, 2025 am 12:21 AM

numpyarrayshaveseveraladagesoverandastardandpythonarrays：1）基於基於duetoc的iMplation，2）2）他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory，尤其是WithlargedAtasets和3）效率化，效率化，矢量化函數函數函數函數構成和穩定性構成和穩定性的操作，製造

陣列的同質性質如何影響性能？Apr 25, 2025 am 12:13 AM

數組的同質性對性能的影響是雙重的：1)同質性允許編譯器優化內存訪問，提高性能；2)但限制了類型多樣性，可能導致效率低下。總之，選擇合適的數據結構至關重要。

編寫可執行python腳本的最佳實踐是什麼？Apr 25, 2025 am 12:11 AM

到CraftCraftExecutablePythcripts，lollow TheSebestPractices：1）Addashebangline（＃！/usr/usr/bin/envpython3）tomakethescriptexecutable.2）setpermissionswithchmodwithchmod xyour_script.3）

Numpy數組與使用數組模塊創建的數組有何不同？Apr 24, 2025 pm 03:53 PM

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata，而learthearrayModuleSutableforbasic，內存效率段

Numpy數組的使用與使用Python中的數組模塊陣列相比如何？Apr 24, 2025 pm 03:49 PM

numpyArraySareAreBetterForHeAvyNumericalComputing，而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1）NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2）

CTYPES模塊與Python中的數組有何關係？Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1）usectypestoInterfacewithClibrariesForperfermance.2）createc-stylec-stylec-stylarraysfornumericalcomputations.3）passarraystocfunctions foreforfunctionsforeffortions.however.however，However，HoweverofiousofmemoryManageManiverage，Pressiveo，Pressivero

See all articles