首頁  >  文章  >  後端開發  >  Python提取網頁中超連結的方法

Python提取網頁中超連結的方法

高洛峰
高洛峰原創
2017-02-22 16:52:183209瀏覽

很多人在一開始學習Python,會打算用作爬蟲開發。既然要做爬蟲,首先就要抓取網頁,並且從網頁中提取出超連結位址。這篇文章跟大家分享一個簡單的方法,有需要的可以參考借鏡。

以下是最簡單的實作方法,先將目標網頁抓回來,然後透過正規比對a標籤中的href屬性來獲得超連結

程式碼如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a


更多Python提取網頁中超連結的方法相關文章請關注PHP中文網!


陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn