很多人在一開始學習Python,會打算用作爬蟲開發。既然要做爬蟲,首先就要抓取網頁,並且從網頁中提取出超連結位址。這篇文章跟大家分享一個簡單的方法,有需要的可以參考借鏡。
以下是最簡單的實作方法,先將目標網頁抓回來,然後透過正規比對a標籤中的href屬性來獲得超連結
程式碼如下:
import urllib2 import re url = 'http://www.sunbloger.com/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.close() links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc) for a in links: print a
更多Python提取網頁中超連結的方法相關文章請關注PHP中文網!