Heim >Backend-Entwicklung >Python-Tutorial >Python-Methode zum Extrahieren von Hyperlinks aus Webseiten

Python-Methode zum Extrahieren von Hyperlinks aus Webseiten

高洛峰
高洛峰Original
2017-02-22 16:52:183271Durchsuche

Viele Leute planen, Python für die Crawler-Entwicklung zu verwenden, wenn sie Python zum ersten Mal lernen. Da Sie einen Crawler verwenden möchten, müssen Sie zunächst die Webseite crawlen und die Hyperlink-Adresse aus der Webseite extrahieren. In diesem Artikel stellen wir Ihnen eine einfache Methode vor, auf die Sie bei Bedarf zurückgreifen können.

Das Folgende ist die einfachste Implementierungsmethode. Erfassen Sie zunächst die Zielwebseite und erhalten Sie dann den Hyperlink durch regelmäßigen Abgleich des href-Attributs im a-Tag lautet wie folgt:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

Weitere Artikel im Zusammenhang mit Pythons Methode zum Extrahieren von Hyperlinks aus Webseiten Bitte achten Sie auf die chinesische PHP-Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn