Heim >Backend-Entwicklung >Python-Tutorial >Python-Methode zum Extrahieren von Hyperlinks aus Webseiten
Viele Leute planen, Python für die Crawler-Entwicklung zu verwenden, wenn sie Python zum ersten Mal lernen. Da Sie einen Crawler verwenden möchten, müssen Sie zunächst die Webseite crawlen und die Hyperlink-Adresse aus der Webseite extrahieren. In diesem Artikel stellen wir Ihnen eine einfache Methode vor, auf die Sie bei Bedarf zurückgreifen können.
Das Folgende ist die einfachste Implementierungsmethode. Erfassen Sie zunächst die Zielwebseite und erhalten Sie dann den Hyperlink durch regelmäßigen Abgleich des href-Attributs im a-Tag lautet wie folgt:
import urllib2 import re url = 'http://www.sunbloger.com/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.close() links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc) for a in links: print a
Weitere Artikel im Zusammenhang mit Pythons Methode zum Extrahieren von Hyperlinks aus Webseiten Bitte achten Sie auf die chinesische PHP-Website!