Heim >Backend-Entwicklung >Python-Tutorial >Wie kann ich mit Python und BeautifulSoup Hyperlinks von einer Webseite extrahieren?
Links von Webseiten mit Python und BeautifulSoup abrufen
Dieser Artikel zeigt, wie man die Links von einer Webseite abruft und ihre URL-Adressen sammelt mit Python und der BeautifulSoup Bibliothek.
Problem:
Wie extrahiert man die URLs von in eine Webseite eingebetteten Links mit Python?
Lösung:
Um dies zu erreichen, können Sie die von BeautifulSoup bereitgestellte SoupStrainer-Klasse verwenden. Der folgende Codeausschnitt veranschaulicht den Vorgang:
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
Dieser Code stellt eine Verbindung zu einer bestimmten Webseite her, im Beispiel nämlich „http://www.nytimes.com“. Mit BeautifulSoup wird die HTML-Antwort analysiert und der SoupStrainer('a')-Filter angewendet, der sich auf 'a'-Tags (die Links darstellen) innerhalb der Seite konzentriert. Für jeden gefundenen Link ruft der Code sein „href“-Attribut ab, das die tatsächliche URL-Adresse enthält.
Das obige ist der detaillierte Inhalt vonWie kann ich mit Python und BeautifulSoup Hyperlinks von einer Webseite extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!