Heim >Backend-Entwicklung >Python-Tutorial >Wie extrahiere ich mit BeautifulSoup \'href\'-Attribute aus verschachtelten HTML-Elementen?
So extrahieren Sie „href“-Attribute mit BeautifulSoup
Bei der Arbeit mit HTML-Daten kann das Abrufen spezifischer Informationen wie „href“-Attribute von entscheidender Bedeutung sein . In diesem Fall haben wir zwei Tags, eines mit verschachtelten Elementen, und das Ziel besteht darin, das „href“-Attribut aus dem „a“-Tag zu extrahieren und dabei den Textinhalt zu ignorieren.
Um dies mit BeautifulSoup zu erreichen, müssen Sie kann die Methode „find_all“ verwenden. Mit dieser Methode können Sie anhand verschiedener Kriterien, einschließlich Attributen, nach Tags suchen. Hier ist der Code:
from bs4 import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print("Found the URL:", a['href'])
Dieser Code durchläuft alle „a“-Tags mit einem „href“-Attribut und gibt den Wert des „href“-Attributs für jedes Tag aus. Die Ausgabe lautet:
Found the URL: some_url Found the URL: another_url
Wenn Sie alternativ alle Tags mit einem „href“-Attribut abrufen möchten, unabhängig von ihrem Namen, können Sie Folgendes verwenden:
href_tags = soup.find_all(href=True)
Diese Methode gibt eine Liste aller Tags mit einem „href“-Attribut im HTML-Dokument zurück.
Das obige ist der detaillierte Inhalt vonWie extrahiere ich mit BeautifulSoup \'href\'-Attribute aus verschachtelten HTML-Elementen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!