Heim > Artikel > Backend-Entwicklung > Wie kann man mit BeautifulSoup HREF-Attribute effizient aus HTML extrahieren?
HREF aus BeautifulSoup extrahieren
Bei der Arbeit mit HTML-Dokumenten mit BeautifulSoup kann das Extrahieren bestimmter Attribute wie href von entscheidender Bedeutung sein. Dieser Artikel bietet Lösungen zum effizienten Abrufen von Href-Werten, selbst in Szenarien, in denen mehrere Tags vorhanden sind.
Verwenden von find_all für den HREF-Abruf
Um nur auf Tags mit Href-Attributen abzuzielen , verwenden Sie die Methode find_all wie folgt:
<code class="python"># Python2 from BeautifulSoup import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print "Found the URL:", a['href']</code>
Mit diesem Ansatz können Sie alle gefundenen a-Tags durchlaufen und deren href-Werte ausdrucken. Beachten Sie, dass für BeautifulSoup-Versionen vor 4 der Methodenname findAll lautete.
Alle Tags mit HREF abrufen
Wenn Sie alle Tags mit href-Attributen erhalten möchten, können Sie dies tun Lassen Sie einfach den Namensparameter weg:
<code class="python">href_tags = soup.find_all(href=True)</code>
Das obige ist der detaillierte Inhalt vonWie kann man mit BeautifulSoup HREF-Attribute effizient aus HTML extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!