Heim >Backend-Entwicklung >Python-Tutorial >Wie extrahiere ich „href'-Attribute mit BeautifulSoup in Python?
HREF-Attribut mit BeautifulSoup extrahieren
In diesem Szenario möchten Sie das href-Attribut „some_url“ aus dem folgenden HTML-Inhalt extrahieren:
<code class="html"><a href="some_url">next</a> <span class="class">...</span></code>
Verwendung der find_all()-Methode von BeautifulSoup
Um dieses spezifische Attribut abzurufen, verwenden Sie die find_all()-Methode wie folgt:
<code class="python">from bs4 import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print("Found the URL:", a['href'])</code>
Kompatibilität von Python 2 zu Python 3
Beachten Sie, dass dieser Code sowohl für Python 2 als auch für Python 3 funktioniert. In älteren Versionen von BeautifulSoup (vor Version 4) ist jedoch die Methode find_all() vorhanden wurde findAll genannt.
Alle Tags mit HREF-Attributen abrufen
Wenn Sie alle Tags abrufen möchten, die ein href-Attribut besitzen, unabhängig von ihrem Tag-Namen, lassen Sie das einfach weg Tag-Namensparameter:
<code class="python">href_tags = soup.find_all(href=True)</code>
Das obige ist der detaillierte Inhalt vonWie extrahiere ich „href'-Attribute mit BeautifulSoup in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!