Heim  >  Artikel  >  Backend-Entwicklung  >  Wie extrahiere ich „href“-Attribute mit BeautifulSoup in Python?

Wie extrahiere ich „href“-Attribute mit BeautifulSoup in Python?

DDD
DDDOriginal
2024-10-28 21:42:02116Durchsuche

How to extract

HREF-Attribut mit BeautifulSoup extrahieren

In diesem Szenario möchten Sie das href-Attribut „some_url“ aus dem folgenden HTML-Inhalt extrahieren:

<code class="html"><a href="some_url">next</a>
<span class="class">...</span></code>

Verwendung der find_all()-Methode von BeautifulSoup

Um dieses spezifische Attribut abzurufen, verwenden Sie die find_all()-Methode wie folgt:

<code class="python">from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])</code>

Kompatibilität von Python 2 zu Python 3

Beachten Sie, dass dieser Code sowohl für Python 2 als auch für Python 3 funktioniert. In älteren Versionen von BeautifulSoup (vor Version 4) ist jedoch die Methode find_all() vorhanden wurde findAll genannt.

Alle Tags mit HREF-Attributen abrufen

Wenn Sie alle Tags abrufen möchten, die ein href-Attribut besitzen, unabhängig von ihrem Tag-Namen, lassen Sie das einfach weg Tag-Namensparameter:

<code class="python">href_tags = soup.find_all(href=True)</code>

Das obige ist der detaillierte Inhalt vonWie extrahiere ich „href“-Attribute mit BeautifulSoup in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn