Maison >développement back-end >Tutoriel Python >Comment extraire les attributs \'href\' en utilisant BeautifulSoup en Python ?

Comment extraire les attributs \'href\' en utilisant BeautifulSoup en Python ?

DDD
DDDoriginal
2024-10-28 21:42:02279parcourir

How to extract

Extraction de l'attribut HREF avec BeautifulSoup

Dans ce scénario, vous souhaitez extraire l'attribut href "some_url" du contenu HTML suivant :

<code class="html"><a href="some_url">next</a>
<span class="class">...</span></code>

Utilisation de la méthode find_all() de BeautifulSoup

Pour récupérer cet attribut spécifique, utilisez la méthode find_all() comme suit :

<code class="python">from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])</code>

Compatibilité Python 2 vers Python 3

Notez que ce code fonctionne à la fois pour Python 2 et Python 3. Cependant, dans les anciennes versions de BeautifulSoup (antérieures à la version 4), la méthode find_all() a été nommé findAll.

Récupération de toutes les balises avec des attributs HREF

Si vous souhaitez récupérer toutes les balises qui possèdent un attribut href, quel que soit leur nom de balise, omettez simplement le paramètre de nom de balise :

<code class="python">href_tags = soup.find_all(href=True)</code>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn