Maison >développement back-end >Tutoriel Python >Comment extraire efficacement les attributs HREF du HTML à l'aide de BeautifulSoup ?

Comment extraire efficacement les attributs HREF du HTML à l'aide de BeautifulSoup ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-10-30 18:36:03793parcourir

How to Efficiently Extract HREF Attributes from HTML Using BeautifulSoup?

Extraire HREF de BeautifulSoup

Lorsque vous travaillez avec des documents HTML à l'aide de BeautifulSoup, l'extraction d'attributs spécifiques comme href peut être essentielle. Cet article fournit des solutions pour récupérer efficacement les valeurs href, même dans les scénarios où plusieurs balises sont présentes.

Utiliser find_all pour la récupération HREF

Pour cibler uniquement des balises avec des attributs href , utilisez la méthode find_all comme suit :

<code class="python"># Python2
from BeautifulSoup import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']</code>

Cette approche vous permet de parcourir toutes les balises a trouvées et d'imprimer leurs valeurs href. Notez que pour les versions BeautifulSoup antérieures à 4, le nom de la méthode était findAll.

Récupération de toutes les balises avec HREF

Si vous souhaitez obtenir toutes les balises possédant des attributs href, vous pouvez omettez simplement le paramètre name :

<code class="python">href_tags = soup.find_all(href=True)</code>

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn