Maison >développement back-end >Tutoriel Python >Comment puis-je extraire les attributs href du HTML à l'aide de BeautifulSoup ?

Comment puis-je extraire les attributs href du HTML à l'aide de BeautifulSoup ?

Linda Hamilton
Linda Hamiltonoriginal
2024-10-29 11:51:02742parcourir

How can I extract href attributes from HTML using BeautifulSoup?

Extraire des Hrefs du HTML à l'aide de BeautifulSoup

Dans le web scraping, extraire des informations spécifiques du HTML est une tâche courante. Une de ces informations peut être l'attribut href des balises d'ancrage (). BeautifulSoup, une bibliothèque Python largement utilisée, fournit diverses méthodes pour naviguer dans le HTML et récupérer les éléments souhaités.

Considérons une situation dans laquelle nous devons extraire le href du HTML contenant plusieurs balises, notamment et

<code class="python">from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])<p>La méthode find_all prend deux arguments : le nom de la balise à rechercher et un dictionnaire facultatif d'attributs à filtrer. Dans ce cas, nous recherchons les balises 'a' avec l'attribut href, puis nous imprimons la valeur de l'attribut href pour chaque balise correspondante.</p>
<p>Pour les anciennes versions de BeautifulSoup, le nom de la méthode est 'findAll'. au lieu de 'find_all'.</p>
<p>Notez que si nous voulons extraire toutes les balises avec un attribut href, quel que soit leur nom, nous pouvons omettre le paramètre tag name :</p>
<pre class="brush:php;toolbar:false"><code class="python">href_tags = soup.find_all(href=True)</code>

Ceci renvoie une liste de toutes les balises HTML avec un attribut href.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn