Maison >développement back-end >Tutoriel Python >Comment BeautifulSoup peut-il être utilisé pour extraire les attributs HREF des documents HTML ?

Comment BeautifulSoup peut-il être utilisé pour extraire les attributs HREF des documents HTML ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-10-29 15:14:02609parcourir

How Can BeautifulSoup Be Used to Extract HREF Attributes from HTML Documents?

Extraire des attributs HREF avec BeautifulSoup

Lorsque vous traitez des documents HTML, l'extraction d'éléments et d'attributs spécifiques peut être cruciale. Une tâche courante consiste à récupérer l'attribut « href » des balises « a », qui représentent des hyperliens. Cet article explique comment y parvenir à l'aide de la bibliothèque « BeautifulSoup ».

Considérez l'extrait HTML suivant :

<code class="html"><a href="some_url">next</a>
<span class="class">...</span></code>

Notre objectif est d'extraire la valeur « href », qui est « some_url ». '.

Trouver toutes les balises 'a' avec des attributs HREF

Pour y parvenir, nous pouvons utiliser la méthode 'find_all' de 'BeautifulSoup'. Cette méthode nous permet de rechercher des balises, des attributs et d'autres critères spécifiques dans le document HTML.

<code class="python">for a in soup.find_all('a', href=True):
    print(a['href'])</code>

Ce code recherche toutes les balises 'a' qui ont un attribut 'href' et imprime la valeur de l'attribut 'href' pour chaque balise correspondante.

Omettre le nom de la balise pour tous les attributs HREF

Si nous souhaitons récupérer toutes les balises avec un attribut 'href', nous pouvons omettre la 'tag' argument dans la méthode 'find_all' :

<code class="python">href_tags = soup.find_all(href=True)</code>

Cela renvoie une liste de toutes les balises qui contiennent un attribut 'href', quel que soit leur nom de balise.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn