Maison  >  Article  >  développement back-end  >  Extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python

Extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python

WBOY
WBOYavant
2023-09-10 19:05:021022parcourir

使用Python中的Beautiful Soup提取属性值

Pour extraire les valeurs d'attribut avec Beautiful Soup, nous devons analyser le document HTML puis extraire les valeurs d'attribut requises. BeautifulSoup est une bibliothèque Python permettant d'analyser des documents HTML et XML. BeautifulSoup propose plusieurs façons de rechercher et de parcourir les arbres d'analyse pour extraire facilement les données des documents. Dans cet article, nous extrairons les valeurs d'attribut à l'aide de Beautiful Soup en Python.

Algorithme

Vous pouvez extraire les valeurs d'attribut à l'aide de Beautiful Soup en Python en suivant l'algorithme donné ci-dessous.

  • Utilisez la classe BeautifulSoup de la bibliothèque bs4 pour analyser les documents HTML.

  • Utilisez la méthode BeautifulSoup appropriée (telle que find() ou find_all()) pour rechercher l'élément HTML qui contient l'attribut que vous souhaitez extraire.

  • Utilisez une instruction conditionnelle ou la méthode has_attr() pour vérifier si l'attribut existe sur l'élément.

  • Si l'attribut existe, extrayez sa valeur à l'aide de crochets ([]) et le nom de l'attribut comme clé.

  • Si la propriété n'existe pas, veuillez gérer l'erreur de manière appropriée.

Installez Beautiful Soup

Avant d'utiliser la bibliothèque Beautiful Soup, vous devez l'installer à l'aide du gestionnaire de packages Python, la commande pip. Pour installer Beautiful Soup, entrez les commandes suivantes dans le terminal ou l’invite de commande.

pip install beautifulsoup4

Extraire les valeurs d'attribut

Pour extraire les valeurs d'attribut des balises HTML, nous devons d'abord utiliser BeautifulSoup pour analyser le document HTML. Utilisez ensuite la méthode Beautiful Soup pour extraire les valeurs d'attribut de balises spécifiques dans le document HTML.

Exemple 1 : Extraire l'attribut href à l'aide de la méthode find() et des crochets

Dans l'exemple ci-dessous, nous créons d'abord un document HTML et le transmettons sous forme de chaîne au constructeur Beautiful Soup avec l'analyseur de type html.parser. Ensuite, nous trouvons la balise "a" en utilisant la méthode find() de l'objet soupe. Cela renverra la première occurrence de la balise « a » dans le document HTML. Enfin, nous extrayons la valeur de l'attribut href de la balise "a" en utilisant la notation entre crochets. Cela renverra la valeur de l'attribut href sous forme de chaîne.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find the 'a' tag
a_tag = soup.find('a')

# Extract the value of the 'href' attribute
href_value = a_tag['href']

print(href_value)

Sortie

https://www.google.com

Exemple 2 : utilisez attr pour rechercher des éléments avec des attributs spécifiques

Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour trouver toutes les balises `a` avec l'attribut href. Le paramètre `attrs` est utilisé pour spécifier les attributs que nous recherchons. `{'href' : True}` spécifie que nous voulons rechercher des éléments avec un attribut href de n'importe quelle valeur.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
   <a href="https://www.python.org">Python</a>
   <a>No Href</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'a' tags with an 'href' attribute
a_tags_with_href = soup.find_all('a', attrs={'href': True})
for tag in a_tags_with_href:
   print(tag['href'])

Sortie

https://www.google.com
https://www.python.org

Exemple 3 : utilisez la méthode find_all() pour rechercher toutes les occurrences d'un élément

Parfois, vous souhaiterez peut-être rechercher toutes les occurrences d'éléments HTML sur une page Web. Vous pouvez utiliser la méthode find_all() pour y parvenir. Dans l'exemple ci-dessous, nous utilisons la méthode find_all() pour rechercher toutes les balises div avec un conteneur de classe. Nous parcourons ensuite chaque balise div et trouvons les balises h1 et p qu'elle contient.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'div' tags with class='container'
div_tags = soup.find_all('div', class_='container')
for div in div_tags:
   h1 = div.find('h1')
   p = div.find('p')
   print(h1.text, p.text)

Sortie

Heading 1 Paragraph 1
Heading 2 Paragraph 2

Exemple 4 : Utilisation de select() pour rechercher des éléments via des sélecteurs CSS

Dans l'exemple ci-dessous, nous utilisons la méthode select() pour trouver toutes les balises h1 à l'intérieur d'une balise div avec un conteneur de classe. Le sélecteur CSS 'div.container h1' est utilisé pour y parvenir. . est utilisé pour représenter les noms de classe et les espaces sont utilisés pour représenter les sélecteurs descendants.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'h1' tags inside a 'div' tag with class='container'
h1_tags = soup.select('div.container h1')
for h1 in h1_tags:
   print(h1.text)

Sortie

Heading 1
Heading 2

Conclusion

Dans cet article, nous avons expliqué comment extraire les valeurs d'attribut de documents HTML à l'aide de la bibliothèque Beautiful Soup en Python. En utilisant les méthodes fournies par BeautifulSoup, nous pouvons facilement extraire les données requises des documents HTML et XML.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer