Maison >développement back-end >Tutoriel Python >Extraire du texte du contenu HTML en Python : une solution simple avec `HTMLParser`

Extraire du texte du contenu HTML en Python : une solution simple avec `HTMLParser`

Patricia Arquette
Patricia Arquetteoriginal
2024-12-10 11:04:16781parcourir

Extracting Text from HTML Content in Python: A Simple Solution with `HTMLParser`

Introduction

Lorsque vous travaillez avec des données HTML, vous devez souvent nettoyer les balises et conserver uniquement le texte brut. Que ce soit pour l'analyse de données, l'automatisation, ou simplement pour rendre un contenu lisible, cette tâche est courante pour les développeurs.

Dans cet article, je vais vous montrer comment créer une classe Python simple pour extraire du texte brut du HTML à l'aide de HTMLParser, un module Python intégré.


Pourquoi utiliser HTMLParser ?

HTMLParser est un module Python léger et intégré qui vous permet d'analyser et de manipuler des documents HTML. Contrairement aux bibliothèques externes comme BeautifulSoup, elle est légère et idéale pour des tâches simples comme le nettoyage des balises HTML.


La solution : une classe Python simple

Étape 1 : Créer la classe HTMLTextExtractor

from html.parser import HTMLParser

class HTMLTextExtractor(HTMLParser):
    """Class for extracting plain text from HTML content."""

    def __init__(self):
        super().__init__()
        self.text = []

    def handle_data(self, data):
        self.text.append(data.strip())

    def get_text(self):
        return ''.join(self.text)

Cette classe fait trois choses principales :

  1. Initialise une liste self.text pour stocker le texte extrait.
  2. Utilise la méthode handle_data pour capturer tout le texte brut trouvé entre les balises HTML.
  3. Combine tous les fragments de texte avec la méthode get_text.

Étape 2 : utiliser la classe pour extraire du texte

Voici comment utiliser la classe pour nettoyer le HTML :

raw_description = """
<div>
    <h1>Welcome to our website!</h1>
    <p>We offer <strong>exceptional services</strong> for our customers.</p>
    <p>Contact us at: <a href="mailto:contact@example.com">contact@example.com</a></p>
</div>
"""

extractor = HTMLTextExtractor()
extractor.feed(raw_description)
description = extractor.get_text()

print(description)

Sortie :

Welcome to our website! We offer exceptional services for our customers.Contact us at: contact@example.com

Ajout de la prise en charge des attributs

Si vous souhaitez capturer des informations supplémentaires, telles que des liens dans des balises, voici une version améliorée du cours :

class HTMLTextExtractor(HTMLParser):
    """Class for extracting plain text and links from HTML content."""

    def __init__(self):
        super().__init__()
        self.text = []

    def handle_data(self, data):
        self.text.append(data.strip())

    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            for attr, value in attrs:
                if attr == 'href':
                    self.text.append(f" (link: {value})")

    def get_text(self):
        return ''.join(self.text)

Sortie améliorée :

Welcome to our website!We offer exceptional services for our customers.Contact us at: contact@example.com (link: mailto:contact@example.com)

## Use Cases

- **SEO**: Clean HTML tags to analyze the plain text content of a webpage.
- **Emails**: Transform HTML emails into plain text for basic email clients.
- **Scraping**: Extract important data from web pages for analysis or storage.
- **Automated Reports**: Simplify API responses containing HTML into readable text.

Avantages de cette approche

  • Léger : Pas besoin de bibliothèques externes ; il est construit sur le HTMLParser natif de Python.
  • Facilité d'utilisation : Encapsule la logique dans une classe simple et réutilisable.
  • Personnalisable : étendez facilement la fonctionnalité pour capturer des informations spécifiques telles que des attributs ou des données de balise supplémentaires.

## Limitations and Alternatives

While `HTMLParser` is simple and efficient, it has some limitations:

- **Complex HTML**: It may struggle with very complex or poorly formatted HTML documents.
- **Limited Features**: It doesn't provide advanced parsing features like CSS selectors or DOM tree manipulation.

### Alternatives

If you need more robust features, consider using these libraries:

- **BeautifulSoup**: Excellent for complex HTML parsing and manipulation.
- **lxml**: Known for its speed and support for both XML and HTML parsing.

Conclusion

Avec cette solution, vous pouvez facilement extraire du texte brut du HTML en quelques lignes de code seulement. Que vous travailliez sur un projet personnel ou une tâche professionnelle, cette approche est parfaite pour un nettoyage et une analyse HTML légers.

Si votre cas d'utilisation implique du HTML plus complexe ou mal formé, envisagez d'utiliser des bibliothèques comme BeautifulSoup ou lxml pour des fonctionnalités améliorées.

N'hésitez pas à essayer ce code dans vos projets et à partager vos expériences. Bon codage ! ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn