


Extraire du texte du contenu HTML en Python : une solution simple avec `HTMLParser`
Introduction
Lorsque vous travaillez avec des données HTML, vous devez souvent nettoyer les balises et conserver uniquement le texte brut. Que ce soit pour l'analyse de données, l'automatisation, ou simplement pour rendre un contenu lisible, cette tâche est courante pour les développeurs.
Dans cet article, je vais vous montrer comment créer une classe Python simple pour extraire du texte brut du HTML à l'aide de HTMLParser, un module Python intégré.
Pourquoi utiliser HTMLParser ?
HTMLParser est un module Python léger et intégré qui vous permet d'analyser et de manipuler des documents HTML. Contrairement aux bibliothèques externes comme BeautifulSoup, elle est légère et idéale pour des tâches simples comme le nettoyage des balises HTML.
La solution : une classe Python simple
Étape 1 : Créer la classe HTMLTextExtractor
from html.parser import HTMLParser class HTMLTextExtractor(HTMLParser): """Class for extracting plain text from HTML content.""" def __init__(self): super().__init__() self.text = [] def handle_data(self, data): self.text.append(data.strip()) def get_text(self): return ''.join(self.text)
Cette classe fait trois choses principales :
- Initialise une liste self.text pour stocker le texte extrait.
- Utilise la méthode handle_data pour capturer tout le texte brut trouvé entre les balises HTML.
- Combine tous les fragments de texte avec la méthode get_text.
Étape 2 : utiliser la classe pour extraire du texte
Voici comment utiliser la classe pour nettoyer le HTML :
raw_description = """ <div> <h1 id="Welcome-to-our-website">Welcome to our website!</h1> <p>We offer <strong>exceptional services</strong> for our customers.</p> <p>Contact us at: <a href="mailto:contact@example.com">contact@example.com</a></p> </div> """ extractor = HTMLTextExtractor() extractor.feed(raw_description) description = extractor.get_text() print(description)
Sortie :
Welcome to our website! We offer exceptional services for our customers.Contact us at: contact@example.com
Ajout de la prise en charge des attributs
Si vous souhaitez capturer des informations supplémentaires, telles que des liens dans des balises, voici une version améliorée du cours :
class HTMLTextExtractor(HTMLParser): """Class for extracting plain text and links from HTML content.""" def __init__(self): super().__init__() self.text = [] def handle_data(self, data): self.text.append(data.strip()) def handle_starttag(self, tag, attrs): if tag == 'a': for attr, value in attrs: if attr == 'href': self.text.append(f" (link: {value})") def get_text(self): return ''.join(self.text)
Sortie améliorée :
Welcome to our website!We offer exceptional services for our customers.Contact us at: contact@example.com (link: mailto:contact@example.com)
## Use Cases - **SEO**: Clean HTML tags to analyze the plain text content of a webpage. - **Emails**: Transform HTML emails into plain text for basic email clients. - **Scraping**: Extract important data from web pages for analysis or storage. - **Automated Reports**: Simplify API responses containing HTML into readable text.
Avantages de cette approche
- Léger : Pas besoin de bibliothèques externes ; il est construit sur le HTMLParser natif de Python.
- Facilité d'utilisation : Encapsule la logique dans une classe simple et réutilisable.
- Personnalisable : étendez facilement la fonctionnalité pour capturer des informations spécifiques telles que des attributs ou des données de balise supplémentaires.
## Limitations and Alternatives While `HTMLParser` is simple and efficient, it has some limitations: - **Complex HTML**: It may struggle with very complex or poorly formatted HTML documents. - **Limited Features**: It doesn't provide advanced parsing features like CSS selectors or DOM tree manipulation. ### Alternatives If you need more robust features, consider using these libraries: - **BeautifulSoup**: Excellent for complex HTML parsing and manipulation. - **lxml**: Known for its speed and support for both XML and HTML parsing.
Conclusion
Avec cette solution, vous pouvez facilement extraire du texte brut du HTML en quelques lignes de code seulement. Que vous travailliez sur un projet personnel ou une tâche professionnelle, cette approche est parfaite pour un nettoyage et une analyse HTML légers.
Si votre cas d'utilisation implique du HTML plus complexe ou mal formé, envisagez d'utiliser des bibliothèques comme BeautifulSoup ou lxml pour des fonctionnalités améliorées.
N'hésitez pas à essayer ce code dans vos projets et à partager vos expériences. Bon codage ! ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Pour maximiser l'efficacité de l'apprentissage de Python dans un temps limité, vous pouvez utiliser les modules DateTime, Time et Schedule de Python. 1. Le module DateTime est utilisé pour enregistrer et planifier le temps d'apprentissage. 2. Le module de temps aide à définir l'étude et le temps de repos. 3. Le module de planification organise automatiquement des tâches d'apprentissage hebdomadaires.

Python excelle dans les jeux et le développement de l'interface graphique. 1) Le développement de jeux utilise Pygame, fournissant des fonctions de dessin, audio et d'autres fonctions, qui conviennent à la création de jeux 2D. 2) Le développement de l'interface graphique peut choisir Tkinter ou Pyqt. Tkinter est simple et facile à utiliser, PYQT a des fonctions riches et convient au développement professionnel.

Python convient à la science des données, au développement Web et aux tâches d'automatisation, tandis que C convient à la programmation système, au développement de jeux et aux systèmes intégrés. Python est connu pour sa simplicité et son écosystème puissant, tandis que C est connu pour ses capacités de contrôle élevées et sous-jacentes.

Vous pouvez apprendre les concepts de programmation de base et les compétences de Python dans les 2 heures. 1. Apprenez les variables et les types de données, 2. Flux de contrôle maître (instructions et boucles conditionnelles), 3. Comprenez la définition et l'utilisation des fonctions, 4. Démarrez rapidement avec la programmation Python via des exemples simples et des extraits de code.

Python est largement utilisé dans les domaines du développement Web, de la science des données, de l'apprentissage automatique, de l'automatisation et des scripts. 1) Dans le développement Web, les cadres Django et Flask simplifient le processus de développement. 2) Dans les domaines de la science des données et de l'apprentissage automatique, les bibliothèques Numpy, Pandas, Scikit-Learn et Tensorflow fournissent un fort soutien. 3) En termes d'automatisation et de script, Python convient aux tâches telles que les tests automatisés et la gestion du système.

Vous pouvez apprendre les bases de Python dans les deux heures. 1. Apprenez les variables et les types de données, 2. Structures de contrôle maître telles que si les instructions et les boucles, 3. Comprenez la définition et l'utilisation des fonctions. Ceux-ci vous aideront à commencer à écrire des programmes Python simples.

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Dreamweaver Mac
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

Version Mac de WebStorm
Outils de développement JavaScript utiles

Listes Sec
SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.