Maison >développement back-end >Tutoriel Python >Extraire du texte du contenu HTML en Python : une solution simple avec `HTMLParser`
Lorsque vous travaillez avec des données HTML, vous devez souvent nettoyer les balises et conserver uniquement le texte brut. Que ce soit pour l'analyse de données, l'automatisation, ou simplement pour rendre un contenu lisible, cette tâche est courante pour les développeurs.
Dans cet article, je vais vous montrer comment créer une classe Python simple pour extraire du texte brut du HTML à l'aide de HTMLParser, un module Python intégré.
HTMLParser est un module Python léger et intégré qui vous permet d'analyser et de manipuler des documents HTML. Contrairement aux bibliothèques externes comme BeautifulSoup, elle est légère et idéale pour des tâches simples comme le nettoyage des balises HTML.
from html.parser import HTMLParser class HTMLTextExtractor(HTMLParser): """Class for extracting plain text from HTML content.""" def __init__(self): super().__init__() self.text = [] def handle_data(self, data): self.text.append(data.strip()) def get_text(self): return ''.join(self.text)
Voici comment utiliser la classe pour nettoyer le HTML :
raw_description = """ <div> <h1>Welcome to our website!</h1> <p>We offer <strong>exceptional services</strong> for our customers.</p> <p>Contact us at: <a href="mailto:contact@example.com">contact@example.com</a></p> </div> """ extractor = HTMLTextExtractor() extractor.feed(raw_description) description = extractor.get_text() print(description)
Sortie :
Welcome to our website! We offer exceptional services for our customers.Contact us at: contact@example.com
Si vous souhaitez capturer des informations supplémentaires, telles que des liens dans des balises, voici une version améliorée du cours :
class HTMLTextExtractor(HTMLParser): """Class for extracting plain text and links from HTML content.""" def __init__(self): super().__init__() self.text = [] def handle_data(self, data): self.text.append(data.strip()) def handle_starttag(self, tag, attrs): if tag == 'a': for attr, value in attrs: if attr == 'href': self.text.append(f" (link: {value})") def get_text(self): return ''.join(self.text)
Sortie améliorée :
Welcome to our website!We offer exceptional services for our customers.Contact us at: contact@example.com (link: mailto:contact@example.com)
## Use Cases - **SEO**: Clean HTML tags to analyze the plain text content of a webpage. - **Emails**: Transform HTML emails into plain text for basic email clients. - **Scraping**: Extract important data from web pages for analysis or storage. - **Automated Reports**: Simplify API responses containing HTML into readable text.
## Limitations and Alternatives While `HTMLParser` is simple and efficient, it has some limitations: - **Complex HTML**: It may struggle with very complex or poorly formatted HTML documents. - **Limited Features**: It doesn't provide advanced parsing features like CSS selectors or DOM tree manipulation. ### Alternatives If you need more robust features, consider using these libraries: - **BeautifulSoup**: Excellent for complex HTML parsing and manipulation. - **lxml**: Known for its speed and support for both XML and HTML parsing.
Avec cette solution, vous pouvez facilement extraire du texte brut du HTML en quelques lignes de code seulement. Que vous travailliez sur un projet personnel ou une tâche professionnelle, cette approche est parfaite pour un nettoyage et une analyse HTML légers.
Si votre cas d'utilisation implique du HTML plus complexe ou mal formé, envisagez d'utiliser des bibliothèques comme BeautifulSoup ou lxml pour des fonctionnalités améliorées.
N'hésitez pas à essayer ce code dans vos projets et à partager vos expériences. Bon codage ! ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!