Maison >interface Web >tutoriel HTML >Comment lire le contenu du texte dans un fichier HTML

Comment lire le contenu du texte dans un fichier HTML

下次还敢original: 2024-04-11 13:57:24753parcourir

Pour lire le contenu du texte dans un fichier HTML, effectuez les étapes suivantes : Charger le fichier HTML Analyser le HTML Extraire le texte à l'aide de l'attribut text ou de la méthode get_text() Facultatif : Nettoyer le texte (supprimer les espaces, les caractères spéciaux et convertir en minuscule) Afficher le texte (Imprimer, écrire dans des fichiers, etc.)

Comment lire le contenu du texte dans les fichiers HTML

Pour extraire le contenu du texte des fichiers HTML, vous pouvez suivre les étapes suivantes :

1. Charger des fichiers HTML

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>

2. Analyser HTML

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>

3. Extraire le contenu du texte

Il existe deux façons d'extraire le contenu du texte :

Utilisez le text attribut : <code>text 属性：提取 HTML 标签内的所有文本，包括标签本身。

<code class="python">text = soup.text</code>

使用 get_text()Extraire le contenu du texte dans la balise HTML Tout le texte, y compris l'étiquette elle-même.

<code class="python">text = soup.get_text()</code>

Utilisez la méthode get_text() : Extrayez le texte dans la balise HTML, mais ignorez la balise elle-même.

<code class="python">text = text.replace(' ', '')</code>

Si vous devez nettoyer davantage le contenu du texte, vous pouvez effectuer les opérations suivantes :

Supprimer les caractères vides :

<code class="python">import string

text = text.translate(str.maketrans('', '', string.punctuation))</code>

Supprimer les caractères spéciaux caractères :

<code class="python">text = text.lower()</code>

Convertir en minuscules :

<code class="python">print(text)</code>

Vous pouvez sortir le contenu du texte de plusieurs manières :

Imprimer sur la console :

<code class="python">with open('output.txt', 'w') as f:
    f.write(text)</code>

🎜🎜Écrire un fichier : 🎜🎜🎜rrreee

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

html

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment définir la transparence de la couleur de la police HTMLArticle suivant：Comment définir la transparence de la couleur de la police HTML

Articles Liés

Voir plus