Maison  >  Article  >  interface Web  >  Comment lire le contenu du texte dans un fichier HTML

Comment lire le contenu du texte dans un fichier HTML

下次还敢
下次还敢original
2024-04-11 13:57:24483parcourir

Pour lire le contenu du texte dans un fichier HTML, effectuez les étapes suivantes : Charger le fichier HTML Analyser le HTML Extraire le texte à l'aide de l'attribut text ou de la méthode get_text() Facultatif : Nettoyer le texte (supprimer les espaces, les caractères spéciaux et convertir en minuscule) Afficher le texte (Imprimer, écrire dans des fichiers, etc.)

Comment lire le contenu du texte dans un fichier HTML

Comment lire le contenu du texte dans les fichiers HTML

Pour extraire le contenu du texte des fichiers HTML, vous pouvez suivre les étapes suivantes :

1. Charger des fichiers HTML

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>

2. Analyser HTML

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>

3. Extraire le contenu du texte

Il existe deux façons d'extraire le contenu du texte :

  • Utilisez le text attribut : <code>text 属性:提取 HTML 标签内的所有文本,包括标签本身。
<code class="python">text = soup.text</code>
  • 使用 get_text()Extraire le contenu du texte dans la balise HTML Tout le texte, y compris l'étiquette elle-même.
<code class="python">text = soup.get_text()</code>

Utilisez la méthode get_text() : Extrayez le texte dans la balise HTML, mais ignorez la balise elle-même.

<code class="python">text = text.replace(' ', '')</code>
    4. Nettoyer le contenu du texte (facultatif)
  • Si vous devez nettoyer davantage le contenu du texte, vous pouvez effectuer les opérations suivantes :
  • Supprimer les caractères vides :
<code class="python">import string

text = text.translate(str.maketrans('', '', string.punctuation))</code>
  • Supprimer les caractères spéciaux caractères :
<code class="python">text = text.lower()</code>

Convertir en minuscules :

<code class="python">print(text)</code>
    5. Sortir le contenu du texte
  • Vous pouvez sortir le contenu du texte de plusieurs manières :
  • Imprimer sur la console :
<code class="python">with open('output.txt', 'w') as f:
    f.write(text)</code>
🎜🎜Écrire un fichier : 🎜🎜🎜rrreee

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn