Heim >Web-Frontend >HTML-Tutorial >So lesen Sie Textinhalte in einer HTML-Datei

So lesen Sie Textinhalte in einer HTML-Datei

下次还敢
下次还敢Original
2024-04-11 13:57:24564Durchsuche

Um den Textinhalt in einer HTML-Datei zu lesen, führen Sie die folgenden Schritte aus: Laden Sie die HTML-Datei. Analysieren Sie den HTML-Code. Extrahieren Sie den Text mit dem Textattribut oder der get_text()-Methode. Optional: Bereinigen Sie den Text (entfernen Sie Leerzeichen und Sonderzeichen und konvertieren Sie ihn in Kleinbuchstaben) Geben Sie den Text aus (Drucken, in Dateien schreiben usw.).

1. HTML-Dateien laden

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>
So lesen Sie Textinhalte in einer HTML-Datei2. HTML analysieren

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>

3. Textinhalte extrahieren

Es gibt zwei Möglichkeiten, Textinhalte zu extrahieren:

Verwenden Sie den text Attribut: Textinhalt innerhalb des HTML-Tags extrahieren. Gesamter Text, einschließlich der Beschriftung selbst.

<code class="python">text = soup.text</code>

Verwenden Sie die Methode get_text():

Extrahieren Sie den Text innerhalb des HTML-Tags, ignorieren Sie jedoch das Tag selbst.

<code class="python">text = soup.get_text()</code>
  • 4. Textinhalt bereinigen (optional) text 属性:提取 HTML 标签内的所有文本,包括标签本身。
<code class="python">text = text.replace(' ', '')</code>
  • 使用 get_text()Wenn Sie den Textinhalt weiter bereinigen müssen, können Sie die folgenden Vorgänge ausführen:

Leerzeichen entfernen:

<code class="python">import string

text = text.translate(str.maketrans('', '', string.punctuation))</code>
  • Sonderzeichen entfernen Zeichen:
<code class="python">text = text.lower()</code>
  • In Kleinbuchstaben umwandeln:
<code class="python">print(text)</code>
    5. Textinhalt ausgeben
  • Sie können Textinhalte auf viele Arten ausgeben:

Auf der Konsole drucken:

<code class="python">with open('output.txt', 'w') as f:
    f.write(text)</code>
  • Datei schreiben:
  • rrreee

Das obige ist der detaillierte Inhalt vonSo lesen Sie Textinhalte in einer HTML-Datei. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn