Heim >Backend-Entwicklung >Python-Tutorial >Wie entferne ich HTML-Tags aus einer Zeichenfolge mithilfe regulärer Python-Ausdrücke?
String-Ersetzung mit regulären Ausdrücken in Python
Frage:
Wie kann ich HTML ersetzen? Tags innerhalb einer Zeichenfolge mithilfe regulärer Ausdrücke in Python?
Eingaben:
this is a paragraph with<[1]> in between</[1]> and then there are cases ... where the<[99]> number ranges from 1-100</[99]>. and there are many other lines in the txt files with<[3]> such tags </[3]>
Gewünschte Ausgabe:
this is a paragraph with in between and then there are cases ... where the number ranges from 1-100. and there are many other lines in the txt files with such tags
Lösung:
Um mehrere Tags mithilfe regulärer Ausdrücke in Python zu ersetzen, befolgen Sie diese Schritte Schritte:
import re line = re.sub(r"<\/?\[\d+>]", "", line)
Erklärung:
Der reguläre Ausdruck r"?[d >"] stimmt mit jedem Tag überein, das mit < beginnt und gefolgt wird durch eine beliebige Anzahl von Ziffern und endet mit >. Das Fragezeichenzeichen ? nach dem / gibt an, dass der Schrägstrich optional ist. Die Unterfunktion ersetzt jede Übereinstimmung durch eine leere Zeichenfolge.
Kommentierte Version:
line = re.sub(r""" (?x) # Use free-spacing mode. < # Match a literal '<' /? # Optionally match a '/' \[ # Match a literal '[' \d+ # Match one or more digits > # Match a literal '>' """, "", line)
Zusätzliche Hinweise:
Das obige ist der detaillierte Inhalt vonWie entferne ich HTML-Tags aus einer Zeichenfolge mithilfe regulärer Python-Ausdrücke?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!