Maison >développement back-end >Tutoriel Python >Comment supprimer les balises HTML d'une chaîne à l'aide d'expressions régulières Python ?
Remplacement de chaîne par des expressions régulières en Python
Question :
Comment puis-je remplacer le HTML balises dans une chaîne en utilisant des expressions régulières dans Python ?
Entrées :
this is a paragraph with<[1]> in between</[1]> and then there are cases ... where the<[99]> number ranges from 1-100</[99]>. and there are many other lines in the txt files with<[3]> such tags </[3]>
Sortie souhaitée :
this is a paragraph with in between and then there are cases ... where the number ranges from 1-100. and there are many other lines in the txt files with such tags
Solution :
Pour remplacer plusieurs balises à l'aide d'expressions régulières en Python, suivez ces étapes :
import re line = re.sub(r"<\/?\[\d+>]", "", line)
Explication :
L'expression régulière r"?[d >"] correspond à toute balise commençant par <, suivie par un nombre quelconque de chiffres et se termine par >. Le caractère point d'interrogation ? après le / indique que la barre oblique est facultative. La sous-fonction remplace chaque correspondance par une chaîne vide.
Version commentée :
line = re.sub(r""" (?x) # Use free-spacing mode. < # Match a literal '<' /? # Optionally match a '/' \[ # Match a literal '[' \d+ # Match one or more digits > # Match a literal '>' """, "", line)
Notes supplémentaires :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!