Conserver des balises HTML spécifiques lors du fractionnement d'une chaîne

Question

Je dois diviser une chaîne par un nombre spécifique de balises (

,...). J'ai trouvé le modèle regex=

|

P粉787806024 · Answer

Pour répondre à vos questions spécifiques :

<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*

Et faites correspondre au lieu de diviser.

1 fait référence à ce qui est capturé dans la balise d'ouverture.

Semblable à :

for match in re.finditer(r"<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*", subject, re.DOTALL):

Cependant, dans la plupart des cas réels, cela ne suffit pas pour gérer le HTML et vous devriez envisager un analyseur DOM.