分割字符串时保留特定的 html 标签

Question

我需要按特定数量的标签分割字符串(

,...)。我想出了正则表达式pattern=

|

P粉787806024 · Answer

回答您的具体问题：

<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*

并且匹配而不是拆分。

\1 指的是开始标记中捕获的内容。

类似于：

for match in re.finditer(r"<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*", subject, re.DOTALL):

但是，在大多数真实情况下，这不足以处理 HTML，您应该考虑 DOM 解析器。