Behalten Sie beim Teilen von Zeichenfolgen bestimmte HTML-Tags bei

Question

Ich muss eine Zeichenfolge durch eine bestimmte Anzahl von Tags (

,...) aufteilen. Ich habe mir das Regex-Muster=

|

P粉787806024 · Answer

回答您的具体问题：

<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*

并且匹配而不是拆分。

\1 指的是开始标记中捕获的内容。

类似于：

for match in re.finditer(r"<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*", subject, re.DOTALL):

但是，在大多数真实情况下，这不足以处理 HTML，您应该考虑 DOM 解析器。