分割字串時保留特定的 html 標籤

Question

我需要按特定數量的標籤分割字串(

,...)。我想出了正規表示式pattern=

|

P粉787806024 · Answer

回答您的具體問題：

<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*

並且匹配而不是拆分。

\1 指的是開始標記中捕獲的內容。

類似：

for match in re.finditer(r"<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*", subject, re.DOTALL):

但是，在大多數真實情況下，這不足以處理 HTML，您應該考慮 DOM 解析器。