Simpan tag html tertentu apabila membelah rentetan

Question

Saya perlu membahagikan rentetan dengan bilangan tag tertentu (

,...). Saya menghasilkan corak regex=

|

P粉787806024 · Answer

Untuk menjawab soalan khusus anda:

<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*

Dan padankan bukannya berpecah.

1 merujuk kepada apa yang ditangkap dalam tag pembukaan.

Serupa dengan:

for match in re.finditer(r"<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*", subject, re.DOTALL):

Walau bagaimanapun, dalam kebanyakan kes sebenar ini tidak mencukupi untuk mengendalikan HTML dan anda harus mempertimbangkan penghurai DOM.