文字列を特定の数のタグ (<li>, <lu> ...)
で分割する必要があります。正規表現
パターン = <li>|<ul>|<ol>|<li>|<dl>|<dt>|<dd>|<h1>|< h2>| <h3>|<h4>|<h5>|<h6>
および re.split
基本的にはこれで仕事は完了します
リーリーただし、開始タグと終了タグをキャプチャし、分割テキスト内のタグを保持したいと考えています。似たような### ああああ
P粉7878060242024-04-01 10:26:40
具体的な質問に答えるには:
リーリー分割ではなく一致します。
\1
は、開始タグでキャプチャされる内容を指します。
ただし、ほとんどの
realの場合、これでは HTML を処理するのに十分ではないため、DOM パーサーを検討する必要があります。