찾다

 >  Q&A  >  본문

문자열을 분할할 때 특정 HTML 태그 유지

문자열을 특정 태그 수로 분할해야 합니다 (<li>, <lu> ...). 정규식을 알아냈습니다

pattern = <li>|<ul>|<ol>|<li>|<dl>|<dt>|<dd>|<h1>|<h2>| <h3>|<h4>|<h5>|<h6>re.split

기본적으로 작업이 완료됩니다

으아악

하지만 여는 태그와 닫는 태그를 캡처하여 분할된 텍스트에 태그를 유지하고 싶습니다. 비슷한거

test_string = '<p> Some text some text some text. </p> <p> Another text another text </p>. <li> some list </li>. <ul> another list </ul>'
res = re.search(test_string, pattern) 
-> `['<p> Some text some text some text. </p> <p> Another text another text </p>. ', ' some list </li>. ', ' another list </ul>']`

P粉841870942P粉841870942231일 전479

모든 응답(1)나는 대답할 것이다

  • P粉787806024

    P粉7878060242024-04-01 10:26:40

    특정 질문에 답변하려면:

    으아악

    그리고 분할 대신 일치합니다.

    1은 여는 태그에 담긴 내용을 말합니다.

    유사한 것:

    으아악

    그러나 대부분의 실제 경우 이는 HTML을 처리하기에 충분하지 않으며 DOM 파서를 고려해야 합니다.

    회신하다
    0
  • 취소회신하다