BeautifulSoup을 사용하여 균일하지 않은 구조의 HTML 블록에서 정보를 추출하려고 합니다. 검색/필터 출력의 태그 사이에 텍스트 블록을 결합하는 방법을 찾고 있습니다. 예를 들어 HTML에서:
으아악특정 유형의 태그를 무시하는 출력 목록을 생성하고 싶습니다(위의 예에서는 ul
和 li
),但捕获顶级未标记文本。我发现的最接近的是 .select(':not(ul,li)')
或 .find_all(['strong'])
. 그러나 둘 중 어느 것도 태그가 지정되지 않은 최상위 텍스트와 다양한 대상 태그를 모두 캡처할 수 없습니다. 이상적인 동작은 다음과 같습니다.
다음과 같은 출력이 생성됩니다.
<span> <strong>Description</strong> Section1 <ul> <li>line1</li> <li>line2</li> <li>line3</li> </ul> <strong>Section2</strong> Content2 </span>