>  기사  >  백엔드 개발  >  HTML에서 특정 텍스트 콘텐츠를 대상으로 지정하고 추출하기 위해 DOMDocument 및 XPath를 어떻게 사용할 수 있습니까?

HTML에서 특정 텍스트 콘텐츠를 대상으로 지정하고 추출하기 위해 DOMDocument 및 XPath를 어떻게 사용할 수 있습니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-10-30 09:51:27900검색

How can DOMDocument and XPath be used to Target and Extract Specific Text Content from HTML?

특정 콘텐츠 타겟팅을 위한 DOMDocument 구문 분석

강력한 PHP 라이브러리인 "DOMDocument"를 사용하면 HTML 문서를 정확하게 구문 분석할 수 있습니다. 특정 이름을 가진 모든 태그를 검색하는 "getElementsByTagName"과 달리 이 방법은 XPath 쿼리를 활용하여 원하는 요소를 효과적으로 타겟팅합니다.

특정 컨텍스트 내의 텍스트 노드 캡처

To 특정 텍스트 콘텐츠를 추출하는 과정은 다음과 같습니다.

  • "DOMDocument::loadHTML"을 사용하여 HTML 문자열을 DOM 객체에 로드합니다.
  • "new DOMXPath를 사용하여 "XPath" 객체 시작 ($dom)".
  • 대상 노드를 지정하는 XPath 쿼리를 사용합니다. 예를 들면 다음과 같습니다.
$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');

이 쿼리는 모든

내에 중첩된 "text" 클래스가 있는 태그 "main" 클래스가 있는 태그.

"foreach" 루프를 사용하여 결과 요소 목록을 반복하면 실제 텍스트가 포함된 "nodeValue"를 추출할 수 있습니다.

foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

구현 예

다음 HTML 조각을 고려하세요.

<code class="html"><div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div></code>

제공된 쿼리를 사용하면 출력은 다음과 같습니다.

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)

이것은 "DOMDocument" 및 XPath를 사용하여 계층적 HTML 구조 내에서 특정 텍스트 콘텐츠를 정확하게 추출하는 기능을 보여줍니다.

위 내용은 HTML에서 특정 텍스트 콘텐츠를 대상으로 지정하고 추출하기 위해 DOMDocument 및 XPath를 어떻게 사용할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.