>  기사  >  백엔드 개발  >  DOMDocument 및 XPath를 사용하여 특정 HTML 태그에서 텍스트를 추출하는 방법은 무엇입니까?

DOMDocument 및 XPath를 사용하여 특정 HTML 태그에서 텍스트를 추출하는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2024-10-31 13:14:20502검색

How to Extract Text from Specific HTML Tags Using DOMDocument and XPath?

PHP의 DOMDocument 및 XPath를 사용하여 HTML 구문 분석

PHP의 DOMDocument를 사용하여 HTML을 구문 분석하려고 할 때 일반적인 문제는 태그 내에서 특정 텍스트를 찾는 것입니다. 특정 수업. 이러한 경우에는 DOMDocument::getElementsByTagName만으로는 충분하지 않을 수 있습니다.

대상 클래스의 태그 내의 특정 텍스트를 캡처하려면 DOMDocument 및 DOMXPath를 활용하는 대체 접근 방식이 권장됩니다. DOMXPath를 사용하면 속성과 구조를 기반으로 요소를 찾을 수 있는 강력한 XPath 쿼리를 사용할 수 있습니다.

다음 HTML을 고려하세요.

<div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div>

class="main"이 있는 태그는 다음 단계를 따르세요.

php
$html = <<loadHTML($html);

$xpath = new DOMXPath($dom);

$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

이 코드 조각은 다음을 출력합니다.

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)

DOMDocument 및 DOMXPath를 활용하면 내부 요소를 정확하게 찾고 검색할 수 있습니다. 특정 클래스 계층 및 콘텐츠 요구 사항을 처리하는 경우에도 HTML 구조를 사용합니다.

위 내용은 DOMDocument 및 XPath를 사용하여 특정 HTML 태그에서 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.