>  기사  >  백엔드 개발  >  PHP DOM을 사용하여 특정 클래스가 있는 HTML 요소의 텍스트를 평면 배열로 추출하는 방법은 무엇입니까?

PHP DOM을 사용하여 특정 클래스가 있는 HTML 요소의 텍스트를 평면 배열로 추출하는 방법은 무엇입니까?

DDD
DDD원래의
2024-11-15 17:18:03877검색

How to Extract Text from HTML Elements with Specific Classes into Flat Arrays using PHP DOM?

PHP DOM을 사용하여 지정된 클래스가 있는 요소에서 단순 텍스트 추출

특정 HTML 요소에서 텍스트를 추출하는 것은 웹 개발의 일반적인 작업입니다. PHP DOM은 HTML을 구문 분석하고 해당 콘텐츠에 액세스하기 위한 강력한 도구를 제공합니다. 이 문서에서는 지정된 클래스가 있는 요소에서 두 개의 평면 배열로 텍스트를 추출하기 위한 특정 요구 사항을 다룹니다.

문제

다음과 같은 여러 p 요소 사이에 분산된 텍스트가 포함된 HTML 콘텐츠 제공 클래스 이름을 번갈아 사용하는 경우 작업은 텍스트를 두 개의 배열(제목용 배열과 내용용 배열)에 저장하는 것입니다. 예를 들어 다음 HTML의 경우:

<p class="Heading1-P">
    <span class="Heading1-H">Chapter 1</span>
</p>
<p class="Normal-P">
    <span class="Normal-H">This is chapter 1</span>
</p>

다음 출력을 얻어야 합니다.

$heading = ['Chapter 1', 'Chapter 2', 'Chapter 3'];
$content = ['This is chapter 1', 'This is chapter 2', 'This is chapter 3'];

솔루션

이를 수행하려면 PHP DOM을 사용하여 추출하려면 DOMDocument 및 DOMXPath를 사용합니다. 해결 방법은 다음 단계로 구성됩니다.

  1. HTML을 DOMDocument 개체에 로드:
$dom = new DOMDocument();
$dom->loadHTML($test);
  1. XPath를 수행하기 위한 DOMXPath 개체 만들기:
$xpath = new DOMXPath($dom);
  1. parseToArray() 함수를 사용하여 지정된 클래스가 있는 요소에서 텍스트 추출:
$heading = parseToArray($xpath, 'Heading1-H');
$content = parseToArray($xpath, 'Normal-H');

parseToArray() 함수에서:

  • 지정된 클래스에 대해 XPath 쿼리를 수행합니다.
  • 일치하는 노드를 반복하고 해당 노드의 텍스트 콘텐츠를 추출합니다.
  • 추출된 텍스트를 배열에 저장합니다.

전체 PHP 코드는 다음과 같습니다.

query($xpathquery);

    $resultarray = [];
    foreach ($elements as $element) {
        $nodes = $element->childNodes;
        foreach ($nodes as $node) {
            $resultarray[] = $node->nodeValue;
        }
    }

    return $resultarray;
}

$test = <<
    Chapter 2

This is chapter 2

Chapter 3

This is chapter 3

HTML; $dom = new DOMDocument(); $dom->loadHTML($test); $xpath = new DOMXPath($dom); $heading = parseToArray($xpath, 'Heading1-H'); $content = parseToArray($xpath, 'Normal-H'); var_dump($heading); echo "
"; var_dump($content); echo "
";

이 접근 방식은 PHP DOM 및 XPath의 강력한 기능을 활용하여 HTML 문서에서 텍스트를 효율적으로 추출하므로 더 복잡한 작업이 가능합니다. 그리고 타겟 콘텐츠 조작.

위 내용은 PHP DOM을 사용하여 특정 클래스가 있는 HTML 요소의 텍스트를 평면 배열로 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.