ホームページ  >  記事  >  バックエンド開発  >  DOMDocument と XPath を使用して特定の HTML タグからテキストを抽出する方法

DOMDocument と XPath を使用して特定の HTML タグからテキストを抽出する方法

Linda Hamilton
Linda Hamiltonオリジナル
2024-10-31 13:14:20566ブラウズ

How to Extract Text from Specific HTML Tags Using DOMDocument and XPath?

PHP の DOMDocument と XPath を使用した HTML の解析

PHP の DOMDocument を使用して HTML を解析しようとするとき、一般的な問題は、次のタグ内の特定のテキストを見つけることです。特定のクラス。このような場合、DOMDocument::getElementsByTagName だけを使用するだけでは十分ではない可能性があります。

ターゲット クラスのタグ内の特定のテキストをキャプチャするには、DOMDocument と DOMXPath を利用する別のアプローチをお勧めします。 DOMXPath を使用すると、属性と構造に基づいて要素を検索するための強力な XPath クエリが可能になります。

次の HTML について考えてみましょう。

<div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div>

php
$html = <<loadHTML($html);

$xpath = new DOMXPath($dom);

$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

内のテキストを取得するには、
の子孫である class="text" を含むタグclass="main" のタグを指定するには、次の手順に従います:

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)

このコード スニペットは次の出力を行います:

DOMDocument と DOMXPath を利用することで、要素内の要素を正確に見つけて取得できます。特定のクラス階層やコンテンツ要件を扱う場合でも、HTML 構造を使用します。

以上がDOMDocument と XPath を使用して特定の HTML タグからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。