ホームページ >バックエンド開発 >PHPチュートリアル >DOMDocument と XPath を使用して特定の HTML タグからテキストを抽出する方法
PHP の DOMDocument と XPath を使用した HTML の解析
PHP の DOMDocument を使用して HTML を解析しようとするとき、一般的な問題は、次のタグ内の特定のテキストを見つけることです。特定のクラス。このような場合、DOMDocument::getElementsByTagName だけを使用するだけでは十分ではない可能性があります。
ターゲット クラスのタグ内の特定のテキストをキャプチャするには、DOMDocument と DOMXPath を利用する別のアプローチをお勧めします。 DOMXPath を使用すると、属性と構造に基づいて要素を検索するための強力な XPath クエリが可能になります。
次の HTML について考えてみましょう。
<div class="main"> <div class="text"> Capture this text 1 </div> </div> <div class="main"> <div class="text"> Capture this text 2 </div> </div>
php $html = <<loadHTML($html); $xpath = new DOMXPath($dom); $tags = $xpath->query('//div[@class="main"]/div[@class="text"]'); foreach ($tags as $tag) { var_dump(trim($tag->nodeValue)); }
string 'Capture this text 1' (length=19) string 'Capture this text 2' (length=19)
このコード スニペットは次の出力を行います:
DOMDocument と DOMXPath を利用することで、要素内の要素を正確に見つけて取得できます。特定のクラス階層やコンテンツ要件を扱う場合でも、HTML 構造を使用します。以上がDOMDocument と XPath を使用して特定の HTML タグからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。