ホームページ >バックエンド開発 >PHPチュートリアル >PHP の DOMDocument と XPath を使用して HTML から特定のテキストを抽出するにはどうすればよいですか?
PHP の DOMDocument を使用して HTML を解析する
PHP の DOMDocument を使用して HTML から特定のテキスト要素を抽出するには、XPath クエリのみを利用するよりも効果的です。 DOMDocument::getElementsByTagName で。 XPath クエリを使用すると、ドキュメント構造内の特定の基準に基づいて正確に選択できます。
ネストされた DIV からのテキストのキャプチャ
提供されているサンプル HTML には、ネストされた
ターゲット テキストをキャプチャするには、XPath クエリを使用できます。
<code class="php">$xpath->query('//div[@class="main"]/div[@class="text"]');</code>
このクエリは、すべての
ノード値の反復と抽出
実際のテキスト コンテンツにアクセスするには、一致する各要素とそのノード値を反復できます。アクセスされるプロパティ:
<code class="php">foreach ($tags as $tag) { var_dump(trim($tag->nodeValue)); }</code>
trim() 関数は、抽出されたテキストから先頭または末尾の空白を削除するために使用されます。
実行出力
コードを実行すると以下が出力されます:
string 'Capture this text 1' (length=19) string 'Capture this text 2' (length=19)
以上がPHP の DOMDocument と XPath を使用して HTML から特定のテキストを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。