特定のコンテンツを対象とした DOMDocument 解析
強力な PHP ライブラリである「DOMDocument」を使用すると、HTML ドキュメントを正確に解析できます。特定の名前を持つすべてのタグを取得する「getElementsByTagName」とは異なり、このメソッドは XPath クエリを利用して目的の要素を効果的にターゲットにします。
特定のコンテキスト内のテキスト ノードをキャプチャ
するには特定のテキスト コンテンツを抽出する場合、プロセスには以下が含まれます。
$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
このクエリは、すべての
「foreach」ループを使用して、結果として得られた要素のリストを反復処理すると、実際のテキストを含む「nodeValue」を抽出できます。
foreach ($tags as $tag) { var_dump(trim($tag->nodeValue)); }
実装例
次の HTML スニペットを考えてみましょう:
<code class="html"><div class="main"> <div class="text"> Capture this text 1 </div> </div> <div class="main"> <div class="text"> Capture this text 2 </div> </div></code>
提供されたクエリを使用すると、出力は次のようになります:
string 'Capture this text 1' (length=19) string 'Capture this text 2' (length=19)
This 「DOMDocument」と XPath を使用して、階層 HTML 構造内の特定のテキスト コンテンツを正確に抽出する機能を示します。
以上がDOMDocument と XPath を使用して、HTML から特定のテキスト コンテンツをターゲットにして抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。