Maison > Article > développement back-end > Comment extraire le texte de balises HTML spécifiques à l'aide de DOMDocument et XPath ?
Analyse HTML avec DOMDocument et XPath de PHP
Lorsque vous essayez d'analyser du HTML à l'aide du DOMDocument de PHP, un problème courant est de trouver du texte spécifique dans les balises de classes particulières. L'utilisation de DOMDocument::getElementsByTagName seule peut ne pas suffire dans de tels cas.
Pour capturer un texte spécifique dans les balises d'une classe cible, une approche alternative utilisant DOMDocument et DOMXPath est recommandée. DOMXPath permet de puissantes requêtes XPath pour localiser des éléments en fonction de leurs attributs et de leur structure.
Considérez le code HTML suivant :
<div class="main"> <div class="text"> Capture this text 1 </div> </div> <div class="main"> <div class="text"> Capture this text 2 </div> </div>
Pour récupérer le texte dans le fichier
php $html = <<loadHTML($html); $xpath = new DOMXPath($dom); $tags = $xpath->query('//div[@class="main"]/div[@class="text"]'); foreach ($tags as $tag) { var_dump(trim($tag->nodeValue)); }
Cet extrait de code affichera :
string 'Capture this text 1' (length=19) string 'Capture this text 2' (length=19)
En utilisant DOMDocument et DOMXPath, vous pouvez localiser et récupérer avec précision les éléments contenus dans une structure HTML, même lorsqu'il s'agit de hiérarchies de classes et d'exigences de contenu spécifiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!