Maison  >  Article  >  développement back-end  >  Comment extraire le texte de balises HTML spécifiques à l'aide de DOMDocument et XPath ?

Comment extraire le texte de balises HTML spécifiques à l'aide de DOMDocument et XPath ?

Linda Hamilton
Linda Hamiltonoriginal
2024-10-31 13:14:20568parcourir

How to Extract Text from Specific HTML Tags Using DOMDocument and XPath?

Analyse HTML avec DOMDocument et XPath de PHP

Lorsque vous essayez d'analyser du HTML à l'aide du DOMDocument de PHP, un problème courant est de trouver du texte spécifique dans les balises de classes particulières. L'utilisation de DOMDocument::getElementsByTagName seule peut ne pas suffire dans de tels cas.

Pour capturer un texte spécifique dans les balises d'une classe cible, une approche alternative utilisant DOMDocument et DOMXPath est recommandée. DOMXPath permet de puissantes requêtes XPath pour localiser des éléments en fonction de leurs attributs et de leur structure.

Considérez le code HTML suivant :

<div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div>

Pour récupérer le texte dans le fichier

balises avec class="text" qui sont des descendants des balises
balises avec class="main", suivez ces étapes :

php
$html = <<loadHTML($html);

$xpath = new DOMXPath($dom);

$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

Cet extrait de code affichera :

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)

En utilisant DOMDocument et DOMXPath, vous pouvez localiser et récupérer avec précision les éléments contenus dans une structure HTML, même lorsqu'il s'agit de hiérarchies de classes et d'exigences de contenu spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn