Heim  >  Artikel  >  Backend-Entwicklung  >  Wie können DOMDocument und XPath verwendet werden, um bestimmte Textinhalte gezielt aus HTML zu extrahieren?

Wie können DOMDocument und XPath verwendet werden, um bestimmte Textinhalte gezielt aus HTML zu extrahieren?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-10-30 09:51:27900Durchsuche

How can DOMDocument and XPath be used to Target and Extract Specific Text Content from HTML?

DOMDocument-Parsing zur gezielten Ausrichtung auf bestimmte Inhalte

Die Verwendung von „DOMDocument“, einer leistungsstarken PHP-Bibliothek, ermöglicht das präzise Parsen von HTML-Dokumenten. Im Gegensatz zu „getElementsByTagName“, das alle Tags mit einem bestimmten Namen abruft, nutzt diese Methode XPath-Abfragen, um gewünschte Elemente effektiv anzusprechen.

Textknoten in bestimmten Kontexten erfassen

Zu Um bestimmte Textinhalte zu extrahieren, umfasst der Prozess Folgendes:

  • Laden der HTML-Zeichenfolge in ein DOM-Objekt mit „DOMDocument::loadHTML“.
  • Initiieren eines „XPath“-Objekts mit „new DOMXPath ($dom)".
  • Verwendung einer XPath-Abfrage, die die Zielknoten angibt. Zum Beispiel:
$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');

Diese Abfrage ruft alle

Tags mit der Klasse „text“, die in
verschachtelt sind Tags mit der „main“-Klasse.

Das Durchlaufen der resultierenden Liste von Elementen mithilfe einer „foreach“-Schleife ermöglicht die Extraktion von „nodeValue“, das den eigentlichen Text enthält:

foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

Beispielimplementierung

Betrachten Sie das folgende HTML-Snippet:

<code class="html"><div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div></code>

Mit der bereitgestellten Abfrage wäre die Ausgabe:

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)

Dies demonstriert die Fähigkeit, mithilfe von „DOMDocument“ und XPath bestimmte Textinhalte innerhalb einer hierarchischen HTML-Struktur präzise zu extrahieren.

Das obige ist der detaillierte Inhalt vonWie können DOMDocument und XPath verwendet werden, um bestimmte Textinhalte gezielt aus HTML zu extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn