Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimanakah DOMDocument dan XPath boleh digunakan untuk Menyasarkan dan Mengekstrak Kandungan Teks Tertentu daripada HTML?

Bagaimanakah DOMDocument dan XPath boleh digunakan untuk Menyasarkan dan Mengekstrak Kandungan Teks Tertentu daripada HTML?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-10-30 09:51:27962semak imbas

How can DOMDocument and XPath be used to Target and Extract Specific Text Content from HTML?

DOMDocument Parsing untuk Menyasarkan Kandungan Khusus

Menggunakan "DOMDocument", sebuah perpustakaan PHP yang berkuasa, membolehkan penghuraian tepat dokumen HTML. Tidak seperti "getElementsByTagName", yang mendapatkan semula semua teg dengan nama tertentu, kaedah ini menggunakan pertanyaan XPath untuk menyasarkan elemen yang diingini dengan berkesan.

Tangkap Nod Teks dalam Konteks Khusus

Kepada mengekstrak kandungan teks tertentu, prosesnya melibatkan:

  • Memuatkan rentetan HTML ke dalam objek DOM menggunakan "DOMDocument::loadHTML".
  • Memulakan objek "XPath" menggunakan "DOMXPath baharu ($dom)".
  • Menggunakan pertanyaan XPath yang menentukan nod sasaran. Contohnya:
$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');

Pertanyaan ini mendapatkan semula semua

teg dengan kelas "teks" yang bersarang dalam
teg dengan kelas "utama".

Lelaran melalui senarai elemen yang terhasil menggunakan gelung "foreach" membolehkan pengekstrakan "nodeValue", yang mengandungi teks sebenar:

foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

Contoh Pelaksanaan

Pertimbangkan coretan HTML berikut:

<code class="html"><div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div></code>

Menggunakan pertanyaan yang disediakan, outputnya ialah:

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)

Ini menunjukkan keupayaan untuk mengekstrak kandungan teks tertentu dengan tepat dalam struktur HTML hierarki menggunakan "DOMDocument" dan XPath.

Atas ialah kandungan terperinci Bagaimanakah DOMDocument dan XPath boleh digunakan untuk Menyasarkan dan Mengekstrak Kandungan Teks Tertentu daripada HTML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn