Rumah >pembangunan bahagian belakang >tutorial php >Contoh menghuraikan dan memproses HTML/XML menggunakan PHP untuk mencipta perangkak web

Contoh menghuraikan dan memproses HTML/XML menggunakan PHP untuk mencipta perangkak web

王林
王林asal
2023-09-08 16:55:441154semak imbas

Contoh menghuraikan dan memproses HTML/XML menggunakan PHP untuk mencipta perangkak web

Contoh penggunaan PHP untuk menghuraikan dan memproses HTML/XML untuk mencipta perangkak web

Pengenalan:
Perangkak web ialah alat automatik yang digunakan untuk merangkak data daripada World Wide Web. Sebagai bahasa skrip sebelah pelayan yang popular, PHP mempunyai perpustakaan dan fungsi yang kaya yang boleh menghuraikan dan memproses data dengan mudah dalam format HTML atau XML. Dalam artikel ini, kami akan memperkenalkan contoh membuat perangkak web menggunakan PHP dan memberikan contoh kod yang berkaitan.

  1. Dapatkan kandungan web
    Sebagai perangkak, anda perlu mendapatkan kandungan halaman web sasaran terlebih dahulu. Dalam PHP, kita boleh menggunakan fungsi curl untuk mendapatkan kandungan halaman web. Berikut ialah contoh kod untuk mendapatkan kandungan web:
$url = "http://example.com";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$output = curl_exec($ch);
curl_close($ch);

echo $output;

Dalam kod ini, kami menentukan URL untuk dirangkak dan menggunakan fungsi curl untuk menetapkan beberapa pilihan, seperti menetapkan CURLOPT_RETURNTRANSFER kepada benar untuk menyimpan kandungan yang diperoleh sebagai aksara rentetan. Akhir sekali, gunakan fungsi curl_exec untuk melaksanakan sesi curl dan simpan output ke dalam pembolehubah $output.

  1. Menghuraikan kandungan HTML
    Selepas mendapatkan kandungan halaman web, langkah seterusnya ialah menghuraikan kandungan HTML untuk mengekstrak data yang diperlukan. PHP menyediakan banyak perpustakaan dan kaedah untuk memproses HTML, salah satu perpustakaan yang biasa digunakan ialah Simple HTML DOM, yang menyediakan antara muka yang ringkas dan mudah digunakan untuk menghuraikan HTML. Berikut ialah contoh kod yang menggunakan Simple HTML DOM untuk menghuraikan HTML:
include('simple_html_dom.php'); // 引入Simple HTML DOM库

$html = str_get_html($output); // 将网页内容加载到Simple HTML DOM对象中

// 找到所有链接并输出
foreach ($html->find('a') as $element) {
    echo $element->href . "<br>";
}

$html->clear(); // 清除Simple HTML DOM对象占用的内存

Dalam kod ini, kami mula-mula memperkenalkan perpustakaan DOM HTML Mudah melalui fungsi include. Seterusnya, gunakan fungsi str_get_html untuk memuatkan kandungan halaman web yang diperoleh ke dalam objek DOM HTML Mudah. Kemudian, cari semua pautan menggunakan kaedah cari dan pemilih CSS, dan keluarkannya menggunakan gelung foreach. Akhir sekali, gunakan kaedah $html->clear untuk mengosongkan memori yang diduduki oleh objek DOM HTML Mudah.

  1. Menghuraikan kandungan XML
    Selain menghuraikan HTML, PHP juga boleh menghuraikan kandungan XML dengan mudah. PHP menyediakan perpustakaan SimpleXML yang ringkas dan mudah digunakan untuk menghuraikan XML. Berikut ialah contoh kod yang menggunakan SimpleXML untuk menghuraikan XML:
$xml = simplexml_load_string($output); // 将XML字符串加载到SimpleXML对象中

// 遍历XML并输出特定字段的内容
foreach ($xml->book as $book) {
    echo "Title: " . $book->title . "<br>";
    echo "Author: " . $book->author . "<br>";
    echo "Year: " . $book->year . "<br><br>";
}

Dalam kod ini, kami menggunakan fungsi simplexml_load_string untuk memuatkan rentetan XML yang diperolehi ke dalam objek SimpleXML. Kemudian, gunakan gelung foreach dan sifat objek untuk melintasi XML dan mengeluarkan kandungan medan yang diperlukan.

Kesimpulan:
Menggunakan PHP untuk menghuraikan dan memproses HTML/XML memudahkan untuk membuat perangkak web dan mengekstrak data yang diperlukan daripada halaman web. Artikel ini memperkenalkan cara menggunakan fungsi curl PHP untuk mendapatkan kandungan halaman web dan cara menggunakan perpustakaan DOM HTML Mudah untuk menghuraikan HTML dan perpustakaan SimpleXML untuk menghuraikan kod sampel XML. Dengan menggunakan kuasa PHP dengan betul, kami boleh mencipta perangkak web kami sendiri dan membina pelbagai jenis aplikasi data dengan mudah.

Atas ialah kandungan terperinci Contoh menghuraikan dan memproses HTML/XML menggunakan PHP untuk mencipta perangkak web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn