Rumah > Artikel > pembangunan bahagian belakang > Amalan perangkak PHP: cara merangkak data jadual web
Dengan kemunculan Internet dan era data besar, semakin banyak data boleh dikumpul dan digunakan. Di antara banyak kaedah untuk mendapatkan data dari halaman web, teknologi crawler boleh dikatakan sebagai yang paling berkuasa dan cekap.
Dalam senario aplikasi sebenar, kita selalunya perlu mengambil data khusus daripada halaman web, terutamanya data jadual dalam halaman web. Oleh itu, artikel ini akan memperkenalkan cara menggunakan teknologi perangkak PHP untuk mendapatkan dan menghuraikan data jadual dalam halaman web.
Sebelum kita mula menulis kod perangkak, kita perlu memasang dan mengkonfigurasi perpustakaan perangkak PHP. Di sini kami memilih untuk menggunakan pustaka PHP Simple HTML DOM Parser, yang merupakan penghurai HTML ringan yang boleh menghuraikan tag dan atribut dengan mudah dalam dokumen HTML, dan menyediakan beberapa kaedah operasi DOM yang biasa digunakan. Perpustakaan boleh dipasang dan dikonfigurasikan dengan mudah menggunakan alat komposer.
Sebelum menulis kod untuk menangkap data halaman web, kita perlu menganalisis struktur dan format data halaman web sasaran terlebih dahulu supaya kita dapat dengan betul mencari dan mendapatkannya data yang diperlukan. Di sini kami mengambil halaman senarai artikel tapak web blog sebagai contoh Ia mengandungi berbilang baris data dan beberapa elemen jadual, seperti yang ditunjukkan di bawah:
<table> <thead> <tr> <th>编号</th> <th>标题</th> <th>作者</th> <th>发布时间</th> </tr> </thead> <tbody> <tr> <td>1</td> <td><a href="/articles/1">PHP爬虫实战</a></td> <td>张三</td> <td>2022-06-01 08:00:00</td> </tr> <tr> <td>2</td> <td><a href="/articles/2">Python数据可视化</a></td> <td>李四</td> <td>2022-06-02 09:00:00</td> </tr> <!-- more rows --> </tbody> </table>
Jadual dalam halaman web ini terdiri daripada f5d188ed2c074f8b944552db028f98a1
, , Ia terdiri daripada teg seperti ae20bdd317918ca68efdc799512a9b39
dan 92cee25da80fac49f6fb6eec5fd2c22a
, di mana a34de1251f0d9fe1e645927f19a896e8
digunakan untuk mentakrifkan pengepala lajur jadual, ae20bdd317918ca68efdc799512a9b39
digunakan untuk menentukan data baris jadual, 92cee25da80fac49f6fb6eec5fd2c22a
digunakan untuk mentakrifkan data sel dan teg b6c5a531a458a2e790c1fd6421739d1c
Pautan yang mewakili tajuk artikel. 3499910bf9dac5ae3c52d5ede7383485
untuk menukarnya menjadi objek DOM. Kemudian, kita boleh menggunakan kaedah file_get_html()
untuk memilih elemen di mana data berada Sebagai contoh, find()
bermaksud memilih semua tag table > tbody > tr
di bawah elemen anak f5d188ed2c074f8b944552db028f98a1
daripada 92cee25da80fac49f6fb6eec5fd2c22a
, iaitu semua. baris data dalam jadual. Kodnya adalah seperti berikut: a34de1251f0d9fe1e645927f19a896e8
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { // 解析表格数据 }Kemudian, kita perlu melintasi setiap baris data, menghuraikan data sel dan menyimpannya ke tatasusunan untuk pemprosesan seterusnya. Secara khusus, kita boleh menggunakan kaedah
untuk memilih elemen anak find('td')
setiap elemen baris, dan kemudian mendapatkan kandungan teks atau alamat pautannya. Kodnya adalah seperti berikut: b6c5a531a458a2e790c1fd6421739d1c
$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html->find('table > tbody > tr') as $row) { $data = array(); // 获取单元格文本内容或链接地址 $columns = $row->find('td'); $data['id'] = $columns[0]->plaintext; $data['title'] = $columns[1]->find('a', 0)->plaintext; $data['link'] = $columns[1]->find('a', 0)->href; $data['author'] = $columns[2]->plaintext; $data['date'] = $columns[3]->plaintext; $rows[] = $data; }Dalam kod di atas, tatasusunan
menyimpan data baris semasa, di mana $data
, id
, title
dan author
masing-masing sepadan dengan lajur jadual, dan date
Ia adalah alamat pautan tajuk artikel. Gunakan penyataan link
untuk menambah tatasusunan $rows[] = $data
pada tatasusunan $data
. $rows
Atas ialah kandungan terperinci Amalan perangkak PHP: cara merangkak data jadual web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!