Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Contoh pembangunan perangkak web mudah PHP

Contoh pembangunan perangkak web mudah PHP

王林
王林asal
2023-06-13 18:54:46866semak imbas

Dengan perkembangan pesat Internet, data telah menjadi salah satu sumber terpenting dalam era maklumat hari ini. Sebagai teknologi yang memperoleh dan memproses data rangkaian secara automatik, perangkak web semakin menarik perhatian dan aplikasi. Artikel ini akan memperkenalkan cara menggunakan PHP untuk membangunkan perangkak web yang ringkas dan merealisasikan fungsi mendapatkan data rangkaian secara automatik.

1. Gambaran keseluruhan perangkak web

Perangkak web ialah teknologi yang secara automatik memperoleh dan memproses sumber rangkaian Proses kerja utamanya adalah untuk mensimulasikan tingkah laku penyemak imbas, mengakses alamat URL yang ditentukan secara automatik dan mengekstrak semua Data diperlukan. Secara umumnya, perangkak web boleh dibahagikan kepada langkah berikut:

  1. Tentukan URL sasaran untuk merangkak; >
  2. Parsing kod sumber halaman web dan ekstrak data yang diperlukan;
  3. menyimpan data dan terus merangkak ke URL seterusnya.
  4. 2. Persediaan persekitaran pembangunan PHP
Sebelum mula membangunkan perangkak web, kita perlu menyediakan persekitaran pembangunan PHP. Operasi khusus adalah seperti berikut:

Muat turun dan pasang PHP, yang boleh dimuat turun dari tapak web rasmi (https://www.php.net/) atau laman web cermin lain

    Pasang pelayan Web , seperti Apache, Nginx, dll.;
  1. Konfigurasikan pembolehubah persekitaran PHP untuk memastikan PHP boleh dijalankan dalam baris arahan.
  2. 3. Menulis perangkak web
Seterusnya, kita akan mula menulis perangkak web. Katakan kita ingin merangkak tajuk dan URL dalam halaman hasil carian Baidu dan menulisnya ke dalam fail CSV Kod khusus adalah seperti berikut:

<?php
// 定义爬取的目标 URL
$url = 'https://www.baidu.com/s?wd=php';

// 发送 HTTP 请求获取网页源代码
$html = file_get_contents($url);

// 解析网页源代码,提取所需数据
$doc = new DOMDocument();
@$doc->loadHTML($html);
$xpath = new DOMXPath($doc);
$nodes = $xpath->query('//h3[@class="t"]/a');

// 存储数据,并继续爬取下一个 URL
$fp = fopen('result.csv', 'w');
foreach ($nodes as $node) {
  $title = $node->nodeValue;
  $link = $node->getAttribute('href');
  fputcsv($fp, [$title, $link]);
}
fclose($fp);
?>

Kod di atas mula-mula mentakrifkan URL sasaran untuk dirangkak, dan kemudian. Gunakan fungsi

dalam PHP untuk menghantar permintaan HTTP dan mendapatkan kod sumber halaman web. Seterusnya, gunakan kelas

dan kelas

untuk menghuraikan kod sumber halaman web dan mengekstrak data yang kami perlukan. Akhir sekali, gunakan fungsi file_get_contents() untuk menulis data ke fail CSV. DOMDocumentDOMXPath4. Jalankan perangkak web fputcsv()

Selepas melengkapkan penulisan kod, kami boleh menjalankan skrip dalam baris arahan untuk mendapatkan tajuk dan URL secara automatik dalam halaman hasil carian Baidu dan menulisnya ke dalam fail CSV. Operasi khusus adalah seperti berikut:

Buka tetingkap baris arahan

    Masukkan direktori di mana skrip berada
  1. Jalankan skrip, arahannya ialah
  2. ;
  3. Tunggu skrip selesai dijalankan. php spider.php
  4. 5. Ringkasan
Artikel ini memperkenalkan cara menggunakan PHP untuk membangunkan perangkak web yang ringkas dan merealisasikan fungsi mendapatkan data rangkaian secara automatik. Sudah tentu, ini hanyalah kod contoh mudah dan perangkak web sebenar mungkin lebih kompleks. Tetapi tidak kira apa jenis perangkak web kita, kita harus mematuhi undang-undang, peraturan dan etika serta tidak terlibat dalam tingkah laku yang menyalahi undang-undang atau berbahaya.

Atas ialah kandungan terperinci Contoh pembangunan perangkak web mudah PHP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn