Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Amalan Pengaturcaraan Skrip PHP Linux: Melaksanakan Web Crawler

Amalan Pengaturcaraan Skrip PHP Linux: Melaksanakan Web Crawler

WBOY
WBOYasal
2023-10-05 13:49:021207semak imbas

PHP Linux脚本编程实战:实现Web爬虫

Amalan pengaturcaraan skrip Linux PHP: Untuk melaksanakan perangkak web, contoh kod khusus diperlukan

Pengenalan:
Dengan perkembangan Internet, terdapat banyak maklumat di Internet. Untuk mendapatkan dan menggunakan maklumat ini dengan mudah, perangkak web telah wujud. Artikel ini akan memperkenalkan cara menggunakan PHP untuk menulis skrip dalam persekitaran Linux untuk melaksanakan perangkak web mudah dan melampirkan contoh kod tertentu.

1. Apakah itu perangkak web?
Perangkak web ialah program yang melawati halaman web secara automatik dan mengekstrak maklumat. Perangkak mendapatkan kod sumber halaman web melalui protokol HTTP dan menghuraikannya mengikut peraturan yang telah ditetapkan untuk mendapatkan maklumat yang diperlukan. Ia membantu kami mengumpul dan memproses sejumlah besar data dengan cepat dan cekap.

2. Persediaan
Sebelum mula menulis perangkak web, kita perlu memasang PHP dan sambungan yang berkaitan. Di bawah Linux, anda boleh menggunakan arahan berikut untuk memasang:

sudo apt update
sudo apt install php php-curl

Selepas pemasangan selesai, kami juga memerlukan tapak web sasaran sebagai contoh. Mari kita ambil halaman "Sains Komputer" di Wikipedia sebagai contoh.

3. Proses pembangunan

  1. Buat fail PHP bernama crawler.php, kodnya adalah seperti berikut:
<?php
// 定义目标URL
$url = "https://en.wikipedia.org/wiki/Computer_science";

// 创建cURL资源
$ch = curl_init();

// 设置cURL参数
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

// 获取网页源代码
$html = curl_exec($ch);

// 关闭cURL资源
curl_close($ch);

// 解析网页源代码
$dom = new DOMDocument();
@$dom->loadHTML($html);

// 获取所有标题
$headings = $dom->getElementsByTagName("h2");
foreach ($headings as $heading) {
    echo $heading->nodeValue . "
";
}
?>
  1. Selepas menyimpan fail, gunakan arahan berikut untuk menjalankan:
php crawler.php
sebagai berikut
    :
  1. Contents
    History[edit]
    Terminology[edit]
    Areas of computer science[edit]
    Subfields[edit]
    Relation to other fields[edit]
    See also[edit]
    Notes[edit]
    References[edit]
    External links[edit]
Tajuk-tajuk ini adalah sebahagian daripada halaman sasaran. Kami berjaya menggunakan skrip PHP untuk mendapatkan maklumat tajuk halaman Sains Komputer di Wikipedia.

4. Ringkasan

Artikel ini memperkenalkan cara menggunakan PHP untuk menulis skrip dalam persekitaran Linux untuk melaksanakan perangkak web yang mudah. Kami menggunakan perpustakaan cURL untuk mendapatkan kod sumber halaman web dan menggunakan kelas DOMDocument untuk menghuraikan kandungan halaman web. Melalui contoh kod khusus, saya harap pembaca dapat memahami dan menguasai cara menulis program perangkak web.

Perlu diambil perhatian bahawa merangkak halaman web perlu mematuhi undang-undang, peraturan dan peraturan penggunaan tapak web yang berkaitan dan tidak boleh digunakan untuk tujuan yang menyalahi undang-undang. Sila beri perhatian kepada perlindungan privasi dan hak cipta semasa merangkak halaman web, dan ikuti piawaian etika.

Atas ialah kandungan terperinci Amalan Pengaturcaraan Skrip PHP Linux: Melaksanakan Web Crawler. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn