Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu

Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu

PHPz
PHPzasal
2023-06-13 10:22:402035semak imbas

Dengan perkembangan pesat Internet, era ledakan maklumat telah tiba. Dalam era seperti ini, enjin carian telah menjadi alat utama kami untuk mendapatkan maklumat, dan sejumlah besar data yang disediakan oleh enjin carian ini adalah di luar imaginasi kami. Walau bagaimanapun, bagi penyelidik atau penganalisis data dalam beberapa bidang tertentu, maklumat yang mereka perlukan mungkin hanya sebahagian kecil daripada data dalam hasil carian ini. Dalam kes ini, kita perlu menggunakan perangkak untuk mendapatkan data yang kita inginkan dengan tepat.

Dalam artikel ini, kami akan menggunakan PHP untuk menulis program perangkak mudah untuk mengekstrak data yang kami perlukan daripada hasil carian Baidu. Teras program ini adalah menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP, dan kemudian menggunakan ungkapan biasa dan kaedah lain untuk menghuraikan halaman HTML.

Idea

Sebelum kami mula menulis program perangkak, kami perlu menjelaskan beberapa soalan:

  1. Matlamat: Kami mahu merangkak dari halaman hasil carian Baidu Data apa?
  2. URL: URL manakah yang kami perlukan untuk mendapatkan data?
  3. Format data: Apakah format data pada halaman hasil carian Baidu?

Apabila mempertimbangkan data yang perlu kita perolehi, mari kita ambil kata kunci "perakak PHP" sebagai contoh. Jika kita mencari kata kunci ini di Baidu, kita boleh melihat maklumat berikut:

  • Jumlah bilangan hasil carian
  • Tajuk setiap hasil carian
  • Setiap Penerangan bagi setiap hasil carian
  • URL bagi setiap hasil carian

Kemudian, kami boleh menentukan matlamat kami sebagai mengekstrak tajuk setiap hasil carian daripada hasil carian Baidu, Penerangan dan URL.

Langkah pertama untuk mendapatkan data adalah untuk menjelaskan URL yang ingin kami perolehi. Dalam kes kami, URL yang perlu kami dapatkan ialah ini: https://www.baidu.com/s?wd=php%20爬虫. Dengan menaip "crawler php" ke dalam bar carian Baidu, kami boleh melompat ke URL ini secara automatik.

Seterusnya, kita perlu memahami format data yang akan kita huraikan. Dalam kes kami, hasil carian wujud dalam bentuk kod HTML seperti berikut:

<div class="result c-container ">
    <h3 class="t">
        <a href="http://www.example.com/" target="_blank" class="c-showurl">
            www.example.com
        </a>
        <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院
    </h3>
    <div class="c-abstract">
        <span class=" newTimeFactor_before_abs">2天前 - </span>
        <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a
            href="https://www.baidu.com/s?wd=python%20爬虫&amp;rsp=1&amp;f=8&amp;ie=utf-8&amp;tn=95754739_hao_pg"
            target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a"
            target="_blank" class="text-underline">PHP</a>,<a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns
            isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;
            wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a" target="_blank"
            class="text-underline">PHP</a> 一般用作...
    </div>
</div>

Dalam coretan kod HTML di atas, anda boleh melihat bahawa setiap hasil carian bersarang dalam teg 21796805ef09aaa51089021f05184af8. Setiap hasil carian mempunyai tajuk, yang sepadan dengan format HTML 4fadc3c7e100e7abd749338f79a967d5, dengan alamat pautan bersarang dalam teg 3499910bf9dac5ae3c52d5ede7383485. Setiap hasil carian mempunyai penerangan, sepadan dengan format HTML fb66738ee24dc0ed63bb579c482ae1b0. Setiap hasil carian juga mempunyai URL yang mengandungi 3499910bf9dac5ae3c52d5ede7383485 di dalam teg class="c-showurl".

Sekarang kami telah menjelaskan format data yang ingin kami peroleh dan format data HTML yang perlu kami huraikan, kami boleh mula menulis program perangkak kami.

Menulis kod

Kami membahagikan kod perangkak PHP kami kepada tiga langkah:

  1. Dapatkan halaman HTML hasil carian Baidu
  2. Menghuraikan halaman HTML
  3. Kembalikan data yang dihuraikan dalam bentuk tatasusunan

Dapatkan halaman HTML hasil carian Baidu

Kami boleh menggunakan perpustakaan cURL PHP untuk menghantar permintaan HTTP, Untuk mendapatkan halaman HTML hasil carian Baidu. Dalam contoh ini, kami menyimpan URL halaman carian dalam pembolehubah $url. Kemudian buat pemegang untuk cURL dan tetapkan banyak pilihan, seperti: tetapkan URL, tetapkan pengepala permintaan, tetapkan proksi, tetapkan tamat masa, tetapkan kaedah permintaan kepada GET, dan akhirnya laksanakan pemegang ini untuk mendapatkan halaman HTML.

<?php

$url = "https://www.baidu.com/s?wd=php%20爬虫";

// 创建curl句柄
$ch = curl_init();

// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
    $ch,
    CURLOPT_HTTPHEADER,
    [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer: https://www.baidu.com/',
        'Connection: keep-alive',
    ]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

//执行curl句柄
$result = curl_exec($ch);

Dalam contoh ini kami menggunakan banyak pilihan yang disediakan oleh perpustakaan cURL. Contohnya, tetapkan pengepala permintaan untuk mensimulasikan permintaan HTTP yang dihantar oleh penyemak imbas, tetapkan kaedah permintaan kepada GET, tetapkan tamat masa, dsb.

Menghuraikan halaman HTML

Selepas mendapat halaman HTML hasil carian Baidu, kami perlu menghuraikannya untuk mendapatkan maklumat yang kami perlukan. Dalam contoh ini, kami akan menggunakan ungkapan biasa PHP untuk menghuraikan halaman HTML.

Berikut ialah ungkapan biasa yang kami gunakan untuk mengekstrak tajuk, penerangan dan pautan daripada halaman HTML:

<?php

$result = curl_exec($ch);

// 匹配所有搜索结果
preg_match_all(
    '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
    $result,
    $matches
);

// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
    $data[] = [
        'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
        'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
        'link' => $matches[1][$i]
    ];
};

// 关闭curl句柄
curl_close($ch);

Dalam kod di atas, kami menggunakan ungkapan biasa PHP untuk memadankan semua hasil carian. Kami kemudian menggunakan gelung untuk menyemak semua hasil carian dan mengekstrak tajuk, penerangan dan pautan yang kami perlukan. Memandangkan tajuk dan penerangan yang kami dapat daripada HTML akan mengandungi teg HTML, kami menggunakan fungsi strip_tags untuk mengalih keluarnya.

Kembalikan hasilnya

Dalam kod di atas, kami telah memperoleh data yang kami perlukan, dan kini kami hanya perlu mengembalikan hasilnya dalam bentuk tatasusunan. Kami merangkum keseluruhan program perangkak kami ke dalam fungsi dan mengembalikan data yang diperoleh dalam bentuk tatasusunan:

<?php

function spider_baidu($keyword) {
    $url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt(
        $ch,
        CURLOPT_HTTPHEADER,
        [
            'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referer: https://www.baidu.com/',
            'Connection: keep-alive',
        ]
    );
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

    $result = curl_exec($ch);

    preg_match_all(
        '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
        $result,
        $matches
    );

    $data = [];
    for ($i=0; $i<count($matches[0]); $i++) {
        $data[] = [
            'title' => strip_tags($matches[2][$i]),
            'description' => strip_tags($matches[3][$i]),
            'link' => $matches[1][$i]
        ];
    };

    curl_close($ch);

    return $data;
}

Kami boleh menerima kata kunci sebagai parameter, dan kemudian memanggil fungsi ini untuk mendapatkan kata kunci dalam Tajuk, penerangan dan pautan dalam hasil carian Baidu.

Kesimpulan

Dalam artikel ini, kami menulis program perangkak mudah menggunakan PHP untuk mengekstrak data yang diperlukan daripada hasil carian Baidu. Program ini menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP dan menggunakan kaedah seperti ungkapan biasa untuk menghuraikan halaman HTML. Melalui contoh ini, kita boleh memperoleh pemahaman yang mendalam tentang cara perangkak berfungsi dan cara menulis perangkak menggunakan PHP. Dalam projek sebenar, kami boleh mengubah suai program ini mengikut keperluan kami untuk mendapatkan data yang kami perlukan.

Atas ialah kandungan terperinci Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn