PHP 爬蟲實戰：從百度搜尋結果中擷取所需數據-php教程-PHP中文網

首頁

後端開發

php教程

PHP 爬蟲實戰：從百度搜尋結果中擷取所需數據

PHPz

Jun 13, 2023 am 10:22 AM

php爬蟲資料擷取

隨著網路高速發展，資訊爆炸的時代已經來臨。在這樣的時代，搜尋引擎成為了我們獲取資訊的主要工具，而這些搜尋引擎所提供的大量數據讓我們難以想像。然而，對於一些特定領域的研究者或數據分析員來說，他們所需要的資訊可能只是這些搜尋結果中的一小部分數據。在這種情況下，我們需要使用爬蟲程序來準確地獲得我們想要的數據。

在本文中，我們將使用 PHP 編寫一個簡單的爬蟲程序，從百度搜尋結果中提取我們所需的資料。這個程式的核心是使用 PHP 的 cURL 函式庫模擬 HTTP 請求，然後使用正規表示式等方法解析 HTML 頁面。

想法

在開始寫爬蟲程式之前，我們需要先明確幾個問題：

目標：我們想要從百度搜尋結果頁中爬取什麼數據？
URL：我們需要取得哪個 URL 下的資料？
資料格式：百度搜尋結果頁的資料是什麼格式？

在考慮我們需要取得哪些資料時，讓我們以「PHP 爬蟲」這個關鍵字為例。如果我們在百度上搜尋這個關鍵字，我們能夠看到以下資訊：

搜尋結果的總數量
每個搜尋結果的標題
每個搜尋結果的描述
每個搜尋結果的網址

那麼，我們就可以將我們的目標定義為從百度搜尋結果中提取出每個結果的標題、描述和網址。

取得資料的第一步就是要明確我們要取得的 URL。在我們的例子中，我們需要取得的 URL 是這樣的：https://www.baidu.com/s?wd=php 爬蟲。透過在百度搜尋列中輸入“php 爬蟲”，我們可以自動跳到這個 URL。

接著，我們需要了解我們將要解析的資料的格式。在我們的例子中，搜尋結果以類似下面的HTML 程式碼的形式存在：

<div class="result c-container ">
    <h3 class="t">
        <a href="http://www.example.com/" target="_blank" class="c-showurl">
            www.example.com
        </a>
        <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院
    </h3>
    <div class="c-abstract">
        <span class=" newTimeFactor_before_abs">2天前 - </span>
        <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a
            href="https://www.baidu.com/s?wd=python%20爬虫&rsp=1&f=8&ie=utf-8&tn=95754739_hao_pg"
            target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&wd=&eqid=f774f5d00003a46c000000065f51fc9a"
            target="_blank" class="text-underline">PHP</a>，<a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns
            isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&
            wd=&eqid=f774f5d00003a46c000000065f51fc9a" target="_blank"
            class="text-underline">PHP</a> 一般用作...
    </div>
</div>

在以上HTML 程式碼片段中，可以看到每個搜尋結果都嵌套在<div class="result c-container "> 標籤內。每個搜尋結果都有一個標題，對應的 HTML 格式為 <code><h3 class="t"></h3>，其中連結位址嵌套在 <a></a> 標籤內。每個搜尋結果都有一個描述，對應的 HTML 格式為

。每個搜尋結果還有一個網址，在 <a></a> 標籤內含有 class="c-showurl"。 現在我們已經明確了我們要取得到的資料的格式及我們需要解析的 HTML 資料的格式，我們已經可以開始編寫我們的爬蟲程式了。 
編寫程式碼
我們將我們的PHP 爬蟲程式碼分成了三個步驟：

取得百度搜尋結果的HTML 頁面
解析HTML 頁面
將解析後的資料以陣列形式傳回

取得百度搜尋結果的HTML 頁面
我們可以使用PHP 的cURL 函式庫傳送HTTP 請求，從而取得百度搜尋結果的HTML 頁面。在這個範例中，我們將搜尋頁面的 URL 存在 $url 變數中。然後建立一個 cURL 的句柄，並設定許多選項，例如：設定 URL、設定請求頭、設定代理、設定逾時、設定請求方式為 GET，最後執行這個句柄，取得 HTML 頁面。 
<?php

$url = "https://www.baidu.com/s?wd=php%20爬虫";

// 创建curl句柄
$ch = curl_init();

// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
    $ch,
    CURLOPT_HTTPHEADER,
    [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer: https://www.baidu.com/',
        'Connection: keep-alive',
    ]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

//执行curl句柄
$result = curl_exec($ch);
在這個例子中，我們使用了 cURL 函式庫提供的許多選項。例如，設定請求頭來模擬瀏覽器發送的 HTTP 請求，設定請求方式為 GET，設定超時時間，等等。 
解析 HTML 頁面
在取得了百度搜尋結果的 HTML 頁面之後，我們需要解析它來取得我們需要的資訊。在這個範例中，我們將使用 PHP 的正規表示式來解析 HTML 頁面。 
以下是我們使用正規表示式來從HTML 頁面中提取標題、描述和連結：
<?php

$result = curl_exec($ch);

// 匹配所有搜索结果
preg_match_all(
    '/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
    $result,
    $matches
);

// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
    $data[] = [
        'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
        'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
        'link' => $matches[1][$i]
    ];
};

// 关闭curl句柄
curl_close($ch);
在上述程式碼中，我們使用了PHP 的正規表示式來匹配所有的搜索結果。然後，我們使用一個循環來遍歷所有的搜尋結果，從中提取我們需要的標題、描述和連結。由於我們從 HTML 中取得到的標題和描述中會含有 HTML 標籤，我們使用 strip_tags 函數來移除它們。 
將結果傳回
在上述程式碼中，我們已經取得了我們需要的數據，現在只需要將結果以陣列形式傳回即可。我們將我們整個爬蟲程式封裝成一個函數，將獲取到的資料以數組的形式作為返回值：
<?php

function spider_baidu($keyword) {
    $url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt(
        $ch,
        CURLOPT_HTTPHEADER,
        [
            'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referer: https://www.baidu.com/',
            'Connection: keep-alive',
        ]
    );
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

    $result = curl_exec($ch);

    preg_match_all(
        '/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
        $result,
        $matches
    );

    $data = [];
    for ($i=0; $i<count($matches[0]); $i++) {
        $data[] = [
            'title' => strip_tags($matches[2][$i]),
            'description' => strip_tags($matches[3][$i]),
            'link' => $matches[1][$i]
        ];
    };

    curl_close($ch);

    return $data;
}
我們可以接收一個關鍵字作為參數，然後調用這個函數來獲取這個關鍵字在百度搜尋結果中的標題、描述和連結。 
結論
在本文中，我們使用 PHP 編寫了一個簡單的爬蟲程序，從百度搜尋結果中提取所需資料。這個程式使用 PHP 的 cURL 函式庫模擬 HTTP 請求，並使用正規表示式等方法來解析 HTML 頁面。透過這個例子，我們可以深入了解爬蟲程式是如何運作的，以及如何使用 PHP 來編寫爬蟲程式。在實際的專案中，我們可以根據需求修改這個程式來取得我們需要的資料。

以上是PHP 爬蟲實戰：從百度搜尋結果中擷取所需數據的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP和Python：解釋了不同的範例Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程，但也支持面向對象編程（OOP）；Python支持多種範式，包括OOP、函數式和過程式編程。 PHP適合web開發，Python適用於多種應用，如數據分析和機器學習。

PHP和Python：深入了解他們的歷史Apr 18, 2025 am 12:25 AM

PHP起源於1994年，由RasmusLerdorf開發，最初用於跟踪網站訪問者，逐漸演變為服務器端腳本語言，廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發，1991年首次發布，強調代碼可讀性和簡潔性，適用於科學計算、數據分析等領域。

在PHP和Python之間進行選擇：指南Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發，Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發，語法簡單，適合快速開發。 2.Python語法簡潔，適用於多領域，庫生態系統強大。

PHP和框架：現代化語言Apr 18, 2025 am 12:14 AM

PHP在現代化進程中仍然重要，因為它支持大量網站和應用，並通過框架適應開發需求。 1.PHP7提升了性能並引入了新功能。 2.現代框架如Laravel、Symfony和CodeIgniter簡化開發，提高代碼質量。 3.性能優化和最佳實踐進一步提升應用效率。

PHP的影響：網絡開發及以後Apr 18, 2025 am 12:10 AM

PHPhassignificantlyimpactedwebdevelopmentandextendsbeyondit.1)ItpowersmajorplatformslikeWordPressandexcelsindatabaseinteractions.2)PHP'sadaptabilityallowsittoscaleforlargeapplicationsusingframeworkslikeLaravel.3)Beyondweb,PHPisusedincommand-linescrip

PHP類型提示如何起作用，包括標量類型，返回類型，聯合類型和無效類型？Apr 17, 2025 am 12:25 AM

PHP類型提示提升代碼質量和可讀性。 1)標量類型提示：自PHP7.0起，允許在函數參數中指定基本數據類型，如int、float等。 2)返回類型提示：確保函數返回值類型的一致性。 3)聯合類型提示：自PHP8.0起，允許在函數參數或返回值中指定多個類型。 4)可空類型提示：允許包含null值，處理可能返回空值的函數。

PHP如何處理對象克隆（克隆關鍵字）和__clone魔法方法？Apr 17, 2025 am 12:24 AM

PHP中使用clone關鍵字創建對象副本，並通過\_\_clone魔法方法定制克隆行為。 1.使用clone關鍵字進行淺拷貝，克隆對象的屬性但不克隆對象屬性內的對象。 2.通過\_\_clone方法可以深拷貝嵌套對象，避免淺拷貝問題。 3.注意避免克隆中的循環引用和性能問題，優化克隆操作以提高效率。