如何使用 PHP 和 XPath 解析 HTML 內容-php教程-PHP中文網

首頁

後端開發

php教程

如何使用 PHP 和 XPath 解析 HTML 內容

王林

Jun 17, 2023 am 11:17 AM

phpxpath解析html

隨著 Web 技術不斷發展，Web 頁面的內容也越來越複雜。我們常常需要從 HTML 頁面中抽取資訊以進行進一步的處理和分析，如爬蟲、資料探勘等。本文將介紹如何使用 PHP 和 XPath 解析 HTML 內容，方便快速地取得我們需要的資訊。

PHP Simple HTML DOM Parser

PHP Simple HTML DOM Parser 是一個開源的PHP 類別庫，它可以將HTML 頁面解析成DOM 樹狀結構，然後可以使用類似jQuery 的選擇器語法來尋找和操作DOM 元素。該程式庫提供了內建的選擇器方法，以及 find() 和 xpath() 兩個用於查找節點的方法，其中後者需要安裝並啟用 DOM 擴充。

下面是使用PHP Simple HTML DOM Parser 尋找標題和連結的範例：

<?php
require_once('simple_html_dom.php');

$html = file_get_html('http://example.com/');

// 查找所有的标题和链接
foreach ($html->find('h2') as $header) {
    echo $header->plaintext . '<br>';
    echo $header->next_sibling()->href . '<br>';
}
?>

使用DOMDocument 和DOMXPath

除了PHP Simple HTML DOM Parser，PHP 還提供了內建的DOMDocument 和DOMXPath 類別庫，它們可以對HTML 頁面進行解析和查找。 DOMDocument 是一個類似 SimpleXML 的類，它可以將一個 XML 或 HTML 文件解析成一個 DOM 樹結構，而 DOMXPath 則提供了一個 xpath() 方法，可以使用 XPath 來尋找和選擇節點。

下面是一個使用DOMDocument 和DOMXPath 尋找標題和連結的範例：

<?php
$html = file_get_contents('http://example.com/');

// 创建 DOMDocument 对象并加载 HTML
$dom = new DOMDocument();
@$dom->loadHTML($html);

// 创建 DOMXPath 对象并使用 xpath 查找节点
$xpath = new DOMXPath($dom);
foreach ($xpath->query('//h2') as $node) {
    // 查找标题
    echo $node->nodeValue . '<br>';

    // 查找链接
    $link = $xpath->query('./following-sibling::a', $node);
    if ($link->length > 0) {
        echo $link->item(0)->getAttribute('href') . '<br>';
    }
}
?>

在上面的範例中，我們使用query() 方法來尋找所有的h2 標題節點，並使用XPath表達式取得它們的文字內容和後面的第一個a 節點的href 屬性值。註：DOMXPath 中的表達式必須遵循 W3C XPath 規範。

總結

本文介紹如何使用 PHP 和 XPath 解析 HTML 頁面內容。 PHP Simple HTML DOM Parser 可以方便地使用類似 jQuery 的選擇器語法來尋找和操作 DOM 元素，但對於大型 HTML 頁面效能比較低。而 DOMDocument 和 DOMXPath 則提供了更靈活和高效的解析和尋找方式，但需要一定的學習成本。根據實際需求和具體情況選擇合適的解析方式是很重要的。

以上是如何使用 PHP 和 XPath 解析 HTML 內容的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP類型提示如何起作用，包括標量類型，返回類型，聯合類型和無效類型？Apr 17, 2025 am 12:25 AM

PHP類型提示提升代碼質量和可讀性。 1)標量類型提示：自PHP7.0起，允許在函數參數中指定基本數據類型，如int、float等。 2)返回類型提示：確保函數返回值類型的一致性。 3)聯合類型提示：自PHP8.0起，允許在函數參數或返回值中指定多個類型。 4)可空類型提示：允許包含null值，處理可能返回空值的函數。

PHP如何處理對象克隆（克隆關鍵字）和__clone魔法方法？Apr 17, 2025 am 12:24 AM

PHP中使用clone關鍵字創建對象副本，並通過\_\_clone魔法方法定制克隆行為。 1.使用clone關鍵字進行淺拷貝，克隆對象的屬性但不克隆對象屬性內的對象。 2.通過\_\_clone方法可以深拷貝嵌套對象，避免淺拷貝問題。 3.注意避免克隆中的循環引用和性能問題，優化克隆操作以提高效率。

PHP與Python：用例和應用程序Apr 17, 2025 am 12:23 AM

PHP適用於Web開發和內容管理系統，Python適合數據科學、機器學習和自動化腳本。 1.PHP在構建快速、可擴展的網站和應用程序方面表現出色，常用於WordPress等CMS。 2.Python在數據科學和機器學習領域表現卓越，擁有豐富的庫如NumPy和TensorFlow。

描述不同的HTTP緩存標頭（例如，Cache-Control，ETAG，最後修飾）。Apr 17, 2025 am 12:22 AM

HTTP緩存頭的關鍵玩家包括Cache-Control、ETag和Last-Modified。 1.Cache-Control用於控制緩存策略，示例：Cache-Control:max-age=3600,public。 2.ETag通過唯一標識符驗證資源變化，示例：ETag:"686897696a7c876b7e"。 3.Last-Modified指示資源最後修改時間，示例：Last-Modified:Wed,21Oct201507:28:00GMT。

說明PHP中的安全密碼散列（例如，password_hash，password_verify）。為什麼不使用MD5或SHA1？Apr 17, 2025 am 12:06 AM

在PHP中，應使用password_hash和password_verify函數實現安全的密碼哈希處理，不應使用MD5或SHA1。1)password_hash生成包含鹽值的哈希，增強安全性。 2)password_verify驗證密碼，通過比較哈希值確保安全。 3)MD5和SHA1易受攻擊且缺乏鹽值，不適合現代密碼安全。

PHP：服務器端腳本語言的簡介Apr 16, 2025 am 12:18 AM

PHP是一種服務器端腳本語言，用於動態網頁開發和服務器端應用程序。 1.PHP是一種解釋型語言，無需編譯，適合快速開發。 2.PHP代碼嵌入HTML中，易於網頁開發。 3.PHP處理服務器端邏輯，生成HTML輸出，支持用戶交互和數據處理。 4.PHP可與數據庫交互，處理表單提交，執行服務器端任務。

PHP和網絡：探索其長期影響Apr 16, 2025 am 12:17 AM

PHP在過去幾十年中塑造了網絡，並將繼續在Web開發中扮演重要角色。 1)PHP起源於1994年，因其易用性和與MySQL的無縫集成成為開發者首選。 2)其核心功能包括生成動態內容和與數據庫的集成，使得網站能夠實時更新和個性化展示。 3)PHP的廣泛應用和生態系統推動了其長期影響，但也面臨版本更新和安全性挑戰。 4)近年來的性能改進，如PHP7的發布，使其能與現代語言競爭。 5)未來，PHP需應對容器化、微服務等新挑戰，但其靈活性和活躍社區使其具備適應能力。