如何使用PHP實現正規抓取頁面中的網址-php教程-PHP中文網

首頁

後端開發

php教程

如何使用PHP實現正規抓取頁面中的網址

墨辰丷

Jun 01, 2018 pm 03:48 PM

php抓取正規則

從頁面中抓取頁面中所有的鏈接，當然使用PHP正規表示式是最方便的辦法。要寫出正規表達式，就要先總結出模式，那麼頁面中的連結會有幾種形式呢？下面一起來看看。

前言

連結也就是超級鏈接，是從一個元素（文字、圖片、影片等）連結到另一個元素（文字、圖片、影片等）。網頁中的鏈接一般有三種，一種是絕對URL超鏈接，也就是一個頁面的完整路徑；另一種是相對URL超鏈接，一般都鏈接到同一網站的其他頁面；還有一種是頁面內的超鏈接，這種一般鏈接到同一頁內的其他位置。

搞清楚了鏈接的種類，就知道要抓鏈接，主要還是絕對URL超鏈接和相對URL超鏈接。要寫出正確的正規表示式，就必須了解我們所尋找的物件的模式。

先說絕對鏈接，也叫作URL（Uniform Resource Locator），標示了網路上的唯一資源。 URL的結構包含三個部分：協定、伺服器名稱、路徑和檔案名稱。

協定是告訴瀏覽器如何處理將要開啟檔案的標識，最常見的就是 http 協定。本文也只考慮HTTP協議，至於其他的 https、ftp、mailto、telnet協定等，依需求也可以新增。

伺服器名稱是告訴瀏覽器如何到達這個伺服器的方式，通常是網域名稱或IP位址，有時也會包含連接埠號碼（預設為80）。 FTP協定中，也可以包含使用者名稱和密碼，本文就不考慮了。

路徑和檔案名，一般以 / 分割，指出到達這個檔案的路徑和檔案本身的名稱。如果沒有具體的檔案名，則存取這個資料夾下的預設檔案（可以在伺服器端設定）。

那麼現在清楚了，要抓取的絕對連結的典型形式可以概括為

<span style="color: #000000">#http://www.xxx.com/xxx/yyy/zzz .html</span>

每個部分可以使用的字元範圍有明確的規範，具體可以參考RFC1738。那麼正規表示式就可以寫出來了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

解釋如下：

##(http|https)第一個括號內匹配的是協定部分。

([\w\d\-_] [\.\w\d\-_] )第二個括號內符合的是網域部分。

([\/]?[\w\/\.] )第三個括號內符合的是相對路徑。

寫到這個時候，基本上大部分的網址都能匹配到了，但是對於URL中帶有參數的還不能抓取，這樣有可能造成再次訪問的時候頁面報錯。關於參數RFC1738規範中要求是用？來分割，後面帶上參數，但是現代的RIA應用有可能使用其他奇怪的形式來分割。

稍微修改一下，這樣就可以將查詢參數部分搜尋出來。這裡仍然沒有涵蓋全部的情況，例如URL中有中文、有空格及其他特殊字符的情況，但是基本上能夠滿足我的需求了，就沒有繼續深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

使用括號的好處是，在處理結果時，可以很容易的取得到協定、網域、相對路徑這些內容，方便後續的處理。

例如使用

preg_match_all() 匹配時，結果陣列索引0為全部結果、1為協定、2為網域、3為相對路徑。

總結：以上就是這篇文章的全部內容，希望能對大家的學習有所幫助。

相關推薦：

PHP實作多字段模糊匹配查詢的方法

phpmailer實作綁定郵件信箱的方法

PHP實作自訂函式取得漢字首字母的方法

以上是如何使用PHP實現正規抓取頁面中的網址的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

PHP的目的：構建動態網站Apr 15, 2025 am 12:18 AM

PHP用於構建動態網站，其核心功能包括：1.生成動態內容，通過與數據庫對接實時生成網頁；2.處理用戶交互和表單提交，驗證輸入並響應操作；3.管理會話和用戶認證，提供個性化體驗；4.優化性能和遵循最佳實踐，提升網站效率和安全性。

PHP：處理數據庫和服務器端邏輯Apr 15, 2025 am 12:15 AM

PHP在數據庫操作和服務器端邏輯處理中使用MySQLi和PDO擴展進行數據庫交互，並通過會話管理等功能處理服務器端邏輯。 1）使用MySQLi或PDO連接數據庫，執行SQL查詢。 2）通過會話管理等功能處理HTTP請求和用戶狀態。 3）使用事務確保數據庫操作的原子性。 4）防止SQL注入，使用異常處理和關閉連接來調試。 5）通過索引和緩存優化性能，編寫可讀性高的代碼並進行錯誤處理。

您如何防止PHP中的SQL注入？（準備的陳述，PDO）Apr 15, 2025 am 12:15 AM

在PHP中使用預處理語句和PDO可以有效防範SQL注入攻擊。 1)使用PDO連接數據庫並設置錯誤模式。 2)通過prepare方法創建預處理語句，使用佔位符和execute方法傳遞數據。 3)處理查詢結果並確保代碼的安全性和性能。

PHP和Python：代碼示例和比較Apr 15, 2025 am 12:07 AM

PHP和Python各有優劣，選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

PHP行動：現實世界中的示例和應用程序Apr 14, 2025 am 12:19 AM

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務：用於購物車功能和支付處理。 2)內容管理系統：用於動態內容生成和用戶管理。 3)API開發：用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐，PHP應用的效率和可維護性得以提升。

PHP：輕鬆創建交互式Web內容Apr 14, 2025 am 12:15 AM

PHP可以輕鬆創建互動網頁內容。 1)通過嵌入HTML動態生成內容，根據用戶輸入或數據庫數據實時展示。 2)處理表單提交並生成動態輸出，確保使用htmlspecialchars防XSS。 3)結合MySQL創建用戶註冊系統，使用password_hash和預處理語句增強安全性。掌握這些技巧將提升Web開發效率。