搜尋
首頁後端開發php教程如何使用PHP實現正規抓取頁面中的網址

如何使用PHP實現正規抓取頁面中的網址

Jun 01, 2018 pm 03:48 PM
php抓取正規則

從頁面中抓取頁面中所有的鏈接,當然使用PHP正規表示式是最方便的辦法。要寫出正規表達式,就要先總結出模式,那麼頁面中的連結會有幾種形式呢?下面一起來看看。

前言

連結也就是超級鏈接,是從一個元素(文字、圖片、影片等)連結到另一個元素(文字、圖片、影片等) 。網頁中的鏈接一般有三種,一種是絕對URL超鏈接,也就是一個頁面的完整路徑;另一種是相對URL超鏈接,一般都鏈接到同一網站的其他頁面;還有一種是頁面內的超鏈接,這種一般鏈接到同一頁內的其他位置。

搞清楚了鏈接的種類,就知道要抓鏈接,主要還是絕對URL超鏈接和相對URL超鏈接。要寫出正確的正規表示式,就必須了解我們所尋找的物件的模式。

先說絕對鏈接,也叫作URL(Uniform Resource Locator),標示了網路上的唯一資源。 URL的結構包含三個部分:協定、伺服器名稱、路徑和檔案名稱

協定是告訴瀏覽器如何處理將要開啟檔案的標識,最常見的就是 http 協定。本文也只考慮HTTP協議,至於其他的 https、ftp、mailto、telnet協定等,依需求也可以新增。

伺服器名稱是告訴瀏覽器如何到達這個伺服器的方式,通常是網域名稱或IP位址,有時也會包含連接埠號碼(預設為80)。 FTP協定中,也可以包含使用者名稱和密碼,本文就不考慮了。

路徑和檔案名,一般以 / 分割,指出到達這個檔案的路徑和檔案本身的名稱。如果沒有具體的檔案名,則存取這個資料夾下的預設檔案(可以在伺服器端設定)。

那麼現在清楚了,要抓取的絕對連結的典型形式可以概括為

<span style="color: #000000">#http://www.xxx.com/xxx/yyy/zzz .html</span>

每個部分可以使用的字元範圍有明確的規範,具體可以參考RFC1738。那麼正規表示式就可以寫出來了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

解釋如下:

##(http|https)第一個括號內匹配的是協定部分。

([\w\d\-_] [\.\w\d\-_] )第二個括號內符合的是網域部分。

([\/]?[\w\/\.] )第三個括號內符合的是相對路徑。

寫到這個時候,基本上大部分的網址都能匹配到了,但是對於URL中帶有參數的還不能抓取,這樣有可能造成再次訪問的時候頁面報錯。關於參數RFC1738規範中要求是用?來分割,後面帶上參數,但是現代的RIA應用有可能使用其他奇怪的形式來分割。

稍微修改一下,這樣就可以將查詢參數部分搜尋出來。這裡仍然沒有涵蓋全部的情況,例如URL中有中文、有空格及其他特殊字符的情況,但是基本上能夠滿足我的需求了,就沒有繼續深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

使用括號的好處是,在處理結果時,可以很容易的取得到協定、網域、相對路徑這些內容,方便後續的處理。

例如使用

preg_match_all() 匹配時,結果陣列索引0為全部結果、1為協定、2為網域、3為相對路徑

總結:以上就是這篇文章的全部內容,希望能對大家的學習有所幫助。

相關推薦:

PHP實作多字段模糊匹配查詢的方法

phpmailer實作綁定郵件信箱的方法

PHP實作自訂函式取得漢字首字母的方法

#

以上是如何使用PHP實現正規抓取頁面中的網址的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
PHP的目的:構建動態網站PHP的目的:構建動態網站Apr 15, 2025 am 12:18 AM

PHP用於構建動態網站,其核心功能包括:1.生成動態內容,通過與數據庫對接實時生成網頁;2.處理用戶交互和表單提交,驗證輸入並響應操作;3.管理會話和用戶認證,提供個性化體驗;4.優化性能和遵循最佳實踐,提升網站效率和安全性。

PHP:處理數據庫和服務器端邏輯PHP:處理數據庫和服務器端邏輯Apr 15, 2025 am 12:15 AM

PHP在數據庫操作和服務器端邏輯處理中使用MySQLi和PDO擴展進行數據庫交互,並通過會話管理等功能處理服務器端邏輯。 1)使用MySQLi或PDO連接數據庫,執行SQL查詢。 2)通過會話管理等功能處理HTTP請求和用戶狀態。 3)使用事務確保數據庫操作的原子性。 4)防止SQL注入,使用異常處理和關閉連接來調試。 5)通過索引和緩存優化性能,編寫可讀性高的代碼並進行錯誤處理。

您如何防止PHP中的SQL注入? (準備的陳述,PDO)您如何防止PHP中的SQL注入? (準備的陳述,PDO)Apr 15, 2025 am 12:15 AM

在PHP中使用預處理語句和PDO可以有效防範SQL注入攻擊。 1)使用PDO連接數據庫並設置錯誤模式。 2)通過prepare方法創建預處理語句,使用佔位符和execute方法傳遞數據。 3)處理查詢結果並確保代碼的安全性和性能。

PHP和Python:代碼示例和比較PHP和Python:代碼示例和比較Apr 15, 2025 am 12:07 AM

PHP和Python各有優劣,選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

PHP行動:現實世界中的示例和應用程序PHP行動:現實世界中的示例和應用程序Apr 14, 2025 am 12:19 AM

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務:用於購物車功能和支付處理。 2)內容管理系統:用於動態內容生成和用戶管理。 3)API開發:用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐,PHP應用的效率和可維護性得以提升。

PHP:輕鬆創建交互式Web內容PHP:輕鬆創建交互式Web內容Apr 14, 2025 am 12:15 AM

PHP可以輕鬆創建互動網頁內容。 1)通過嵌入HTML動態生成內容,根據用戶輸入或數據庫數據實時展示。 2)處理表單提交並生成動態輸出,確保使用htmlspecialchars防XSS。 3)結合MySQL創建用戶註冊系統,使用password_hash和預處理語句增強安全性。掌握這些技巧將提升Web開發效率。

PHP和Python:比較兩種流行的編程語言PHP和Python:比較兩種流行的編程語言Apr 14, 2025 am 12:13 AM

PHP和Python各有優勢,選擇依據項目需求。 1.PHP適合web開發,尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能,語法簡潔,適合初學者。

PHP的持久相關性:它還活著嗎?PHP的持久相關性:它還活著嗎?Apr 14, 2025 am 12:12 AM

PHP仍然具有活力,其在現代編程領域中依然佔據重要地位。 1)PHP的簡單易學和強大社區支持使其在Web開發中廣泛應用;2)其靈活性和穩定性使其在處理Web表單、數據庫操作和文件處理等方面表現出色;3)PHP不斷進化和優化,適用於初學者和經驗豐富的開發者。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。