PHP 中的網頁抓取技術:從URL 中提取頁面資訊
在PHP 中,您可以有效地提取特定頁面資訊,例如標題、圖像和描述,來自用戶提供的URL。以下是實現此目的的方法:
使用 Simple_html_dom 函式庫:
考慮使用 simple_html_dom 函式庫以便於實作。
<code class="php">require 'simple_html_dom.php'; $html = file_get_html($url); $title = $html->find('title', 0); $image = $html->find('img', 0); echo $title->plaintext."\n"; echo $image->src;</code>
沒有外部函式庫:
雖然使用 DOMDocument 可能不是理想的方法,但您也可以避免使用正規表示式的外部函式庫。但是,由於其複雜性,不建議將這種方法用於 HTML。
<code class="php">$data = file_get_contents($url); preg_match('/<title>([^<]+)<\/title>/i', $data, $matches); $title = $matches[1]; preg_match('/<img[^>]*src=["\']([^\'"]+)["\'][^>]*>/i', $data, $matches); $img = $matches[1]; echo $title."\n"; echo $img;</code>
此技術示範如何使用正規表示式擷取頁面標題,然後從頁面中擷取第一張影像。
以上是如何使用 PHP 從 URL 提取頁面訊息的詳細內容。更多資訊請關注PHP中文網其他相關文章!