開發人員不時需要抓取網頁以從網站獲取一些資訊。例如,假設您正在開發一個個人項目,您必須從維基百科獲取有關不同國家首都的地理資訊。手動輸入會花費很多時間。不過,您可以藉助 PHP 抓取維基百科頁面,非常快速地完成此操作。您還可以自動解析 HTML 以獲取特定信息,而無需手動瀏覽整個標記。
在本教學中,我們將了解一種名為 DiDOM 的快速且易於使用的 HTML 解析器。我們將從安裝過程開始,然後學習如何使用不同類型的選擇器(如標籤、類別等)從網頁上的不同元素中提取資訊。
您可以透過執行以下命令輕鬆在專案目錄中安裝 DiDOM:
composer require imangazaliev/didom
在執行上述命令後,您將能夠從字串、本機檔案或網頁載入 HTML。這是一個例子:
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document($washington_dc_html_string); $document = new Document('washington_dc.html', true); $url = 'https://en.wikipedia.org/wiki/Washington,_D.C.'; $document = new Document($url, true);
當您決定從文件中解析 HTML 時,它可能已經載入並儲存在變數中。在這種情況下,您只需將該變數傳遞給 Document()
,DiDOM 將準備要解析的字串。
如果必須從檔案或 URL 載入 HTML,您可以將其作為第一個參數傳遞給 Document()
並將第二個參數設為 true
。
您也可以使用不含任何參數的 new Document()
建立一個新的 Document
物件。在這種情況下,您可以呼叫方法 loadHtml()
從字串載入 HTML,並呼叫 loadHtmlFile()
從檔案或網頁載入 HTML。
從元素取得 HTML 或文字之前要做的第一件事是找到元素本身。最簡單的方法是使用 find()
方法並將所需元素的 CSS 選擇器作為第一個參數傳遞。
您也可以將元素的 XPath 作為 find()
方法的第一個參數傳遞。但是,這需要您傳遞 Query::TYPE_XPATH
作為第二個參數。
如果您只想使用XPath 值來尋找HTML 元素,則可以簡單地使用xpath()
方法,而不是傳遞Query::TYPE_XPATH
每次作為 find()
的第二個參數。
如果 DiDOM 可以找到與傳遞的 CSS 選擇器或 XPATH 表達式相符的元素,它將傳回 DiDom\Element
實例的陣列。如果沒有找到這樣的元素,它將傳回一個空數組。
由於這些方法傳回一個數組,因此您可以使用 find()[n-1]
直接存取第 n 個匹配元素。
在下面的範例中,我們將從華盛頓特區的維基百科文章中的所有一級和二級標題中獲取內部 HTML
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); $main_heading = $document->find('h1.firstHeading')[0]; echo $main_heading->html(); $sub_headings = $document->find('h2'); foreach($sub_headings as $sub_heading) { if($sub_heading->text() !== 'See also') { echo $sub_heading->html(); } else { break; } }
我們首先透過傳遞華盛頓特區的維基百科文章的 URL 來建立一個新的 Document 物件。之後,我們使用 find()
方法來取得主標題元素並將其儲存在名為 $main_heading
的變數內。我們現在可以在此元素上呼叫不同的方法,例如 text()
、innerHtml()
、html()
等
對於主標題,我們只需呼叫 html()
方法即可傳回整個標題元素的 HTML。同樣,我們可以使用 innerHtml()
方法來取得特定元素內的 HTML。有時,您會對元素的純文字內容而不是其 HTML 更感興趣。在這種情況下,您只需使用 text()
方法即可完成。
二級標題將我們的維基百科頁面劃分為定義明確的部分。但是,您可能想要刪除其中一些副標題,例如“另請參閱”、“註釋”等。
一種方法是循環遍歷所有二級標題並檢查 text()
方法傳回的值。如果傳回的標題文字是“另請參閱”,我們將跳出循環。
使用$document->find('h2')[3]
和$document- 可以直接到達第四或第六級二級標題>find('h2' )[5]
分別。
一旦您可以存取特定元素,該程式庫就可以讓您上下遍歷 DOM 樹以輕鬆存取其他元素。
您可以使用 parent()
方法來前往 HTML 元素的父元素。同樣,您可以使用 nextSibling()
和 previousSibling()
方法來取得元素的下一個或上一個同級元素。
还有很多方法可用于访问 DOM 元素的子元素。例如,您可以使用 child(n)
方法获取特定的子元素。同样,您可以使用 firstChild()
和 lastChild()
方法访问特定元素的第一个或最后一个子元素。您可以使用 children()
方法循环遍历特定 DOM 元素的所有子元素。
一旦到达特定元素,您将能够使用 html()
、innerHtml()
和text()
方法。
在下面的示例中,我们从二级标题元素开始,并继续检查下一个同级元素是否包含一些文本。一旦我们找到带有一些文本的同级元素,我们就会将其输出到浏览器。
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); $sub_headings = $document->find('h2'); for($i = 1; $i < count($sub_headings); $i++) { if($sub_headings[$i]->text() !== 'See also') { $next_sibling = $sub_headings[$i]->nextSibling(); while(!$next_elem->html()) { $next_sibling = $next_sibling->nextSibling(); } echo $next_elem->html()."<br>"; } else { break; } }
您可以使用类似的技术循环遍历所有同级元素,并且仅在文本包含特定字符串或同级元素是段落标记等时输出文本。一旦您了解了基础知识,找到正确的信息就是简单的。
在某些情况下,获取或设置不同元素的属性值的能力非常有用。例如,我们可以使用 $image_elem->attr( 'src')
.以类似的方式,您可以获得文档中所有 a 标记的 href 属性的值。
可以通过三种方法获取 HTML 元素的给定属性的值。您可以使用 getAttribute('attrName')
方法并将您感兴趣的属性名称作为参数传递。您还可以使用 attr('attrName') 方法,其工作方式与 getAttribute() 类似。最后,该库还允许您使用 $elem->attrName
直接获取属性值。这意味着您可以使用 $imageElem->src
直接获取图像元素的 src 属性值。
require_once('vendor/autoload.php'); use DiDom\Document; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); $images = $document->find('img'); foreach($images as $image) { echo $image->src."<br>"; }
一旦您有权访问src属性,您就可以编写代码来自动下载所有图像文件。这样,您将能够节省大量时间。
您还可以使用三种不同的技术来设置给定属性的值。首先,您可以使用 setAttribute('attrName', 'attrValue') 方法来设置属性值。您还可以使用 attr('attrName', 'attrValue') 方法来设置属性值。最后,您可以使用 $Elem->attrName = 'attrValue'
设置给定元素的属性值。
您还可以使用库提供的不同方法对加载的 HTML 文档进行更改。例如,您可以使用 appendChild()
、replace()
和 从 DOM 树添加、替换或删除元素">删除()
方法。
该库还允许您创建自己的 HTML 元素,以便将它们附加到原始 HTML 文档中。您可以使用 new Element('tagName', 'tagContent')
创建新的 Element 对象。
请记住,如果您的程序在实例化之前不包含行 use DiDom\Element
,您将收到未捕获错误:未找到“Element”类错误元素对象。
获得该元素后,您可以使用 appendChild()
方法将其附加到 DOM 中的其他元素,也可以使用 replace( )
方法使用新实例化的元素来替换文档中某些旧的 HTML 元素。下面的例子应该有助于进一步阐明这个概念。
require_once('vendor/autoload.php'); use DiDom\Document; use DiDom\Element; $document = new Document('https://en.wikipedia.org/wiki/Washington,_D.C.', true); // This will result in error. echo $document->find('h2.test-heading')[0]->html()."\n"; $test_heading = new Element('h2', 'This is test heading.'); $test_heading->class = 'test-heading'; $document->find('h1')[0]->replace($test_heading); echo $document->find('h2.test-heading')[0]->html()."\n";
最初,我们的文档中没有 test-heading 类的 h2 元素。因此,如果我们尝试访问这样的元素,我们将不断收到错误。
验证不存在这样的元素后,我们创建一个新的h2元素,并将其class属性的值更改为test-heading >.
之后,我们将文档中的第一个 h1 元素替换为新创建的 h2 元素。再次在我们的文档中使用 find()
方法查找带有 test-heading 类的 h2 标题,现在将返回一个元素。
本教程介绍了 PHP DiDOM HTML 解析器的基础知识。我们从安装开始,然后学习如何从字符串、文件或 URL 加载 HTML。之后,我们讨论了如何根据 CSS 选择器或 XPath 查找特定元素。我们还学习了如何获取元素的兄弟元素、父元素或子元素。其余部分介绍了如何操作特定元素的属性或在 HTML 文档中添加、删除和替换元素。
如果您希望我在教程中澄清任何内容,请随时在评论中告诉我。
以上是使用DiDOM解析HTML的PHP程式碼的詳細內容。更多資訊請關注PHP中文網其他相關文章!