HTMLParser使用詳解（3）-html教學-PHP中文網

首頁

web前端

html教學

HTMLParser使用詳解（3）

黄舟

Dec 29, 2016 pm 03:57 PM

htmlparser

HTMLParser遍歷了網頁的內容以後，以樹（森林）結構保存了結果。 HTMLParser存取結果內容的方法有兩種。使用Filter和使用Visitor。

（一）Filter類
顧名思義，Filter就是對於結果進行過濾，取得所需的內容。 HTMLParser在org.htmlparser.filters包之內一共定義了16個不同的Filter，也可以分成幾類。
判斷類別Filter：

TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter

邏輯運算Filter：

AndFilter
NotFilter
OrFilter
XorFilter
其他Filter：
NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

所有的Filter類別都實作了org.htmlparser.NodeFilter介面。這個介面只有一個主要函數：

boolean accept (Node node);

（二）判斷類別FilterHTMLParser使用入門（2）- Node內容，自己加入import部分）

public static void main(String[] args) {
try{
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
// 这里是控制测试的部分，后面的例子修改的就是这个地方。
NodeFilter filter = new TagNameFilter ("DIV");
NodeList nodes = parser.extractAllNodesThatMatch(filter); 
if(nodes!=null) {
for (int i = 0; i < nodes.size(); i++) {
Node textnode = (Node) nodes.elementAt(i);
message("getText:"+textnode.getText());
message("=================================================");
}
} 
}
catch( Exception e ) { 
e.printStackTrace();
}
}

輸出結果：

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

NodeFilter filter = new HasChildFilter();

輸出結果：

NodeFilter innerFilter = new TagNameFilter ("DIV");
NodeFilter filter = new HasChildFilter(innerFilter);
NodeList nodes = parser.extractAllNodesThatMatch(filter);

節點都被取出了。下面可以針對這兩個DIV節點進行操作

2.2 HasChildFilter
下面讓我們來看看HasChildFilter。剛剛看到這個Filter的時候，我想當然地認為這個Filter回傳的是有Child的Tag。直接初始化了一個

getText:body 
=================================================
getText:div id="top_main"
=================================================

修改程式碼：

public HasChildFilter (NodeFilter filter, boolean recursive)

輸出結果：

NodeFilter filter = new HasChildFilter( innerFilter, true );

可以看到，輸出的是兩個有DIV子Tag的Tag節點。（body有子節點DIV "top_main"，"top_main"有子節點"logoindex"。

注意HasChildFilter還有一個建構子：

getText:html xmlns="http://www.w3.org/1999/xhtml"
=================================================
getText:body 
=================================================
getText:div id="top_main"
=================================================

如果recursive是false，則只對第一級子節點進行過濾只對第一級子節點進行過濾。看到輸出結果多了一個html xmlns="http://www.w3.org/1999/xhtml"，這個是整個HTML頁面的節點（根節點），雖然這個節點下方直接沒有DIV節點，但它的子節點body下面有DIV節點，所以它也被匹配上了。的節點。

public HasAttributeFilter ();
public HasAttributeFilter (String attribute);
public HasAttributeFilter (String attribute, String value);

輸出結果：

NodeFilter filter = new HasAttributeFilter();
NodeList nodes = parser.extractAllNodesThatMatch(filter);

很簡單吧。 Node：

什么也没有输出。

不需要太多說明了。針對類型進行過濾。字串中的內容（例如註釋，連結等等）不會被顯示。字串和連結的文字字串的Tag都被輸出了，但是註解和連結Tag本身沒有輸出。指向某個特定網站的連結。

測試程式碼：

NodeFilter filter = new HasAttributeFilter( "id" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);

輸出結果：

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

4.4 其他幾個Filter
其他幾個Filter也是根據字串對不同的域進行判斷，與前面這些的區別主要就是支持正則表達式。這個不在本文的討論範圍內，大家可以自己實驗一下。

前面介紹的都是簡單的Filter，只能針對某種單一類型的條件進行過濾。 HTMLParser支援對於簡單類型的Filter進行組合，從而實現複雜的條件。原理和一般程式語言的邏輯運算是一樣的。
3.1 AndFilter
AndFilter可以把兩種Filter進行組合，只有同時滿足條件的Node才會被過濾。
測試程式碼：

NodeFilter filter = new HasAttributeFilter( "id", "logoindex" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);

輸出結果：

getText:div id="logoindex"
=================================================

3.2 OrFilter

把前面的AndFilter換成OrFilter

測試程式碼：

reeeNot

reeeNot
3的輸出結果： ter
測試程式碼：

public IsEqualFilter (Node node) {
mNode = node;
}
accept函数也很简单：
public boolean accept (Node node) {
return (mNode == node);
}

輸出結果：

NodeFilter filter = new NodeClassFilter(RemarkNode.class);
NodeList nodes = parser.extractAllNodesThatMatch(filter);

除了前面3.2中輸出的幾個Tag，其餘的Tag都在這裡了。

3.4 XorFilter
把前面的AndFilter換成NotFilter
測試程式碼：

getText:这是注释
=================================================
可以看到只有RemarkNode（注释）被输出了。

輸出結果：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-title-www.baizeju.com</title></head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">
<!--这是注释 白泽居-www.baizeju.com -->
白泽居-字符串1-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-链接文本-www.baizeju.com</a>
</div>
白泽居-字符串2-www.baizeju.com
</div>
</body>
</html>

4.1 NodeClassFilter
Filter
這個2Node字類型是否是某個特定的節點類型。在

2.1 TagNameFilter

TabNameFilter是最容易理解的一個Filter，根據Tag的名字進行過濾。

下面是用來測試的HTML檔：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title>< /head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">
<!--这是注释-->
白泽居-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
</div>
白泽居-www.baizeju.com
</div>
</body>
</html>

以上就是HTMLParser使用详解（3）的内容，更多相关内容请关注PHP中文网（www.php.cn）！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

HTML中的布爾屬性是什麼？舉一些例子。Apr 25, 2025 am 12:01 AM

布爾屬性是HTML中的特殊屬性，不需要值即可激活。 1.布爾屬性通過存在與否控制元素行為，如disabled禁用輸入框。 2.它們的工作原理是瀏覽器解析時根據屬性的存在改變元素行為。 3.基本用法是直接添加屬性，高級用法可通過JavaScript動態控制。 4.常見錯誤是誤以為需要設置值，正確寫法應簡潔。 5.最佳實踐是保持代碼簡潔，合理使用布爾屬性以優化網頁性能和用戶體驗。

如何驗證您的HTML代碼？Apr 24, 2025 am 12:04 AM

HTML代碼可以通過在線驗證器、集成工具和自動化流程來確保其清潔度。 1)使用W3CMarkupValidationService在線驗證HTML代碼。 2)在VisualStudioCode中安裝並配置HTMLHint擴展進行實時驗證。 3)利用HTMLTidy在構建流程中自動驗證和清理HTML文件。

HTML與CSS和JavaScript：比較Web技術Apr 23, 2025 am 12:05 AM

HTML、CSS和JavaScript是構建現代網頁的核心技術：1.HTML定義網頁結構，2.CSS負責網頁外觀，3.JavaScript提供網頁動態和交互性，它們共同作用，打造出用戶體驗良好的網站。

HTML作為標記語言：其功能和目的Apr 22, 2025 am 12:02 AM

HTML的功能是定義網頁的結構和內容，其目的在於提供一種標準化的方式來展示信息。 1）HTML通過標籤和屬性組織網頁的各個部分，如標題和段落。 2）它支持內容與表現分離，提升維護效率。 3）HTML具有可擴展性，允許自定義標籤增強SEO。

HTML，CSS和JavaScript的未來：網絡開發趨勢Apr 19, 2025 am 12:02 AM

HTML的未來趨勢是語義化和Web組件，CSS的未來趨勢是CSS-in-JS和CSSHoudini，JavaScript的未來趨勢是WebAssembly和Serverless。 1.HTML的語義化提高可訪問性和SEO效果，Web組件提升開發效率但需注意瀏覽器兼容性。 2.CSS-in-JS增強樣式管理靈活性但可能增大文件體積，CSSHoudini允許直接操作CSS渲染。 3.WebAssembly優化瀏覽器應用性能但學習曲線陡，Serverless簡化開發但需優化冷啟動問題。

HTML：結構，CSS：樣式，JavaScript：行為Apr 18, 2025 am 12:09 AM

HTML、CSS和JavaScript在Web開發中的作用分別是：1.HTML定義網頁結構，2.CSS控製網頁樣式，3.JavaScript添加動態行為。它們共同構建了現代網站的框架、美觀和交互性。

HTML的未來：網絡設計的發展和趨勢Apr 17, 2025 am 12:12 AM

HTML的未來充滿了無限可能。 1)新功能和標準將包括更多的語義化標籤和WebComponents的普及。 2)網頁設計趨勢將繼續向響應式和無障礙設計發展。 3)性能優化將通過響應式圖片加載和延遲加載技術提升用戶體驗。

HTML與CSS vs. JavaScript：比較概述Apr 16, 2025 am 12:04 AM

HTML、CSS和JavaScript在網頁開發中的角色分別是：HTML負責內容結構，CSS負責樣式，JavaScript負責動態行為。 1.HTML通過標籤定義網頁結構和內容，確保語義化。 2.CSS通過選擇器和屬性控製網頁樣式，使其美觀易讀。 3.JavaScript通過腳本控製網頁行為，實現動態和交互功能。

See all articles