XML—XPATH語法介紹-XML/RSS教程-PHP中文網

首頁

後端開發

XML/RSS教程

XML—XPATH語法介紹

黄舟

Feb 24, 2017 pm 03:19 PM

為什麼需要xpath?

在使用dom4j的時候，我們不能跨層取得某一個元素，必須一層一層去獲取，這就非常麻煩。
所以為了我們更方便地存取某個節點，我們可以使用xpath技術，它可以讓我們非常方便地讀取到指定節點。

xpath通常結合dom4j配合使用，而且如果要使用xpath，則需要引入一個新的套件jaxen-1.1-beta-6.jar

#xpath的基礎語法有以下幾點：

1.基本的xpath語法類似於在一個檔案系統中定位文件，如果路徑以斜線/開始，那麼路徑就表示到一個元素的絕對路徑.

（1）/AAA，它表示選擇根元素AAA

<AAA>这里    <BBB/>
    <CCC/>
    <BBB/>
    <BBB/>
    <DDD>
        <BBB/>
    <DDD/>
    <CCC/><AAA/>这里

（2）/AAA/CCC，表示選擇AAA的所有CCC子元素

<AAA>
    <BBB/>
    <CCC/>这里    <BBB/>
    <BBB/>
    <DDD>
        <BBB/>
    <DDD/>
    <CCC/>这里<AAA/>

（3）/AAA/DDD/BBB，表示選擇AAA的子元素DDD的所有BBB子元素

<AAA>
    <BBB/>
    <CCC/>
    <BBB/>
    <BBB/>
    <DDD>
        <BBB/>这里    <DDD/>
    <CCC/><AAA/>

那麼怎麼在dom4j中運用xpath呢？其實很簡單：

//1.得到SAXReader解析器SAXReader saxReader = new SAXReader();
//2.指定去解析哪个文件Document document = saxReader.read(new File(path));
//3.可以使用xpath随心读取// document.selectNodes(args)返回多个元素
// document.selectSingleNode(args)返回单个元素List nodes = document.selectNodes("/AAA/BBB");

透過dom4j得到document物件後，可以使用document的selectNodes(args)方法，這個方法會根據你寫的xpath路徑回傳一個List，剩下的操作就跟dom4j類似了。

同時它也有一個selectSingleNode(args)方法，用來傳回一個單一的Node。

下面繼續介紹其他的xpath語法：

2.如果路徑以雙斜線//開頭，則表示文件中所有滿足雙斜線//之後規則的元素（無論層級關係）

（1）//BBB，它表示選擇所有BBB元素

<AAA>
    <BBB/>这里    <CCC/>
    <BBB/>这里    <DDD>
        <BBB/>这里    </DDD>
    <CCC>
        <DDD>
            <BBB/>这里            <BBB/>这里        </DDD>
    </CCC></AAA>

（2）//DDD/BBB，表示所有父元素是DDD的BBB元素

<AAA>
    <BBB/>
    <CCC/>
    <BBB/>
    <DDD>
        <BBB/>这里    </DDD>
    <CCC>
        <DDD>
            <BBB/>这里            <BBB/>这里        </DDD>
    </CCC></AAA>

3.星號* 表示選擇所有由星號之前路徑所定位的元素

（1）/AAA/CCC/DDD/*，它表示選擇所有路徑依附於/ AAA/CCC/DDD的元素：

<AAA>
    <XXX>
        <DDD>
            <BBB/>
            <BBB/>
            <EEE/>
            <FFF/>
        </DDD>
    </XXX>
    <CCC>
        <DDD>
            <BBB/>这里            
            <BBB/>这里            
            <EEE/>这里            
            <FFF/>这里        
            </DDD>
    </CCC>
    <CCC>
        <BBB>
            <BBB>
                <BBB/>
            </BBB>
        </BBB>
    </CCC></AAA>

（2）/*/*/*/BBB，它表示所有的有3個祖先元素的BBB元素

<AAA>
    <XXX>
        <DDD>
            <BBB/>这里            
            <BBB/>这里            
            <EEE/>
            <FFF/>
        </DDD>
    </XXX>
    <CCC>
        <DDD>
            <BBB/>这里            
            <BBB/>这里            
            <EEE/>
            <FFF/>
        </DDD>
    </CCC>
    <CCC>
        <BBB>这里            <BBB>
                <BBB/>
            </BBB>
        </BBB>
    </CCC></AAA>

（3）//*，它表示選擇所有的元素

#4.方括號裡的表達式可以進一步地指定元素，其中數字表示元素在選擇集合裡的位置，而last()函數則表示選擇集中的最後一個元素。特別要注意的是這裡的下標是從1開始的，而不是0！
(1)/AAA/BBB[1]，它表示選擇AAA的第一個BBB子元素

<AAA>
    <BBB/>这个    <BBB/>
    <BBB/>
    <BBB/></AAA>

（2）/AAA/ BBB[last()]，表示選擇AAA的最後一個BBB元素

<AAA>
    <BBB/>
    <BBB/>
    <BBB/>
    <BBB/>这个</AAA>

#5.對屬性的操作

（1）//@id，選擇所有的id屬性，注意：是把所有的id屬性當作節點傳回，而不是回傳有id屬性的節點。

<AAA>
    <BBB id="b1"/>返回这里的id属性节点    <BBB id="b2"/>也返回这里的id属性节点    <BBB name="bbb"/>
    <BBB/></AAA>

(2)//BBB[@id]，選擇所有有id屬性的BBB節點

<AAA>
    <BBB id="b1"/>返回这个BBB节点    <BBB id="b2"/>也返回这个BBB节点    <BBB name="bbb"/>
    <BBB/></AAA>

(3)//BBB[@ name]，選擇所有有name屬性的BBB節點

<AAA>
    <BBB id="b1"/>
    <BBB id="b2"/>
    <BBB name="bbb"/>返回这个BBB节点    <BBB/></AAA>

(4)//BBB[@*]，選擇所有有屬性的BBB節點

<AAA>
    <BBB id="b1"/>返回这个BBB节点    <BBB id="b2"/>返回这个BBB节点    <BBB name="bbb"/>返回这个BBB节点    <BBB/></AAA>

(5)//BBB[not(@*)]，選擇所有沒有屬性的BBB節點

<AAA>
    <BBB id="b1"/>
    <BBB id="b2"/>
    <BBB name="bbb"/>
    <BBB/>这个</AAA>

6.屬性的值可以用來作為選擇的準則

（1）//BBB[@id='b1']，選擇含有屬性id且其值為'b1'的BBB元素

<AAA>
    <BBB id="b1"/>这个    <BBB name="bbb"/>
    <BBB name="bbb"/></AAA>

7.count()函數可以計數所選元素的數量

（1）//* [count(BBB)=2]，選擇含有2個BBB子元素的元素

<AAA>
    <CCC>
        <BBB/>
        <BBB/>
        <BBB/>
    </CCC>
    <DDD>返回这个元素        <BBB/>
        <BBB/>
    </DDD>
    <EEE>
        <CCC/>
        <DDD/>
    </EEE></AAA>

（2）//*[count(*)=2]，選擇含有2個子元素的元素

<AAA>
    <CCC>
        <BBB/>
        <BBB/>
        <BBB/>
    </CCC>
    <DDD>返回这个元素        <BBB/>
        <BBB/>
    </DDD>
    <EEE>也返回这个元素        <CCC/>
        <DDD/>
    </EEE></AAA>

還有很多其他的語法，包括很多函數的應用，用的不多，這裡不做介紹

另外，上述介紹的幾點語法可以任意組合，例如下述的xml文檔：

<AAA>
    <BBB id="b1">
        <CCC>
            <KKK>k1</KKK>
        </CCC>
        <CCC>
            <KKK>k2</KKK>这个        </CCC>
    </BBB>
    <BBB id="b2"/>
    <BBB name="bbb"/></AAA>

假如我們現在要找AAA元素下面的第1個BBB子元素下面的第2CCC子元素的KKK子元素，則xpath路徑要這麼寫：
/AAA/BBB[1]/CCC[2]/KKK

為什麼需要xpath?

在使用dom4j的時候，我們無法跨層取得某一個元素，必須一層一層去獲取，這就非常麻煩。
所以為了我們更方便地存取某個節點，我們可以使用xpath技術，它可以讓我們非常方便地讀取到指定節點。

xpath通常結合dom4j配合使用，而且如果要使用xpath，則需要引入一個新的套件jaxen-1.1-beta-6.jar

#xpath的基礎語法有以下幾點：

1.基本的xpath語法類似於在一個檔案系統中定位文件，如果路徑以斜線/開始，那麼路徑就表示到一個元素的絕對路徑.

（1）/AAA，它表示選擇根元素AAA

<AAA>这里    <BBB/>
    <CCC/>
    <BBB/>
    <BBB/>
    <DDD>
        <BBB/>
    <DDD/>
    <CCC/><AAA/>这里

（2）/AAA/CCC，表示選擇AAA的所有CCC子元素

<AAA>
    <BBB/>
    <CCC/>这里    <BBB/>
    <BBB/>
    <DDD>
        <BBB/>
    <DDD/>
    <CCC/>这里<AAA/>

（3）/AAA/DDD/BBB，表示選擇AAA的子元素DDD的所有BBB子元素

<AAA>
    <BBB/>
    <CCC/>
    <BBB/>
    <BBB/>
    <DDD>
        <BBB/>这里    <DDD/>
    <CCC/><AAA/>

那么怎么在dom4j中运用xpath呢？其实很简单：

//1.得到SAXReader解析器SAXReader saxReader = new SAXReader();
//2.指定去解析哪个文件Document document = saxReader.read(new File(path));
//3.可以使用xpath随心读取
// document.selectNodes(args)返回多个元素
// document.selectSingleNode(args)返回单个元素List nodes = document.selectNodes("/AAA/BBB");

通过dom4j得到document对象后，可以使用document的selectNodes(args)方法，这个方法会根据你写的xpath路径返回一个List，余下的操作就和dom4j类似了。

同时它也有一个selectSingleNode(args)方法，用于返回一个单个的Node。

下面继续介绍其他的xpath语法：

2.如果路径以双斜线//开头，则表示文档中所有满足双斜线//之后规则的元素（无论层级关系）

（1）//BBB，它表示选择所有BBB元素

<AAA>
    <BBB/>这里    <CCC/>
    <BBB/>这里    <DDD>
        <BBB/>这里    </DDD>
    <CCC>
        <DDD>
            <BBB/>这里            <BBB/>这里        </DDD>
    </CCC></AAA>

（2）//DDD/BBB，表示所有父元素是DDD的BBB元素

<AAA>
    <BBB/>
    <CCC/>
    <BBB/>
    <DDD>
        <BBB/>这里    </DDD>
    <CCC>
        <DDD>
            <BBB/>这里            <BBB/>这里        </DDD>
    </CCC></AAA>

3.星号*表示选择所有由星号之前路径所定位的元素

（1）/AAA/CCC/DDD/*，它表示选择所有路径依附于/AAA/CCC/DDD的元素：

<AAA>
    <XXX>
        <DDD>
            <BBB/>
            <BBB/>
            <EEE/>
            <FFF/>
        </DDD>
    </XXX>
    <CCC>
        <DDD>
            <BBB/>这里            
            <BBB/>这里            
            <EEE/>这里            
            <FFF/>这里        
            </DDD>
    </CCC>
    <CCC>
        <BBB>
            <BBB>
                <BBB/>
            </BBB>
        </BBB>
    </CCC></AAA>

（2）/*/*/*/BBB，它表示所有的有3个祖先元素的BBB元素

<AAA>
    <XXX>
        <DDD>
            <BBB/>这里            
            <BBB/>这里            
            <EEE/>
            <FFF/>
        </DDD>
    </XXX>
    <CCC>
        <DDD>
            <BBB/>这里            
            <BBB/>这里            
            <EEE/>
            <FFF/>
        </DDD>
    </CCC>
    <CCC>
        <BBB>这里            
        <BBB>
                <BBB/>
            </BBB>
        </BBB>
    </CCC></AAA>

（3）//*，它表示选择所有的元素

4.方括号里的表达式可以进一步地指定元素，其中数字表示元素在选择集里的位置，而last()函数则表示选择集中的最后一个元素。特别要注意的是这里的下标是从1开始的，而不是0！
(1)/AAA/BBB[1]，它表示选择AAA的第一个BBB子元素

<AAA>
    <BBB/>这个    <BBB/>
    <BBB/>
    <BBB/></AAA>

（2）/AAA/BBB[last()]，表示选择AAA的最后一个BBB元素

<AAA>
    <BBB/>
    <BBB/>
    <BBB/>
    <BBB/>这个</AAA>

5.对属性的操作

（1）//@id，选择所有的id属性，注意：是把所有的id属性当做节点返回，而不是返回有id属性的节点。

<AAA>
    <BBB id="b1"/>返回这里的id属性节点    <BBB id="b2"/>也返回这里的id属性节点    <BBB name="bbb"/>
    <BBB/></AAA>

(2)//BBB[@id]，选择所有有id属性的BBB节点

<AAA>
    <BBB id="b1"/>返回这个BBB节点    <BBB id="b2"/>也返回这个BBB节点    <BBB name="bbb"/>
    <BBB/></AAA>

(3)//BBB[@name]，选择所有有name属性的BBB节点

<AAA>
    <BBB id="b1"/>
    <BBB id="b2"/>
    <BBB name="bbb"/>返回这个BBB节点    <BBB/></AAA>

(4)//BBB[@*]，选择所有有属性的BBB节点

<AAA>
    <BBB id="b1"/>返回这个BBB节点    <BBB id="b2"/>返回这个BBB节点    <BBB name="bbb"/>返回这个BBB节点    <BBB/></AAA>

(5)//BBB[not(@*)]，选择所有没有属性的BBB节点

<AAA>
    <BBB id="b1"/>
    <BBB id="b2"/>
    <BBB name="bbb"/>
    <BBB/>这个</AAA>

6.属性的值可以被用来作为选择的准则

（1）//BBB[@id='b1']，选择含有属性id且其值为’b1’的BBB元素

<AAA>
    <BBB id="b1"/>这个    <BBB name="bbb"/>
    <BBB name="bbb"/></AAA>

7.count()函数可以计数所选元素的个数

（1）//*[count(BBB)=2]，选择含有2个BBB子元素的元素

<AAA>
    <CCC>
        <BBB/>
        <BBB/>
        <BBB/>
    </CCC>
    <DDD>返回这个元素        <BBB/>
        <BBB/>
    </DDD>
    <EEE>
        <CCC/>
        <DDD/>
    </EEE></AAA>

（2）//*[count(*)=2]，选择含有2个子元素的元素

<AAA>
    <CCC>
        <BBB/>
        <BBB/>
        <BBB/>
    </CCC>
    <DDD>返回这个元素        <BBB/>
        <BBB/>
    </DDD>
    <EEE>也返回这个元素        <CCC/>
        <DDD/>
    </EEE></AAA>

还有很多其他的语法，包括很多函数的应用，用的不多，这里不做介绍

另外，上述介绍的几点语法可以任意组合，比如下述的xml文档：

<AAA>
    <BBB id="b1">
        <CCC>
            <KKK>k1</KKK>
        </CCC>
        <CCC>
            <KKK>k2</KKK>这个        </CCC>
    </BBB>
    <BBB id="b2"/>
    <BBB name="bbb"/></AAA>

假如我们现在要找AAA元素下面的第1个BBB子元素下面的第2CCC子元素的KKK子元素，则xpath路径应该这么写：
/AAA/BBB[1]/CCC[2]/KKK

以上就是XML——XPATH语法介绍的内容，更多相关内容请关注PHP中文网（www.php.cn）！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

故障排除XML/RSS提要：常見的陷阱和專家解決方案May 01, 2025 am 12:07 AM

XML/RSS訂閱源的處理涉及解析和優化，常見問題包括格式錯誤、編碼問題和元素缺失。解決方案包括：1.使用XML驗證工具檢查格式錯誤；2.確保編碼一致性並使用chardet庫檢測編碼；3.處理元素缺失時使用默認值或跳過該元素；4.使用高效解析器如lxml和緩存解析結果以優化性能；5.注意數據一致性和安全性，防止XML注入攻擊。

解碼RSS文檔：閱讀和解釋提要Apr 30, 2025 am 12:02 AM

解析RSS文檔的步驟包括：1.讀取XML文件，2.使用DOM或SAX解析XML，3.提取標題、鏈接等信息，4.處理數據。 RSS文檔是一種基於XML的格式，用於發布更新內容，結構包含、和元素，適用於構建RSS閱讀器或數據處理工具。

RSS和XML：Web聯合組織的基石Apr 29, 2025 am 12:22 AM

RSS和XML是網絡內容分發和數據交換的核心技術。 RSS用於發布頻繁更新的內容，XML用於存儲和傳輸數據。通過實際項目中的使用示例和最佳實踐，可以提高開發效率和性能。

RSS提要：探索XML的作用和目的Apr 28, 2025 am 12:06 AM

XML在RSSFeed中的作用是結構化數據、標準化和提供可擴展性。 1.XML使得RSSFeed的數據結構化，便於解析和處理。 2.XML提供了一種標準化的方式來定義RSSFeed的格式。 3.XML的可擴展性使得RSSFeed可以根據需要添加新的標籤和屬性。

縮放XML/RSS處理：性能優化技術Apr 27, 2025 am 12:28 AM

處理XML和RSS數據時，可以通過以下步驟優化性能：1)使用高效的解析器如lxml提升解析速度；2)採用SAX解析器減少內存使用；3)利用XPath表達式提高數據提取效率；4)實施多進程並行處理提升處理速度。

RSS文檔格式：探索RSS 2.0及以後Apr 26, 2025 am 12:22 AM

RSS2.0是一種開放標準，允許內容髮布者以結構化的方式分發內容。它包含了豐富的元數據，如標題、鏈接、描述、發布日期等，使得訂閱者能夠快速瀏覽和訪問內容。 RSS2.0的優勢在於其簡潔和擴展性。例如，它允許自定義元素，這意味著開發者可以根據需求添加額外的信息，如作者、分類等。

理解RSS：XML觀點Apr 25, 2025 am 12:14 AM

RSS是一種基於XML的格式，用於發布經常更新的內容。 1.RSSfeed通過XML結構化組織信息，包括標題、鏈接、描述等。 2.創建RSSfeed需按照XML結構編寫，添加元數據如語言和發布日期。 3.高級用法可包含多媒體文件和分類信息。 4.調試時使用XML驗證工具，確保必需元素存在且編碼正確。 5.優化RSSfeed可通過分頁、緩存和保持結構簡潔來實現。通過理解和應用這些知識，可以有效管理和分發內容。