首頁  >  文章  >  後端開發  >  解說xml中的空格

解說xml中的空格

怪我咯
怪我咯原創
2017-04-05 17:09:411914瀏覽

對html檔案而言,空格不重要;然而,對xml而言,預設立場就是要保留空格結點(空格結點的解釋見下文)。


根據xml規範的規定,所謂空格是四個字元的任意組合序列:
——----------------------」 -----
空格字元(space),對應字元值為#x20
傳回字元(Carriage Return),對應字元值為#xD
新行字元(Newline),對應字元值為#xA
跳格字元(Tab),對應字元值為#x9。

xml檔案的空格也會形成結點,也就是空格結點。空格結點屬於文字結點類型。

對xml和xslt而言,空格結點會牽涉到兩個議題:
-----------------------
#1。在xml輸入檔中決定哪些空格是重要的,xslt處理器要看見這些空格結點。而決定的金鑰就是xml:space屬性。
2。在xsl範本檔案中決定哪些空格是重要的,xslt處理器要將它複製到結果樹中,而決定的金鑰就是xsl:strip-space
和xsl:preserve-space這兩個指令。


「重要與不重要的空格結點」
-----------------------「
若某元件的內容只能放元件,則該元件中的空格結點就是不重要的(Insignificant);
如果某元件的內容是#PCDATA的類型,則其內的空格結點應視為重要的(Signficant)。
至於組件內容混雜了文字內容和組件的情況則無從評判,應視組件及其內容之語義而定。


xslt處理器接觸到xml輸入檔案之前,會先由xml分析器進行分析
—————————————————————— --
(1)xml:space屬性可以改變後續接手的xml應用程式處理空格結點的模式,例如,xslt處理器就會受xml:space屬性影響。
(2)xml檔案中任何一列標記或內容尾端的結尾的結尾符號全部會換成單一新行字元(#xA)。
(3)屬性值交給xml應用程式之前,xml分析器也應該先對屬性值做規範化的操作。這是因為不同的作業系統每一行文字列的結尾字元有不同的組合,例如,windows系統會由返回字元呵新行字元組成結尾符號,而Unix系統則僅由新行字元群組
     成結尾符號。 xml分析器在讀取xml檔案之後,便先行將所有結尾符號換成單一新行字符,不僅統一了不同系統間不同結尾符號設計的差異性,同時也簡化了後續xml應用程式的的操作難度。這樣一個處理過程稱為「規範化(Normalization)」。
 a,每一文字列的結尾符號都要規範化成單一的新行字元(#xA)。
 b,任何一個空格符(#x20、#xD、#xA、#x9)都應換成一個空格字元(#x20)。
 c,屬性值中若含有字參碼,則應替換成該參考字符,例如, 會換成新行字元(#xA)。
 d,屬性值若含有實體參考,則應以其替換文字替換。
 e,除此之外,任何字元都應直接放入規範化屬性值中。
 f,最後,如果屬性類型不是CDATA,則xml分析器應該再進一步把屬性值前後的空格字元序列刪除,而且屬性值中間若有空格序列,也應該替換成單一空格字元。

   
xslt處理器把xml輸入檔案和xsl模板檔案的結構樹建好之後,會現把元件中相鄰的文字結點合併成單一的文字結點,然後再把一些文字結點抽掉。然而,如果文字結點符合下列條件之一,就會被保留下來:
————————————————————————
(1)文字結點的父組件是空格保留組件名稱集(Set Of Whitespace-preserving Element Names)中的一員。
(2)文字結點中至少有一個非空格符號。
(3)文字結點的某個祖先元件中有xml:space屬性,其值為preserve,而且較近的祖先元件中沒有其他xml:space屬性值為default。除此之外的文字結點逗會被抽走。


對xsl範本而言,所謂的空格保留元件名稱集只有一個xsl:text元件可用。 xsl模板檔案的空格結點都會被刪除,但是,如果空格結點出現在xsl:text元件中就會被保留下來。

 

以上是解說xml中的空格的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn