首頁 >後端開發 >XML/RSS教程 >XML結構與文法入門的具體分享

XML結構與文法入門的具體分享

黄舟
黄舟原創
2017-03-24 17:09:231347瀏覽

現在我們暫且使用「記事本」來建立我們的XML檔吧。先看一個XML檔:

範例1:

〈?xml version="1.0" encoding="gb2312" ?〉
〈参考资料〉
〈书籍〉
〈名称〉XML入门精解〈/名称〉
〈作者〉张三〈/作者〉
〈价格 货币单位="人民币"〉20.00〈/价格〉
〈/书籍〉
〈书籍〉
〈名称〉XML语法〈/名称〉
〈!--此书即将出版--〉
〈作者〉李四〈/作者〉
〈价格 货币单位="人民币"〉18.00〈/价格〉
〈/书籍〉
〈/参考资料〉

這是一個典型的XML文件,編輯好後儲存為一個以.xml為後綴的文件。我們可以將此文件分為文件序言(Prolog)和文件主體兩個大的部分。在此文件中的第一行即是文件序言。該行是XML檔案必須聲明的東西,而且也必須位於XML檔案的第一行,它主要是告訴XML解析器如何運作。其中,version是標明此XML檔案所用的標準的版本號,必須要有;encoding指明了此XML檔案中所使用的字元類型,可以省略,在你省略此聲明的時候,後面的字元碼必須是Unicode字元碼(建議不要省略)。因為我們在這個例子中使用的是GB2312字元碼,所以encoding這個聲明也不能省略。在文件序言部分還有一些聲明語句,我們在後面給予介紹。

檔案的其餘部分都是屬於檔案主體,XML檔案的內容資訊存放在此。我們可以看到,文件主體是由開始的〈參考資料〉和結束的〈/參考資料”控制標記所組成,這個稱為XML文件的「根元素」;〈書〉是作為直屬於根元素下的“子元素」;在〈書本〉下又有〈名稱〉、〈作者〉、〈價格〉這些子元素。貨幣單位是〈價格〉元素中的一個“屬性”,“人民幣”則是“屬性值”。

〈!--此書即將出版--〉這一句同HTML一樣,是註釋,在XML檔裡,註解部分是放在「〈!--」與「--〉」標記之間的部分。

大家可以看到,XML檔是相當簡單的。就像HTML一樣,XML檔案也是由一系列的標記組成,不過,XML檔案中的標記是我們自訂的標記,具有明確的意義,我們可以對標記中的內容的含義作出說明。

對XML檔案有了初步的印象之後,我們就來詳細地談一談XML檔案的語法。在講語法之前,我們必須要了解一個重要的概念,就是XML解析器(XML Parse)。

1.XML解析器

解析器的主要功能是檢查XML檔案是否有結構上的錯誤,剝離XML檔案中的標記,讀出正確的內容,以交給下一步的應用程式處理。 XML是一種用來結構化檔案資訊的標記語言,XML規格中對於如何標記檔案的結構性有一個詳細的法則,解析器就是根據這些法則寫成的軟體(多用Java寫成)。就像HTML一樣,在瀏覽器中,必須有HTML的解析器,這樣瀏覽器才能夠「讀懂」各種用HTML標記所組成的網頁,將它們顯示在我們面前。如果有瀏覽器的HTML解析器讀不懂的標記,將會傳回給我們錯誤訊息

由於現在的HTML標記實際上相當混亂,存在大量不規範的標記(有的網頁用IE能正常顯示,而用Netscape Navigator則不行),所以從一開始,XML的設計者就嚴格規定了XML的語法和結構,我們寫的XML檔案必須遵循這些規定,否則XML解析器將毫不留情地給你顯示錯誤訊息。

有兩種XML文件,一種是Well-Formed XML文件,一種是Validating XML檔。

如果一個XML檔案符合XML規範中的某些相關法則,且沒有使用DTD(檔案格式定義-後詳述)時,可稱這份文件為Well-Formed。而如果一個XML檔是Well-Formed,且正確地使用了DTD,DTD中的語法又是正確的,那麼這個檔就是Validating。對應兩種XML文件,有兩種XML解析器,一種是Well-Formed 解析器,一種是Validating解析器。 IE 5中就內含Validating解析器,Validating解析器也可用來解析Well-Formed XML檔。

檢查它是否滿足了Well-Formed的條件。我們可以將剛才編輯的第一個XML 檔案用IE 5以上版本的瀏覽器開啟。

大家可能要問為什麼在瀏覽器中的顯示和我的來源檔案一樣?沒錯,因為對於XML文件,我們黿齬匭乃 的內容,而它的顯示形式是交給CSS或XSL來完成的。這裡,我們並沒有給這個XML文件定義它的CSS或XSL文件,所以它按照原來的形式來顯示。實際上,對於電子資料交換,僅僅需要一個XML檔案即可,如果要將它以某種形式顯示出來,我們就必須編輯CSS或XSL檔案(這個問題會在以後討論)。

2.Well-Formed的XML檔案

我們知道,XML必須是Well-Formed的,才能夠被解析器正確地解析出來,顯示在瀏覽器中。那什麼是Well-Formed的XML檔呢?主要有下面幾個準則,我們在建立XML檔案的時候,必須滿足它們。

1.XML文件的第一行必须是声明该文件是XML文件以及它所使用的XML规范版本。在文件的前面不能够有其它元素或者注释。

2.在XML文件中有且只能够有一个根元素。我们的第一个例子中,〈参考资料〉... 〈/参考资料〉就是此XML文件的根元素。

3.在XML文件中的标记必须正确地关闭,也就是说,在XML文件中,控制标记必 须有与之对应的结束标记。如:〈名称〉标记必须有对应的〈/名称〉结束标记,不像HTML,某些标记的结束标记可有可无。如果在XML文件中遇到自成一个单元的标记,就是类似于HTML 中的〈img src=.....〉的这些没有结束标记的时候,XML把它称为“空元素”,必须用这样的写法:〈空元素名/〉,如果元素中含有属性时写法则为:〈空元素名 属性名=“属性值”/〉。

4.标记之间不得交叉。在以前的HTML文件中,可以这样写:

〈B〉〈H〉XXXXXXX〈/B〉〈/H〉,〈B〉和〈H〉

标记之间有相互重叠的区域,而在XML中,是严格禁止这样标记交错的写法,标记必须以规则性的次序来出现。

5.属性值必须要用“ ”号括起来。如第一个例子中的“1.0”、“gb2312”、“人民币”。都是用“ ”号括起来了的,不能漏掉。

6.控制标记、指令和属性名称等英文要区分大小写。与HTML不同的是,在HTML中, 类似〈B〉和〈b〉的标记含义是一样的,而在XML中,类似〈name〉、〈NAME〉或〈Name〉这样的标记是不同的。

7.我们知道,在HTML文件中,如果我们要浏览器原封不动地将我们所输入的东西显示出来,可以将这些东西放到〈pre〉〈/pre〉或者〈xmp〉〈/xmp〉标记中间。这对于我们创建HTML教学的网页是必不可少的,因为网页中要显示HTML的源代码。而在XML中,要实现这样的功能,就必须使用CDATA标记。在CDATA标记中的信息被解析器原封不动地传给应用程序,并且不解析该段信息中的任何控制标记。CDATA区域是由:“〈![CDATA[”为开始标记,以“>〉”为结束标记。例如:例2中的源码,除了“〈![CDATA[”和“>〉”符号,其余的内容解析器将原封不动地交给下游的应用程序,即使CDATA区域中的开始和结尾的空白以及换行字符等,都同样会被转交(注意CDATA是大写的字符)。

例2:

〈![CDATA[飞翔的xml〉〉〉〉〉,:-)
oooo〈〈〈〈〈〈〈
>〉

8.XML处理空白字符和HTML不一样。HTML标准规定,不管有多少个空白,都当作一个空白来处理;而在XML中规定,所有标记以外的空白,解析器都要忠实地交给下游的应用程序处理。这样,我们有时必须摒弃编写HTML文件时的缩排习惯,因为缩排的空格,解析器也要处理。如:

〈作者〉张三〈/作者〉
和
〈作者〉
张三
〈/作者〉

上述内容对于解析器来说是不同的(后者在〈作者〉〈/作者〉标记之内除了张三这个字符以外,还包括两个换行记号以及“张三”前的文字缩排符号)。所以解析器在去掉标记后将信息传给应用程序将有不同的处理结果。

如果我们想明确地告诉XML程序,标记中的空白有明确的含义,不要随便去掉(如在一些诗中,空格有它具体的意义),则可在标记中加入一个XML内置的属性——xml:space 。如(注意属性名称和值的大小写):

〈诗歌 xml:space="preserver"〉
祖国啊! 祖国!
我的祖国!
〈/诗歌〉

另外,在XML文件中,如果要用到表1的特殊字符,必须用相应符号代替。

表1:

特殊字符     替代符号
 &&       &
 <       &it;
 >       >
 "       "
 &#39;      &apos;

小结:

符合上述规定的XML文件就是Well-Formed的XML文件。这是编写XML文件的最基本要求。可以看到XML文件的语法规定比HTML要严格多了。由于有这样的严格规定,软件工程师编写XML的解析器就容易多了,不像编写HTML语言的解析器,必须费尽心思去适应不同的网页写法,提高自己浏览器的适应能力。实际上,这对于我们初学者来说,也是一件好事。该怎样就怎样,不必像原来那样去疑惑各种HTML的写法。

我們看到,在XML檔案中,用的大多都是自訂的標記。但大家考慮一下,如果兩個同產業的公司A和B要用XML檔案互相交換數據,A公司用〈價格〉標記來表示他們產品的價格訊息,而B公司可能用〈售價〉來表示價格資訊.如果一個XML應用程式來讀取他們各自的XML檔案中的信息時,如果它只知道〈價格〉標記裡表示的是價格信息,那麼B公司的價格信息就讀不出來,必將產生錯誤。顯然,對於想利用XML檔案來交換資訊的實體來說,他們之間必須有一個約定——即編寫XML檔案可以用哪些標記,母元素中能夠包含哪些子元素,各個元素出現的順序,元素中的屬性怎樣定義等。這樣他們在用XML交換資料時才能夠暢通無阻。這種約定稱為DTD(Document Type Definition,文件格式定義)。可以把DTD看成編寫XML檔的模板。對於同產業之間的XML資料交換,有一個固定的DTD將會方便很多。比如說,如果網路上的各大電子商場的XML網頁都遵循同一個DTD時,那麼我們就可以輕鬆地依據這個DTD 編寫一個應用程序,去網上將我們感興趣的東西自動抓回來。事實上已經有了好幾個定義好的DTD,如前面所說的MathML、SMIL等。

如果一個XML檔是Well-Formed的,而且它是正確的依據某個DTD建立的,那麼,這個XML檔就被稱為:Validating XML檔。對應的解析器就稱為:Validating Parser。

以上是XML結構與文法入門的具體分享的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn