這篇文章主要介紹了正規表示式學習教程之回溯引用backreference,結合實例形式詳細分析了回溯引用的概念、功能及實現技巧,需要的朋友可以參考下
本文實例講述了正規表示式回溯引用backreference。分享給大家供大家參考,具體如下:
在所有例子中正則表達式匹配結果包含在源文本中的【和】之間,有的例子會使用Java來實現,如果是java本身正規表示式的用法,會在對應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。
一、問題引入
一個在HTML頁面中符合標題標籤(H1—H6)的問題:
文字:
<body> <h1>Welcome to my page</H1> Content is pided into twosections:<br> <h2>Introduction</h2> Information about me. <H2>Hobby</H2> Information about my hobby. <h2>This is invalid HTML</h3> </body>
正規表示式:bec64cdfd3b18ddf17d11124d921cd9d.*?c0d08c9e09935101747a568bd8607d7d
#結果:
6c04bd5ca3fcae76e30b72ad730ca86d
【4a249f0d628e2318394fd9b75b4636b1Welcome to my page921186cad5e55f1481a45fdcd6c30f6e】
Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a#Content 是
#【c1a436a314ed609750bd7c7d319db4daIntroduction2e9b454fa8428549ca2e64dfac4625cd】
#Information about me.
【1b7994ba0f794e1b49742a6367e9e0c6Hobbyebe8950f0835d9653ff486769499854f】
」 my hobby.【c1a436a314ed609750bd7c7d319db4daThis is invalid HTML39528cedfa926ea0c01e69ef5b2ea9b0】
##36cc49f0c466276486e50c850b7e4956#分析:模式248fd9e9bb80e557cb3d346d628664f7符合任何一級標題的開始標籤,而且不區分大小寫,在這個例子中它匹配到了4a249f0d628e2318394fd9b75b4636b1、c1a436a314ed609750bd7c7d319db4da,c0d08c9e09935101747a568bd8607d7d匹配到了473f0a7621bec819994bb5020d29372a、2e9b454fa8428549ca2e64dfac4625cd、39528cedfa926ea0c01e69ef5b2ea9b0;這裡使用了懶惰型元字符
來匹配標籤中的文本,否則會匹配到從第一個開始標籤到最後一下結束標籤之間的內容。但從結果可以看出,有一個無效的標籤也匹配上了,即c1a436a314ed609750bd7c7d319db4da39528cedfa926ea0c01e69ef5b2ea9b0,它們根本不能配對。要解決這個問題,就需要使用到回溯引用(backreference)。二、回溯引用符合
回溯引用是指模式的後半部引用在前半部中定義的子表達式。 至於子表達式的使用、分割和引用,在前面已經介紹過了。現在來解決前面的範例:
文字:<body> <h1>Welcome to my page</H1> Content is pided into twosections:<br> <h2>Introduction</h2> Information about me. <H2>Hobby</H2> Information about my hobby. <h2>This is invalid HTML</h3> </body>正規表示式:
2b0cba08e60dd5488139acd8c53df8f7.*?2f213dbbacf53066911c7f9c5bc8505c
結果:
6c04bd5ca3fcae76e30b72ad730ca86d
【4a249f0d628e2318394fd9b75b4636b1Welcome to my page921186cad5e55f1481a45fdcd6c30f6e】
Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
【c1a436a314ed609750bd7c7d319db4daIntroduction2e9b454fa8428549ca2e64dfac4625cd】
#Information about me.
c1a436a314ed609750bd7c7d319db4daThis is invalid HTML39528cedfa926ea0c01e69ef5b2ea9b0分析:首先匹配開始標題標籤的模式bc46b54e2bc4b377fa6328e7387f23ec,使用括號把[1-6]做為子表達式,而匹配結束標題標籤模式為24c90dc245630ca7407a2a63769febbf,其中\1表示引用第一個子表達式,即([1-6]),如果([1-6])匹配到的是1,那\1也匹配到1,如果匹配到2,那\1也匹配到2,所以最後一個無效的標題標籤就不會被配對到了。
PS:這裡再提供大家2款非常方便的正規表示式工具供大家參考使用:
JavaScript
http://tools.jb51.net/regex/javascript
##正規則表達式線上產生工具:
以上是正規表示式之回溯引用backreference詳解_正規表示式的詳細內容。更多資訊請關注PHP中文網其他相關文章!