首頁 >web前端 >js教程 >正規表示式之回溯引用backreference詳解_正規表示式

正規表示式之回溯引用backreference詳解_正規表示式

微波
微波原創
2017-06-28 13:49:301619瀏覽

這篇文章主要介紹了正規表示式學習教程之回溯引用backreference,結合實例形式詳細分析了回溯引用的概念、功能及實現技巧,需要的朋友可以參考下

本文實例講述了正規表示式回溯引用backreference。分享給大家供大家參考,具體如下:

在所有例子中正則表達式匹配結果包含在源文本中的【和】之間,有的例子會使用Java來實現,如果是java本身正規表示式的用法,會在對應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

一、問題引入

一個在HTML頁面中符合標題標籤(H1—H6)的問題:

文字:

<body>
<h1>Welcome to my page</H1>
Content is pided into twosections:<br>
<h2>Introduction</h2>
Information about me.
<H2>Hobby</H2>
Information about my hobby.
<h2>This is invalid HTML</h3>
</body>

正規表示式:bec64cdfd3b18ddf17d11124d921cd9d.*?c0d08c9e09935101747a568bd8607d7d

#結果:

6c04bd5ca3fcae76e30b72ad730ca86d
【4a249f0d628e2318394fd9b75b4636b1Welcome to my page921186cad5e55f1481a45fdcd6c30f6e】
Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
#Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a#Content 是
#【c1a436a314ed609750bd7c7d319db4daIntroduction2e9b454fa8428549ca2e64dfac4625cd】

#Information about me.
【1b7994ba0f794e1b49742a6367e9e0c6Hobbyebe8950f0835d9653ff486769499854f】

#Information about

」 my hobby.【c1a436a314ed609750bd7c7d319db4daThis is invalid HTML39528cedfa926ea0c01e69ef5b2ea9b0】

##36cc49f0c466276486e50c850b7e4956

#分析:模式248fd9e9bb80e557cb3d346d628664f7符合任何一級標題的開始標籤,而且不區分大小寫,在這個例子中它匹配到了4a249f0d628e2318394fd9b75b4636b1、c1a436a314ed609750bd7c7d319db4da,c0d08c9e09935101747a568bd8607d7d匹配到了473f0a7621bec819994bb5020d29372a、2e9b454fa8428549ca2e64dfac4625cd、39528cedfa926ea0c01e69ef5b2ea9b0;這裡使用了懶惰型元字符

來匹配標籤中的文本,否則會匹配到從第一個開始標籤到最後一下結束標籤之間的內容。但從結果可以看出,有一個無效的標籤也匹配上了,即c1a436a314ed609750bd7c7d319db4da39528cedfa926ea0c01e69ef5b2ea9b0,它們根本不能配對。要解決這個問題,就需要使用到回溯引用(backreference)。

二、回溯引用符合

回溯引用是指模式的後半部引用在前半部中定義的子表達式。 至於子表達式的使用、分割和引用,在前面已經介紹過了。現在來解決前面的範例:

文字:

<body>
<h1>Welcome to my page</H1>
Content is pided into twosections:<br>
<h2>Introduction</h2>
Information about me.
<H2>Hobby</H2>
Information about my hobby.
<h2>This is invalid HTML</h3>
</body>

正規表示式:

2b0cba08e60dd5488139acd8c53df8f7.*?2f213dbbacf53066911c7f9c5bc8505c

結果:

6c04bd5ca3fcae76e30b72ad730ca86d
【4a249f0d628e2318394fd9b75b4636b1Welcome to my page921186cad5e55f1481a45fdcd6c30f6e】

Content is pided into twosections:0c6dc11e160d3b678d68754cc175188a
【c1a436a314ed609750bd7c7d319db4daIntroduction2e9b454fa8428549ca2e64dfac4625cd】

#Information about me.

##【1b7994ba0f794e1b49742a6367e9e0c6 Hobbyebe8950f0835d9653ff486769499854f】

Information about my hobby.

c1a436a314ed609750bd7c7d319db4daThis is invalid HTML39528cedfa926ea0c01e69ef5b2ea9b0分析:首先匹配開始標題標籤的模式bc46b54e2bc4b377fa6328e7387f23ec,使用括號把[1-6]做為子表達式,而匹配結束標題標籤模式為24c90dc245630ca7407a2a63769febbf,其中\1表示引用第一個子表達式,即([1-6]),如果([1-6])匹配到的是1,那\1也匹配到1,如果匹配到2,那\1也匹配到2,所以最後一個無效的標題標籤就不會被配對到了。

PS:這裡再提供大家2款非常方便的正規表示式工具供大家參考使用:
JavaScript

正規表示式線上測試工具:

http://tools.jb51.net/regex/javascript
##正規則表達式線上產生工具:

######http://tools.jb51.net/regex/create_reg###

以上是正規表示式之回溯引用backreference詳解_正規表示式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn