首頁  >  文章  >  web前端  >  js中正規表示式的原理

js中正規表示式的原理

一个新手
一个新手原創
2017-09-07 09:41:201691瀏覽

為了更有效率的使用正規表示式, 首先要理解它的工作原理. 以下是一個正規表示式處理的基本步驟.

基本步驟

第一步: 編譯

當你建立了一個正規表示式物件(使用正規直接量或RegExp建構子), 瀏覽器會驗證你的表達式, 然後把它轉換為一個原生程式碼程式, 用於執行比對工作. 如果你把正則物件賦值給一個變數, 可以避免重複執行這一步驟.

第二步: 設定起始位置

當正則類別進入使用狀態, 首先要確定目標字串的起始搜尋位置. 它是字串的起始字元, 或由正規表示式的lastIndex屬性指定, 但是當它從第四步返回到這裡時(由於嘗試匹配失敗) , 此位置則在最後一次匹配的起始位置的下一個字符的位置上.

瀏覽器廠商優化正則表達式引擎的辦法是, 通過提前決定跳過一些不必要的步驟, 來避免大量無意義的工作. 舉個例子, 如果正則表達式由^開始, IE和Chrome通常會判斷字符串的起始位置能否匹配, 如果匹配失敗, 那麼可以避免愚蠢地搜索後續位置. 另一個例子是匹配第三個字母是x的字串, 一個聰明的做法是先找到x, 然後再將起始位置回退兩個字元

第三個步驟: 匹配每個正規表示式字元

一旦正規表示式知道開始位置, 它會逐一檢查文字和正規表示式模式. 當一個特定的字元匹配失敗時, 正規表示式會試著回溯到先前嘗試匹配的位置上, 然後嘗試其他可能的路徑

第四步: 匹配成功或失敗

如果在字串當前位置發現了一個完全匹配, 那麼正則表達式宣布匹配成功. 如果正則表達式所有的可能路徑都沒有匹配到, 正則表達式引擎會回退到第二步, 然後從下一個字元重新嘗試. 當字串的每一個字元(以及最後一個字串後面的位置)都經歷這個過程, 如果還沒有成功匹配, 那麼正則表達式就會宣布徹底匹配失敗

回溯

#當正則表達式匹配目標字符串時, 它從左到右逐個測試表達式的組成部分, 看是否能找到匹配項. 在遇到量詞和分支時, 需要決策下一步如何處理. 如果遇到量詞(諸如*,+?{2, } ),  正規表示式需決定何時嘗試匹配更多字元; 如果遇到分支(來自|操作符)那麼必須從可選項中選擇一個嘗試匹配.

每當正規表示式做類似的決定時, 如果有必要的話, 都會記錄其他選擇, 以備返回時使用. 如果當前選項匹配成功, 正則表達式繼續掃描表達式, 如果其他部分也匹配成功, 那麼匹配結束. 但是如果當前選項找不到匹配值, 或後面的部分匹配失敗, 那麼正則表達式會回溯到最後一個決策點, 然後在剩下的選項中選擇一個. 這個過程會一直進行, 直到找到匹配項, 或正則表達式中量詞和分支選項的所以排列組合都嘗試失敗, 那麼它將放棄匹配, 轉而移動到字符串中的下一個字符, 再重複此過程.

例子

下面這個例子來自於”高效能JavaScript”中”重複與回溯”一節, 可以很好的理解回溯

var str = "<p>Para 1.</p>" + 
          "<img  src=&#39;1.jpg&#39; alt="js中正規表示式的原理" >" + 
          "<p>para 2.</p>" +
          "<p>p.</p>";

/<p>.*<\/p>/i.test(str);//method 1
/<p>.*?<\/p>/i.test(str);//method 2

見下圖
js中正規表示式的原理


#

以上是js中正規表示式的原理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn