為了更有效率的使用正規表示式, 首先要理解它的工作原理. 以下是一個正規表示式處理的基本步驟.
當你建立了一個正規表示式物件(使用正規直接量或RegExp建構子), 瀏覽器會驗證你的表達式, 然後把它轉換為一個原生程式碼程式, 用於執行比對工作. 如果你把正則物件賦值給一個變數, 可以避免重複執行這一步驟.
當正則類別進入使用狀態, 首先要確定目標字串的起始搜尋位置. 它是字串的起始字元, 或由正規表示式的lastIndex屬性指定, 但是當它從第四步返回到這裡時(由於嘗試匹配失敗) , 此位置則在最後一次匹配的起始位置的下一個字符的位置上.
瀏覽器廠商優化正則表達式引擎的辦法是, 通過提前決定跳過一些不必要的步驟, 來避免大量無意義的工作. 舉個例子, 如果正則表達式由^開始, IE和Chrome通常會判斷字符串的起始位置能否匹配, 如果匹配失敗, 那麼可以避免愚蠢地搜索後續位置. 另一個例子是匹配第三個字母是x的字串, 一個聰明的做法是先找到x, 然後再將起始位置回退兩個字元
一旦正規表示式知道開始位置, 它會逐一檢查文字和正規表示式模式. 當一個特定的字元匹配失敗時, 正規表示式會試著回溯到先前嘗試匹配的位置上, 然後嘗試其他可能的路徑
如果在字串當前位置發現了一個完全匹配, 那麼正則表達式宣布匹配成功. 如果正則表達式所有的可能路徑都沒有匹配到, 正則表達式引擎會回退到第二步, 然後從下一個字元重新嘗試. 當字串的每一個字元(以及最後一個字串後面的位置)都經歷這個過程, 如果還沒有成功匹配, 那麼正則表達式就會宣布徹底匹配失敗
#當正則表達式匹配目標字符串時, 它從左到右逐個測試表達式的組成部分, 看是否能找到匹配項. 在遇到量詞和分支時, 需要決策下一步如何處理. 如果遇到量詞(諸如*,+?
或{2, }
), 正規表示式需決定何時嘗試匹配更多字元; 如果遇到分支(來自|
操作符)那麼必須從可選項中選擇一個嘗試匹配.
每當正規表示式做類似的決定時, 如果有必要的話, 都會記錄其他選擇, 以備返回時使用. 如果當前選項匹配成功, 正則表達式繼續掃描表達式, 如果其他部分也匹配成功, 那麼匹配結束. 但是如果當前選項找不到匹配值, 或後面的部分匹配失敗, 那麼正則表達式會回溯到最後一個決策點, 然後在剩下的選項中選擇一個. 這個過程會一直進行, 直到找到匹配項, 或正則表達式中量詞和分支選項的所以排列組合都嘗試失敗, 那麼它將放棄匹配, 轉而移動到字符串中的下一個字符, 再重複此過程.
下面這個例子來自於”高效能JavaScript”中”重複與回溯”一節, 可以很好的理解回溯
var str = "<p>Para 1.</p>" + "<img src='1.jpg' alt="js中正規表示式的原理" >" + "<p>para 2.</p>" + "<p>p.</p>"; /<p>.*<\/p>/i.test(str);//method 1 /<p>.*?<\/p>/i.test(str);//method 2
見下圖
以上是js中正規表示式的原理的詳細內容。更多資訊請關注PHP中文網其他相關文章!