匹配模式
JDK提供三種匹配模式,分別是:貪婪模式(greedy),勉強模式(reluctant)和占有模式(possessive),分別對應三種佔有量詞,其中貪婪模式是默認的模式,勉強模式在表達式後面加一個?來表示。佔有模式透過在表達式後面加一個+來表示。
三種模式的意思是什麼呢?
貪婪模式的意思是:盡可能多的匹配,同時也盡量滿足整體匹配。
勉強模式的意思是:盡可能少的匹配,同時也盡量滿足整體匹配。
佔有模式的意思是:盡可能多的匹配,如果因為匹配多了導致整理無法匹配,那麼也不會回溯。
例如有個字串如下:
/m/t/wd/nl/n/p/m/wd/nl/n/p/m/wd/nl/n/p/m/v/n
貪婪模式的表達式匹配:
/m/t.*/nl/n/p/m
此时匹配结果为 /m/t/wd/nl/n/p/m/wd/nl/n/p/m/wd/nl/n/p/m
勉強模式的表達式匹配:
//m/ t/.*?/nl/n/p/m
此时匹配结果为 /m/t/wd/nl/n/p/m
/m/t/wdx+?/nl/n/p/m
如果是這樣,那麼就匹配不上了,因為+表示至少要匹配一個,勉強模式,至少也要配對一個,所以配對失敗了。
佔有模式的表達式匹配:
/m/t.*+/nl/n/p/m 此時無法匹配,因為.*匹配了過多的字符,導致後面無法匹配是上了。
注意:只能對可變的配對規則使用勉強量詞或占有量詞。例如X??表示盡量少匹配字元X,而X?卻是預設的貪婪模式,此時是盡量多匹配的意思。再如:X{n}的意思是必須準備匹配n個X ,則此時加上其他量詞均不起作用
環視(預測)
環視是一個比較高級的主題,但是用起來卻是那麼自然。
環視適用於這樣的場景:做正則匹配時,需要了解被匹配部分的前面或後面,有或沒有,特定的表達式,而又不因此捕獲(消耗)這些特定的表達式。
如果不使用環視,而是直接使用表達式來判斷,那麼必然會導致這些被匹配的表達式被消耗掉。
舉個例子:假設我要給ILoveYou這句話斷句,原則是出現大寫字母則認為是一個新的單字。
如果使用這個匹配規則:
\p{Upper}\p{Lower}*[\p{Upper}]?
的話,那麼會消耗掉被匹配的大寫字母。配對結果會是:
IL
You
這並不符合要求。
解決方法是使用環視,正規表示式為:
\p{Upper}?\p{Lower}*(?=[\p{Upper}]?)
輸出結果為:
I
Love
You
=環視有四種:(?)式X,匹配前面的部分時,不會消耗X這一部分,同時也不會捕獲。零寬度正向肯定預測。
(?
(?!X) 表示後面跟著的不是正規表示式X,當匹配前面的部分時,不會消耗X這一部分,同時也不會捕獲。零寬度正向否定預測。
(?!=X) 表示前面的不是正規表示式X,當匹配後面的部分時,不會消耗X這一部分,同時也不會被捕獲。 零寬度反向否定預測。
非捕獲佔有型匹配
(?>X) 這個尚未研究清楚。