首頁  >  文章  >  後端開發  >  Python 多行匹配模式了解

Python 多行匹配模式了解

Guanhui
Guanhui轉載
2020-07-24 17:22:332982瀏覽

Python 多行匹配模式了解

問題

你正在試著使用正則表達式去匹配一大塊的文本,而你需要跨越多行去匹配。

解決方案

這個問題很典型的出現在當你用點(.)去匹配任意字元的時候,忘了點(.)不能匹配換行符的事實。例如,假設你想試著去符合C語言分割的註解:

>>> comment = re.compile(r&#39;/\*(.*?)\*/&#39;)<br/>>>> text1 = &#39;/* this is a comment */&#39;<br/>>>> text2 = &#39;&#39;&#39;/* this is a<br/>... multiline comment */<br/>... &#39;&#39;&#39;<br/>>>><br/>>>> comment.findall(text1)<br/>[&#39; this is a comment &#39;]<br/>>>> comment.findall(text2)<br/>[]<br/>>>><br/>

為了修正這個問題,你可以修改模式字串,增加對換行的支援。例如:

>>> comment = re.compile(r&#39;/\*((?:.|\n)*?)\*/&#39;)<br/>>>> comment.findall(text2)<br/>[&#39; this is a\n multiline comment &#39;]<br/>>>><br/>

在這個模式中,(?:.|\n) 指定了一個非捕獲組(也就是它定義了一個僅僅用來做匹配,而不能通過單獨捕獲或者編號的組)。

討論

re.compile() 函數接受一個標誌參數叫 re.DOTALL ,在這裡非常有用。它可以讓正規表示式中的.匹配包括換行符在內的任意字元。例如:

>>> comment = re.compile(r&#39;/\*(.*?)\*/&#39;, re.DOTALL)<br/>>>> comment.findall(text2)<br/>[&#39; this is a\n multiline comment &#39;]<br/>

對於簡單的情況使用 re.DOTALL 標記參數工作的很好,但是如果模式非常複雜或者是為了構造字串令牌而將多個模式合併起來(2.18節有詳細描述),這時候使用這個標記參數就可能會出現一些問題。如果讓你選擇的話,最好還是定義自己的正規表示式模式,這樣它可以在不需要額外的標記參數下也能運作的很好。

推薦教學:《Python教學

以上是Python 多行匹配模式了解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jb51.net。如有侵權,請聯絡admin@php.cn刪除