使用正则表达式匹配多行块
使用 Python 的正则表达式匹配跨多行的文本时可能会遇到困难。考虑以下示例文本:
some Varying TEXT DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF [more of the above, ending with a newline] [yep, there is a variable number of lines here] (repeat the above a few hundred times).
目标是捕获两个组件:
已尝试多种方法但未成功:
<code class="python">re.compile(r"^>(\w+)$$(\n[.$]+)^$", re.MULTILINE) # Capture both parts re.compile(r"([^>][\w\s]+)$", re.MULTILINE|re.DOTALL) # Just textlines</code>
要解决此问题,请使用以下正则表达式:
<code class="python">re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)</code>
请记住,锚点“^”和“$”不匹配换行符。因此,在多行模式下,“^”在换行符之后,“$”在换行符之前。
此外,请注意各种换行符格式。对于可能包含换行符、回车符或两者的文本,请使用以下更具包容性的正则表达式:
<code class="python">re.compile(r"^(.+)(?:\n|\r\n?)((?:(?:\n|\r\n?).+)+)", re.MULTILINE)</code>
此处不需要 DOTALL 修饰符,因为点已经排除了换行符。
以上是如何在Python中使用正则表达式匹配多行块?的详细内容。更多信息请关注PHP中文网其他相关文章!