个人理解正则表达式懒惰匹配，正则表达式匹配-php手册-php.cn

ホームページ

php教程

php手册

个人理解正则表达式懒惰匹配，正则表达式匹配

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2016 am 09:19 AM

正規表現

个人理解正则表达式——懒惰匹配，正则表达式匹配

问题描述

本文链接：http://www.hcoding.com/?p=130

初学正则表达式的时候都有一个疑问，例如：需要匹配串 "_abc_123_" 中第一对"_"之间的字符，刚开始学习正则表达式的时候会写成 "/_\w*_/"，匹配的结果就是"abc_123" 而不是"abc"了；大神说加上一个问号，"/_\w*?_/"，这时候匹配的结果就是"abc"。

我们知道'？'单独使用的时候表示：重复零次或一次，而当'？'出现在重复限定符后面的，起的作用就是懒惰匹配，也就是匹配尽可能少的字符。懒惰限定符说明：

*?：重复任意次，但尽可能少重复
+?：重复1次或更多次，但尽可能少重复
??：重复0次或1次，但尽可能少重复
{n,m}?：重复n到m次，但尽可能少重复
{n,}?：重复n次以上，但尽可能少重复

对的，“尽可能少重复”，这就是对懒惰匹配的粗暴直白的解说。

那么怎么理解“尽可能少重复”呢？我们可以从正则表达式的忽略优先量词来解释了。

忽略优先量词

量词"*?"、"+?"、"??"、"{n,m}?"、"{n,}?"都属于忽略优先量词，忽略优先量词使用的是在?、+、*、{}后面添加?组成的，忽略优先在匹配的时候首先会尝试忽略，如果失败后回溯才会选择尝试。比如`ab??`匹配“abb”会得到‘a’而不是“ab”。当引擎匹配成功a后，由于是忽略优先，引擎首先选择不匹配b，继续查看表达式，发现表达式结束了，那么引擎就直接上报匹配成功。具体我们通过下面的例子一步一步说明忽略优先量词工作原理。

例子

还是上面的例子，用"/_\w*?_/"匹配"_abc_123_" 中第一对"_"之间的字符。

开始匹配第一个'_'之后，‘\w*?’首先决定不需要匹配任何字符，因为它是忽略优先量词，这时候就拿表达式'/_\w*?_/'中的第二个'_'（'\w*?'后面的'_'）和目标串'_abc_123_'中的'a'匹配，匹配失败，这时候才会拿'\w*?'去尝试未匹配的分支（使用\w匹配a，尝试匹配a成功）

下一步，是尝试匹配，还是忽略呢？因为'\w*?'是忽略优先量词，会选择忽略，那么就是重复上一步，'_'匹配b失败，'\w*?'去尝试未匹配的分支ab，以上步骤总共重复了3次后（直到表达式'\w*?'后面的'_'和目标串第二个'_'匹配），最终匹配出'abc'。

过程（开始匹配第一个'_'之后）：

表达式/_\w*?_/'中的第二个'_'和目标串'_abc_123_'中的'a'匹配，匹配失败，'\w*?'尝试匹配目标串'_abc_123_'中的'a'，匹配成功。
表达式/_\w*?_/'中的第二个'_'和目标串'_abc_123_'中的'b'匹配，匹配失败，'\w*?'尝试匹配目标串'_abc_123_'中的'ab'，匹配成功。
表达式/_\w*?_/'中的第二个'_'和目标串'_abc_123_'中的'c'匹配，匹配失败，'\w*?'尝试匹配目标串'_abc_123_'中的'abc'，匹配成功。
表达式/_\w*?_/'中的第二个'_'和目标串'_abc_123_'中的'_'匹配，匹配成功，匹配结束。结果为abc。

以上是阅读《精通正则表达式》关于忽略优先量词一节的想法，如有不对虚心接受各位的指教，谢谢！

本文链接：http://www.hcoding.com/?p=130

原创文章，转载请注明：JC&hcoding.com

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

php怎么去除字符串中的所有大写字母Sep 26, 2022 pm 07:59 PM

两种去除方法：1、利用preg_replace()执行正则表达式搜索所有大写字母并将其替换为空字符即可，语法“preg_replace('/[A-Z]/','',$str)”。2、利用preg_filter()执行正则表达式搜索所有大写字母并将其替换为空字符即可，语法“preg_filter('/[A-Z]/','',$str)”。

php怎么替换nbsp空格符Apr 24, 2022 pm 02:55 PM

方法：1、用“str_replace(" ","其他字符",$str)”语句，可将nbsp符替换为其他字符；2、用“preg_replace("/(\s|\&nbsp\;||\xc2\xa0)/","其他字符",$str)”语句。

使用Go语言编写高性能的正则表达式匹配Jun 15, 2023 pm 10:56 PM

随着数据量的不断增大，正则表达式匹配成为了程序中常用的操作之一。而在Go语言中，由于其天然的并行ism，以及与底层系统的交互性和高效性，使得Go语言的正则表达式匹配极具优势。那么如何使用Go语言编写高性能的正则表达式匹配呢？一、了解正则表达式在使用正则表达式前，我们首先需要了解正则表达式，了解其基本语法规则以及常用的匹配字符，使我们能够在编写正则表达式时更加

php怎么利用正则排除字符串中的字符Dec 15, 2022 pm 03:30 PM

两种方法：1、用preg_replace()，可执行正则表达式的搜索和替换，只需将字符串中匹配的字符替换为空字符即可，语法“preg_replace(正则, "", $str)”。2、用preg_match_all()，可搜索字符串中所有和正则表达式匹配的结果，会将每次的匹配结果放在一个数组$array中，语法“preg_match_all(正则,$str,$array);”。

php怎么只获取中文字符Apr 28, 2022 pm 08:15 PM

php中可用preg_match_all()配合正则表达式过滤字符串，只获取中文字符；语法“preg_match_all("/[\x{4e00}-\x{9fff}]+/u","$str",$arr);”，会将匹配字符存入“$arr”数组中。

javascript怎么正则替换非汉字的字符Oct 13, 2022 pm 05:37 PM

在javascript中，可以使用replace()函数配合正则表达式“/[u4e00-u9fa5|,]+/ig”来查找字符串中的所有非汉字字符，并将其替换为其他指定值，语法“字符串对象.replace(/[u4e00-u9fa5|,]+/ig,'指定替换值')”。

Java语言正则表达式的使用方法Jun 10, 2023 am 08:13 AM

Java语言正则表达式的使用方法正则表达式是一种强大的文本处理工具，可以用来匹配和验证文本。在Java语言中，也可以使用正则表达式来实现字符串的匹配和处理。本文将介绍Java语言正则表达式的使用方法，涵盖正则表达式的基础知识，常用的正则表达式语法，以及在Java程序中使用正则表达式的方法。一、基础知识正则表达式是什么？正则表达式是一种文本模式，用来描述一组字

PHP开发：如何编写高效的正则表达式Jun 15, 2023 pm 09:04 PM

在PHP开发中，正则表达式是非常重要的工具，用于匹配、查找和替换文本中的特定字符串。然而，编写高效的正则表达式并不是一件易事，需要开发者具备一定的技巧和经验。下面是一些可以帮助您编写高效正则表达式的技巧：1.尽可能使用非贪婪匹配默认情况下，正则表达式是贪婪的，即它们将尽可能匹配更多的文本。在某些情况下，可能需要使用非贪婪匹配来避免这种情况。非贪婪匹配使用"

See all articles