search

Home  >  Q&A  >  body text

javascript - 关于正则表达式(零宽度负向断言(?!p))的一个问题

问题: 有字符串:“python php ruby javascript jsonp perhapsphpisoutdated”
对于该字符串,使用纯正则获取 所有带p 但是不能包含ph 的单词

输出数组 [ 'python', 'javascript', 'jsonp' ]

这个问题想了比较久,也没思路
我的解法是

var result = str.match(/\b\w*(?=p)\w*\b/g)
                .filter((value)=>!/.*(?=ph)/.test(value))

console.log(result)

虽然能解决问题,但是不符合纯正则的要求

群里有大牛给了这么一个答案

/\b((?!ph|\s).)*((p[^h\s]((?!ph|\s).)*)|p)\b/g 

完美运行

但是我看不懂,希望有大牛能帮我解读

补充

还有另一种解法

/\b([^p\s]*p(?!h)[^p\s]*)+\b/g
PHPzPHPz2833 days ago1582

reply all(4)I'll reply

  • 伊谢尔伦

    伊谢尔伦2017-04-11 12:14:23

    \b((?!ph|\s).)*((p[^h\s]((?!ph|\s).)*)|p)\b/g
    \b 是边界字符

    所以每一个单词对应的匹配是:
    ((?!ph|\s).)*((p[^h\s]((?!ph|\s).)*)|p)

    把这个表达式拆成三部分:

    1. ((?!ph|\s).)*

    2. (p[^h\s]((?!ph|\s).)*)

    3. p

    表达式里出现最多的是 ((?!ph|\s).)* 我们来分析一下

    《javascript权威指南》里讲: (?!p)零宽度负向先行断言,表示接下来的字符不与 p 匹配

    这里的 零宽度 是指 它本身不占用匹配
    可能这一点比较难理解,举个例子,比如:

    计算"1234".match(/((?!34).)*/)的值

    1. 第一次(?!34)之前没有东西、忽略,只对.进行匹配,匹配到"1",字符串剩余"234"

    2. "234"进行匹配,测试"23"是否匹配?!里的"34",结果不匹配,继续进行,"23"没有被消耗,接下来的.匹配到"2",

    3. "34"进行匹配,由于"34"匹配?!里的"34",匹配终止

    整个表达式的匹配结果是"12"

    结论:/((?!p).)*/形式的表达式匹配到的字符串是p之前的部分

    这里再来看之前的三个表达式:

    1. ((?!ph|\s).)*

    2. (p[^h\s]((?!ph|\s).)*)

    3. p

    • 第一个表达式表示匹配单词中 "ph" 或 空格之前的尽量长的字符

    • 第二个表达式匹配单词中 "p" 及之后的字符,要求 "p" 之后的第一个字符不能为 "h",并且同样要求不匹配到 "ph"

    • 第三个表达式匹配 单独的 "p" 字符,因为之前的匹配中最短能匹配到的形式是 p[^h\s],至少为两个字符,而单个"p"字符楼主的要求但未被包括在内,所以单独匹配

    梳理一下就会发现,上面的匹配的三个表达式都不匹配 "ph", 但其中一定会有 "p",完全符合题主的要求


    补充

    问题1 匹配到的结果中包含其它值?

    数组的第一项是整个表达式的匹配结果,其他项是括号分组得到的

    问题2 /(.(?!34))*//((?!34).)*/ 的区别?

    /(.(?!34))*//((?!34).)*/少匹配一个数字

    在匹配"1234"字符串时,第一次都匹配到"1",第二次匹配时"(.(?!34))*"里的.消耗了"2"导致"34"的负向断言错误,结果"2"也不会匹配,因为外面的括号要求它里面的所有内容匹配,才会匹配,所以整个表达式最终只匹配到"1"

    reply
    0
  • 天蓬老师

    天蓬老师2017-04-11 12:14:23

    /\b([^p\s]*p(?!h)[^p\s]*)+\b/g

    [ 'python', 'javascript', 'jsonp' ]

    reply
    0
  • 大家讲道理

    大家讲道理2017-04-11 12:14:23

    var str = 'python php ruby javascript jsonp perhapsphpisoutdated';
    var reg = /\b(\w*(p[^h\s](?!ph))\w*)\b/g;
    str.match(reg);
    // => ["python", "javascript", "perhapsphpisoutdated"]
    • \b为边界字符,范围为\w\W之间的字符。

    • ()标识的是子表达式。

    • (?!)标识的是反向先行断言,和子表达式不同是先行断言并不会被记录。

    • [^]标识的是取不满足条件的集合

    所以上面的正则意思为取边界之间的含有『p』但是后面紧跟的字符串不是『h』或『空格』,同时后面也不含有『ph』的字符串

    reply
    0
  • PHP中文网

    PHP中文网2017-04-11 12:14:23

    看到还是有些关注度的,我把我总结的一些关于 零宽断言正则的问题 的一些习题丢上来吧

    // 正则填空
    // 找到所有不含d的单词
    var str = "aebec abcdef csasw";
        reg = /\b((?!d|\s)\w)+\b/g
    
        console.log(str.match(reg));
    
    // 找到所有含有a的单词
    var str = "nodejs 7k7k webkit beta a cvacpso";
        reg = /\b\w*a\w*\b/g;
    
        console.log(str.match(reg))
    
    // 找到所有含有a或b的单词
    var str = "zoo zpark tecent baidu a b ab";
        reg = /\b\w*[a|b]\w*\b/g;
    
        console.log(str.match(reg))
    
    // 找到所有含有a和b的单词
    var str = "cocopark javascript asloboy background a ab b";
        reg = /\b(\w*a\w*b\w*)|(\w*b\w*a\w*)\b/g;
    
        console.log(str.match(reg))
    
    // 找到所有含有a但不含b的单词
    var str = "account github jsonp ruby javascript a ab";
        reg = /\b((?!b|\s)\w)*(a((?!b|\s)\w)*|a)\b/g;
    
        console.log(str.match(reg));
    
    // 找到所有含有a和b 但是不含c的单词
    var str = "avatar blackcoder nba abc absx 7a7b7q background a b";
        reg = /\b((?!c|\s)\w)*(a((?!c|\s)\w)*b((?!c|\s)\w)*|b((?!c|\s)\w)*a((?!c|\s)\w)*)\b/g
    
    
        console.log(str.match(reg));
    
    // 找到所有不含c和d的单词
    var str = "abop cjsd cd ab ioaoapb listablso cd c d";
        reg = /\b((?!c|\s)(?!d|\s)\w)+\b/g;
    
        console.log(str.match(reg));
    
    // 找到所有不含c或d的单词
    var str = "abc aslotang imweb python c d cd";
        reg = /\b((?!c|d|\s)\w)+\b/g;
    
        console.log(str.match(reg))

    全部亲自测试过

    reply
    0
  • Cancelreply