版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010588262/article/details/81865203
本来以为正则表达式是个非常轻的东西,不会出什么幺蛾子,昨天看一个公众号的技术文章,因为正则表达式的使用不当,竟然导致CPU飙到100%
主要原因是回溯
什么是回溯
假如现在待匹配的字符串是:1111a
正则表达式为:[\d,a]+a
此时对[\d,a]
是默认的贪婪模式,匹配的大致流程:
第一个字符1
是否满足[\d,a]
,满足
第二个字符1
是否满足[\d,a]
,满足
…..
最后一个字符a
是否满足[\d,a]
,满足
后面没有字符匹配正则表达式最后的a
了,匹配失败,!!回溯!!
回到最后一个字符,匹配正则表达式的a
,匹配成功(此处如果匹配失败,会继续回到倒数第二个字符去匹配,依次类推,所以如果字符串很长,会出现回溯很多)
如果是非贪婪模式(勉强模式):[\d,a]+?a
首先第一个字符匹配[\d,a]
,因为是非贪婪的,所以第二个字符就开始匹配a
,匹配失败,再用第二个字符匹配[\d,a]
,依次类推
独占模式:[\d,a]++a
以前都没听过或者使用过这个模式,挺新鲜的,它其实就是不会回溯的贪婪模式,回头看贪婪模式的步骤,如果是独占模式,在倒数第二步匹配失败的时候,就会直接返回匹配失败,不会再回溯去尝试,所以其实是个很实用很高效的模式