正则表达式是理论计算机科学和形式语言理论中的一个基本概念，由美国数学家Stephen Cole Kleene提出。

正则表达式定义

正则表达式 (Regular Expression) 是符合正则文法的字符串, 它由三种基本的操作符(连接操作符“·”、选择操作符“|”‘、重复操作符“*”’）进行递归定义而成。正则表达式的形式化定义如下:

正则表达式：定义在符号集合 $\Sigma \cup\{\epsilon, \cdot, \mid, *,(,)\}$ 的字符串, 递归定义如下:

空字符 $\epsilon$ 是正则表达式。任意字符 $\in \Sigma$ 是正则表达式;
如果 $r_{1}$ 和 $r_{2}$ 都是正则表达式, 则 $\left(r_{1}\right) 、\left(r_{1} \cdot r_{2}\right) 、\left(r_{1} \mid r_{2}\right)$ 和 $\left(r_{1} *\right)$ 亦是正则表达式。

正则表达式的语言

正则表达式表示有穷或无穷多个字符串的集合, 具有比精确字符串更强大的描述能力。称正则表达式表示的字符串集合为正则表达式的语言。正则表达式 $r$ 的语言用 $L (r)$ 表示, 定义如下:

正则表达式的语言: 正则表达式 $r$ 所表示的语言 $L (r)$ 是字母表 $\Sigma$ 上的字符串的集合。根据正则表达式 $r$ 的结构, 递归定义如下:

如果 $r=\epsilon$ , 则 $L(r)=\{\epsilon\}$ , 即 $r$ 表示空字符串。
如果 $\in \Sigma)$ , 则 $L(r)=\{a\}$ , 即 $r$ 表示一个长度为 1 的字符串 “ $a$ ”。
如果 $r$ 是 $\left(r_{1}\right)$ 这种形式, 则 $L(r)=L\left(r_{1}\right)$ 。
如果 $r$ 是 $\left(r_{1} \cdot r_{2}\right)$ 这种形式, 则 $L(r)=\left\{w_{1} w_{2} \mid w_{1} \in L\left(r_{1}\right), w_{2} \in L\left(r_{2}\right)\right\}$ 。其中 $w_{1} w_{2}$ 表示由字符串 $w_{1}$ 和 $w_{2}$ 连接而成的字符串。“·”被称为链接操作符。
如果 $r$ 是 $\left(r_{1} \mid r_{2}\right)$ 这种形式, 则 $L(r)=L\left(r_{1}\right) \cup L\left(r_{2}\right)$ 。“|”被称为选择操作符。
如果 $r$ 是 $\left(r_{1} *\right)$ 这种形式, 则 $L(r)=\left\{w_{1} w_{2} \cdots w_{k} \mid k \geq 0, w_{i} \in L\left(r_{1}\right), 1 \leq i \leq k\right\}$ “*” 被称为重复操作符。

正则表达是匹配

单正则表达式匹配：给定正则表达式 $r$ , 对于任意的输入文本 $T=t_{1} t_{2} \cdots t_{n}$ , 找出 $L (r)$ 中的字符串在文本 $T$ 中的出现位置，即: $\operatorname{occur}(r, T)=\{(i, j) \mid t[i, \cdots, j] \in L(r)\}$ 。
多正则表达式匹配：给定正则表达式集合 $R=\left\{r_{1}, r_{2}, \cdots, r_{K}\right\}$ ，对于任意的输入文本 $T=t_{1} t_{2} \cdots t_{n}$ , 找出 $L\left(r_{k}\right)(1 \leq k \leq K)$ 中的字符串在文本 $T$ 中的出现位置, 即: $\operatorname{occur}(R, T)=\left\{(i, j, k) \mid t[i, \cdots, j] \in L\left(r_{k}\right), r_{k} \in R\right\}$ 。

需要特别说明的是, 正则表达式匹配 (Regular Expression Matching), 也称正则表达式搜索 (Regular Expression Searching), 它与正则表达式识别 (Regular Expression Recognizing）有显著的不同。

正则表达式匹配是在输入文本 $T$ 中搜索所有属于 $L (r)$ 的子串 $\cdots, j]$ ,
而正则表达式识别是指: 给定正则表达式 $r$ , 对于任意的输入文本 $T$ , 判断 $\in L(r)$ 或 $\notin L(r)$ 。

正则表达式的描述能力

正则表达式描述能力强，语法灵活，能够表达更加精确和丰富的过滤规则。在语法能力上，正则表达式的描述能力最强，布尔表达式次之，精确字符串的描述能力最弱。这三种规则表示方法的语法能力具有包含的关系：

精确字符串规则类 $\subset$ 布尔表达式规则类 $\subset$ 正则表达式规则类

正则表达式匹配的基本理论

正则表达式的研究已经有几十年的历史，根据自动机和计算理论，正则表达式具有与自动机等价的计算能力，因此正则表达式匹配主要依靠有限状态自动机来完成。
有限状态自动机分为两类：一类是非确定型有限自动机（Nondeterministic Finite Automaton，简称NFA），另外一类是确定型有限自动机（Deterministic Finite Automaton，简称DFA）。
NFA和DFA的区别在于：对于确定的状态和确定的输入，NFA有多个后继状态，而DFA则只有唯一的后继状态。NFA、DFA和正则表达式在计算能力上是等价的。

补充知识：什么是状态自动机？参考：https://zhuanlan.zhihu.com/p/47434856

状态机是有限状态自动机的简称，是现实事物运行规则抽象而成的一个数学模型。先来解释什么是“状态”（ State ）。

现实事物是有不同状态的，例如一个自动门，就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机，也就是被描述的事物的状态的数量是有限个，例如自动门的状态就是两个 open 和 closed 。

状态机，也就是 State Machine ，不是指一台实际机器，而是指一个数学模型。说白了，一般就是指一张状态转换图。例如，根据自动门的运行规则，我们可以抽象出下面这么一个图。

自动门有两个状态，open 和 closed ，closed 状态下，如果读取开门信号，那么状态就会切换为 open 。open 状态下如果读取关门信号，状态就会切换为 closed 。

状态机的全称是有限状态自动机，自动两个字也是包含重要含义的。给定一个状态机，同时给定它的当前状态以及输入，那么输出状态时可以明确的运算出来的。例如对于自动门，给定初始状态 closed ，给定输入“开门”，那么下一个状态时可以运算出来的。