C# 词法分析器（四）构造 NFA

系列导航

有了上一节中得到的正则表达式，那么就可以用来构造 NFA 了。NFA 可以很容易的从正则表达式转换而来，也有助于理解正则表达式表示的模式。

一、NFA 的表示方法

在这里，一个 NFA 至少具有两个状态：首状态和尾状态，如图 1 所示，正则表达式 $t$

图 1 NFA 的表示

我使用下面的 Nfa 类来表示一个 NFA，只包含首状态、尾状态和一个添加新状态的方法。

 
          namespace  
          Cyjb.Compilers.Lexers { 
         
          class  
          Nfa : IList<NfaState> { 
         
          // 获取或设置 NFA 的首状态。 
         
          NfaState HeadState {  
          get 
          ;  
          set 
          ; } 
         
          // 获取或设置 NFA 的尾状态。 
         
          NfaState TailState {  
          get 
          ;  
          set 
          ; } 
         
          // 在当前 NFA 中创建一个新状态。 
         
          NfaState NewState() {} 
         
          } 
         
          }

NFA 的状态中，必要的属性只有三个：符号索引、状态转移和状态类型。只有接受状态的符号索引才有意义，它表示当前的接受状态对应的是哪个正则表达式，对于其它状态，都会被设为 -1。

状态转移表示如何从当前状态转移到下一状态，虽然 NFA 的定义中，每个节点都可能包含多个 $ϵ$

状态类型则是为了支持向前看符号而定义的，它可能是 Normal、TrailingHead 和 Trailing 三个枚举值之一，这个属性将在处理向前看符号的部分详细说明。

下面是 NfaState 类的定义：

 
          namespace  
          Cyjb.Compilers.Lexers { 
         
          class  
          NfaState { 
         
          // 获取包含当前状态的 NFA。 
         
          Nfa Nfa; 
         
          // 获取当前状态的索引。 
         
          int  
          Index; 
         
          // 获取或设置当前状态的符号索引。 
         
          int  
          SymbolIndex; 
         
          // 获取或设置当前状态的类型。 
         
          NfaStateType StateType; 
         
          // 获取字符类的转移对应的字符类列表。 
         
          ISet< 
          int 
          > CharClassTransition; 
         
          // 获取字符类转移的目标状态。 
         
          NfaState CharClassTarget; 
         
          // 获取 ϵ 转移的集合。 
         
          IList<NfaState> EpsilonTransitions; 
         
          // 添加一个到特定状态的转移。 
         
          void  
          Add(NfaState state,  
          char  
          ch); 
         
          // 添加一个到特定状态的转移。 
         
          void  
          Add(NfaState state,  
          string  
          charClass); 
         
          // 添加一个到特定状态的ε转移。 
         
          void  
          Add(NfaState state); 
         
          } 
         
          }

我在 NfaState 类中额外定义的两个属性 Nfa 和 Index 单纯是为了方便状态的使用。 $ϵ$

NfaState 类中还定义了三个 Add 方法，分别是用来添加单个字符的转移、字符类的转移和 $ϵ$

二、从正则表达式构造 NFA

这里使用的递归算法是 McMaughton-Yamada-Thompson 算法（或者叫做 Thompson 构造法），它比 Glushkov 构造法更加简单易懂。

2.1 基本规则

对于正则表达式 $ϵ$
对于包含单个字符 $a$

图 2 基本规则

上面的第一个基本规则在这里其实是用不到的，因为在正则表达式的定义中，并没有定义 $ϵ$

 
          void  
          BuildNfa(Nfa nfa) { 
         
          nfa.HeadState = nfa.NewState(); 
         
          nfa.TailState = nfa.NewState(); 
         
          // 添加一个字符类转移。 
         
          nfa.HeadState.Add(nfa.TailState, charClass); 
         
          }

2.2 归纳规则

有了上面的两个基本规则，下面介绍的归纳规则就可以构造出更复杂的 NFA。

假设正则表达式 $s$

1. 对于 $r = s | t$

图 3 归纳规则 AlternationExp

这里必须要注意的是， $N (s)$

AlternationExp 类中的代码如下：

 
          void  
          BuildNfa(Nfa nfa) { 
         
          NfaState head = nfa.NewState(); 
         
          NfaState tail = nfa.NewState(); 
         
          left.BuildNfa(nfa); 
         
          head.Add(nfa.HeadState); 
         
          nfa.TailState.Add(tail); 
         
          right.BuildNfa(nfa); 
         
          head.Add(nfa.HeadState); 
         
          nfa.TailState.Add(tail); 
         
          nfa.HeadState = head; 
         
          nfa.TailState = tail; 
         
          }

2. 对于 $r = s t$

图 4 归纳规则 ConcatenationExp

ConcatenationExp 类中的代码如下：

 
          void  
          BuildNfa(Nfa nfa) { 
         
          left.BuildNfa(nfa); 
         
          NfaState head = nfa.HeadState; 
         
          NfaState tail = nfa.TailState; 
         
          right.BuildNfa(nfa); 
         
          tail.Add(nfa.HeadState); 
         
          nfa.HeadState = head; 
         
          }

LiteralExp 也可以看成是多个 CharClassExp 连接而成，所以可以多次应用这个规则来构造相应的 NFA。

3. 对于 $r = s *$

图 5 归纳规则 s*

4. 对于 $r = s {m, n}$

图 6 归纳规则 RepeatExp

不过如果 $n = \infty$

图 7 归纳规则 RepeatExp $n = \infty$

综合上面的两个规则，得到了 RepeatExp 类的构造方法：

 
          void  
          BuildNfa(Nfa nfa) { 
         
          NfaState head = nfa.NewState(); 
         
          NfaState tail = nfa.NewState(); 
         
          NfaState lastHead = head; 
         
          // 如果没有上限，则需要特殊处理。 
         
          int  
          times = maxTimes ==  
          int 
          .MaxValue ? minTimes : maxTimes; 
         
          if  
          (times == 0) { 
         
          // 至少要构造一次。 
         
          times = 1; 
         
          } 
         
          for  
          ( 
          int  
          i = 0; i < times; i++) { 
         
          innerExp.BuildNfa(nfa); 
         
          lastHead.Add(nfa.HeadState); 
         
          if  
          (i >= minTimes) { 
         
          // 添加到最终的尾状态的转移。 
         
          lastHead.Add(tail); 
         
          } 
         
          lastHead = nfa.TailState; 
         
          } 
         
          // 为最后一个节点添加转移。 
         
          lastHead.Add(tail); 
         
          // 无上限的情况。 
         
          if  
          (maxTimes ==  
          int 
          .MaxValue) { 
         
          // 在尾部添加一个无限循环。 
         
          nfa.TailState.Add(nfa.HeadState); 
         
          } 
         
          nfa.HeadState = head; 
         
          nfa.TailState = tail; 
         
          }

5. 对于 $r = s / t$

2.3 正则表达式构造 NFA 的示例

这里给出一个例子，来直观的看到一个正则表达式 (a|b)*baa 是如何构造出对应的 NFA 的，下面详细的列出了每一个步骤。

图 8 正则表达式 (a|b)*baa 构造 NFA 示例

最后得到的 NFA 就如上图所示，总共需要 14 个状态，在 NFA 中可以很明显的区分出正则表达式的每个部分。这里构造的 NFA 并不是最简的，因此与上一节《C# 词法分析器（三）正则表达式》中的 NFA 不同。不过 NFA 只是为了构造 DFA 的必要存在，不用费工夫化简它。

三、划分字符类

现在虽然得到了 NFA，但这个 NFA 还是有些细节问题需要处理。例如，对于正则表达式 [a-z]z，构造得到的 NFA 应该是什么样的？因为一条转移只能对应一个字符，所以一个可能的情形如图 9 所示。

图 9 [a-z]z 构造的 NFA

前两个状态间总共需要 26 个转移，后两个状态间需要 1 个转移。如果正则表达式的字符范围再广些呢，比如 Unicode 范围？添加 6 万多条转移，显然无论是时间还是空间都是不能承受的。所以，就需要利用字符类来减少需要的转移个数。

字符类指的是字符的等价类，意思是一个字符类对应的所有字符，它们的状态转移完全是相同的。或者说，对自动机来说，完全没有必要区分一个字符类中的字符——因为它们总是指向相同的状态。

就像上面的正则表达式 [a-z]z 来说，字符 a-y 完全没有必要区分，因为它们总是指向相同的状态。而字符 z 需要单独拿出来作为一个字符类，因为在状态 1 和 2 之间的转移使得字符 z 和其它字符区分开来了。因此，现在就得到了两个字符类，第一个字符类对应字符 a-y，第二个字符类对应字符 z，现在得到的 NFA 如图 10 所示。

图 10 [a-z]z 使用字符类构造的 NFA

使用字符类之后，需要的转移个数一下就降到了 3 个，所以在处理比较大的字母表时，字符类是必须的，它即能加快处理速度，又能降低内存消耗。

而字符类的划分，就是将 Unicode 字符划分到不同的字符类中的过程。我目前采用的算法是一个在线算法，即每当添加一个新的转移时，就会检查当前的字符类，判断是否需要对现有字符类进行划分，同时得到转移对应的字符类。字符类的表示是使用一个 ISet<int>，因为一个转移可能对应于多个字符类。

初始：字符类只有一个，表示整个 Unicode 范围
输入：新添加的转移  $t$

这里需要注意的是，每当一个现有的字符类 $C C$

我在 CharClass 类中实现了该算法，其中充分利用了 CharSet 类集合操作效率高的特点。

四、多条正则表达式、限定符和上下文

通过上面的算法，已经可以实现将单个正则表达式转换为相应的 NFA 了，如果有多条正则表达式，也非常简单，只要如图 11 那样添加一个新的首节点，和多条到每个正则表达式的首状态的 $ϵ$

图 11 多条正则表达式的 NFA

对于行尾限定符，可以直接看成预定义的向前看符号，r$ 可以看成 r/\n 或 r/\r?\n（这样可以支持 Windows 换行和 Unix 换行），事实上也是这么做的。

对于行首限定符，仅当在行首时才会匹配这条正则表达式，可以考虑把这样的正则表达式单独拿出来——当从行首开始匹配时，就使用行首限定的正则表达式进行匹配；从其它位置开始匹配时，就使用其它的正则表达式进行匹配。

当然，即使是从行首开始匹配，非行首限定的正则表达式也是可以匹配的，所以就将所有正则表达式分为两个集合，一个包含所有的正则表达式，用于从行首匹配是使用；另一个只包含非行首限定的正则表达式，用于从其它位置开始匹配时使用。然后，再为这两个集合分别构造出相应的 NFA。

对于我的词法分析器，还会支持上下文。可以为每个正则表达式指定一个或多个上下文，这个正则表达式就会只在给定的上下文环境中生效。利用上下文机制，就可以更精细的控制字符串的匹配情况，还可能构造出更强大的词法分析器，例如可以在匹配字符串的同时处理字符串内的转义字符。

上下文的实现与上面行首限定符的思想相同，就是为将每个上下文对应的正则表达式分为一组，并分别构造 NFA。如果某个正则表达式属于多个上下文，就会将它复制并分到多个组中。

假设现在定义了 $N$

虽然需要构造 $2 N$

现在，正则表达式对应的 NFA 就构造好了，下一篇文章中，我就会介绍如何将 NFA 转换为等价的 DFA。

相关代码都可以在这里找到，一些基础类（如输入缓冲）则在这里。

作者：CYJB
出处：http://www.cnblogs.com/cyjb/
GitHub：https://github.com/CYJB/