距离上一次更新抽象语法树的内容已经过去10天了,在写代码的过程中,总是有很多坑特别想记录,但到现在已经忘得差不多了,只能记录个大概,感觉有点遗憾。下次我应该换个更好的方式。
参考
主要是青木峰郎的《自制编译器》
还有很多网上的资料。
预备知识
- 怎样用IntelliJ里的Git: https://my.oschina.net/u/2608182/blog/745178。
- Java异常处理。
步骤
- 建立作用域树
- 写一个AST的visitor检查编译错误
错误类型
- 缺少main
- 重定义
- 类里面构造函数和类名不符
- 函数返回值和定义不符
- 函数、类没有定义或者调用格式不匹配,变量使用前没有定义
- 各种表达式类型问题、赋值和自增自减语句的左值判断
- break、continue没有在循环里面
- 条件语句、循环语句中判断表达式返回值不是bool
作用域树
一个符号起作用的一段程序区域叫做这个符号的作用域。整个程序最开始是一个作用域,而语句块、类、函数体、循环语句、条件语句都会新建子作用域。作用域之间的嵌套形成一棵树。这一步骤我们要把作用域树建出来,然后把变量定义函数定义和类定义分别放到她的作用域里面去,为下一步变量的消解做准备。
全局作用域和类作用域都属于可以包含函数定义和类定义的作用域(不过在Mx语言中,类里面并不能套类),而其他的作用域只能包含变量定义。
public class Scope { List<Scope> sonScopes; Scope parent; } class GeneralScope extends Scope { Map<String, TypeRef> entities; } class ClassScope extends GeneralScope { } class LocalScope extends Scope { Map<String, VarTypeRef> variables; }
这是我的作用域类,为了方便我建议不要把entities和variables分开放到GeneralScope和LocalScope里,最好就放在Scope里面(我当时不知道怎么想的就分开了,无端增加了很多麻烦,但也懒得改了)。TypeRef类是表示类型的类。
public abstract class TypeRef { } abstract class VarTypeRef extends TypeRef { } abstract class SingleTypeRef extends VarTypeRef { String typeId; } class IntTypeRef extends SingleTypeRef { } class BoolTypeRef extends SingleTypeRef { } class StringTypeRef extends ClassTypeRef { } class VoidTypeRef extends SingleTypeRef { } // null isn't void type; class NullTypeRef extends SingleTypeRef { } class ClassTypeRef extends SingleTypeRef { } class ArrayTypeRef extends VarTypeRef { SingleTypeRef type; int dimension; FuncTypeRef getSize; } class FuncTypeRef extends TypeRef { VarTypeRef retType; List<VarTypeRef> params; } class ClassDefTypeRef extends TypeRef { Map<String, TypeRef> objs; }
有一些需要注意的地方:
- FuncTypeRef表示函数定义,ClassDefTypeRef表示类定义。而ClassTypeRef只是表示类的名字,定义类的变量的时候可能还不知道类的定义是什么,应该先记下来,到后面类型消解的时候再从全局Scope找出对应的类定义并比较是不是匹配。
- ArrayTypeRef中有一个getSize的函数类型,为了表示数组的内建方法size()。
- StringTypeRef继承ClassTypeRef是因为它有很多内建方法,这样写会带来一些方便。但也有不方便的,比如说其他Class类型的变量可以赋值为null,但string不行,我是在这里加的特判。
- VoidTypeRef表示函数返回的void类型,NullTypeRef表示null的类型。一开始我把它俩都当成VoidTypeRef类型,后来发现这样会造成混乱,比如说:
Class A {} void func() {} int main() { A a = null; A b = func(); }
这完全是两种不同的东西。
把各种定义塞到作用域树里面的时候,也有一些需要注意的:
- 在AST的每个结点都应该记录它属于的作用域。
- 除了类里面的成员变量,其他变量在建树的时候只在结点上记录作用域,不放进作用域。因为其他情况下变量定义不支持向前引用。所以把ClassScope和GeneralScope分开也是为了方便处理这种情况。
- 函数的形参作用域最好设置成函数体的作用域,就当进入函数体就定一了一些局部变量。
- 不管是现在还是以后当把定义塞进作用域树的时候记得判重。
AST的visitor
建完作用域树就要遍历AST检查错误了。这里花了我很多时间,连写带调的,但是现在回去看原来的代码,也没啥可写的,就是把各种错误都检查到了就好。怎么写visitor,仿照antlr 4生成的parse tree的visitor就行,当然也会有一些需要注意的地方:
- 这个时候,除了class里面的成员变量,其他变量定义要加入作用域了。
- 函数里变量定义虽然不需要加入作用域了,但要记得检查类型是否存在。
- 检查表达式的时候别忘了更新上层结点类型。
- 成员访问的时候,成员的定义不在当前以及上层的作用域,而在class定义的作用域里面,需要特殊处理一下。