题目:Neuralizing Regular Expressions for Slot Filling(神经正则表达实体抽取)
上海科技大学,屠可伟团队
摘要:
解决Slot Filling任务,通过把符号规则转换神经网络相集成的方法进行研究。整体方案:
预备知识:
正则表达(略)
FST(Fifinite State Transducer,有限状态转换器)
查阅相关资料【6】:
有限自动机(Finite Automata, FA) 是由一组有限的状态和状态转移的集合组成,其每一个转移都至少有一个标签;
最基本的FA是有限状态接收器(Finite State Acceptor,FSA)。对于给定的输入序列,FSA返回“接收”或者“不接收”两种状态;
有限状态转移器(Finite State Transducers, FST) 是FSA的扩展,其每一次状态转移时都有一个输出标签,叫做输入输出标签对。
形式化定义为6元组:
FST的例子:
这是一个FST的例子,q0是唯一的起始状态,q3是唯一的最终状态。w_*是输入单词的通配符,l_*是输出标签的通配符。每个弧表示一个可能的转移,每个弧上方的斜线分隔输入(左)和输出(右)。
对于文本“flflights from New York to Dallas”,在FST中状态序列为 [q0*, q0, q1, q2, q2, q3, q*3] ;输出序列为[l** , l** , B-fr.city, I-fr.city, l** , l** ].
采用BIO模式来标注的。
具体内容:
正则表达式对Slot Filling任务:
把RE转成FST:
为了提高解决效率问题,转为i-FST:
矩阵的优化了,3阶分解成2阶:
再进一步优化:
结果:
总结:
论文的整个过程还是比较清晰的,采用正则表达式的方法切入,把它转成FST,然后把FST优化后转化为RNN的思路。
从结果可以看出来,效果还是不错的。对于zero-shot,low-resource,rich-resource都表现出不错的效果。
对于基础理论,目前还是不求甚解,先使用去解决一些问题再说,上两周写了两周正则,估计是可以用来试一试了(本次的确带有需求来阅读论文了,昨天在BAAI听到屠老师的分享,就很有进一步学习的冲动)。
相关参考:
【1】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/
【2】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/emnlp21.pdf
【3】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/emnlp21-poster.pdf
【4】https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/emnlp21-slides.pdf
【5】https://github.com/jeffchy/RE2NN-SEQ
【6】https://blog.csdn.net/vivian_ll/article/details/95049652