Gavin老师Transformer直播课感悟 - 信息提取CRF(Conditional Random Fields)解密系列之算法详解及实验分析

一、概述

CRF(Conditional Random Fields)作为信息提取框架在处理时能够确保全局最优是一个非常重要的特性。

下面是DIET的架构图，可以看到在Transformer之上使用了CRF。Transformer输出的dense vector会传给CRF内部的一个前馈神经网络，另外，在CRF内部存在一个transition matrix（转移状态矩阵）。在这个架构里CRF的作用是完成信息的提取。

CRF具有信息纠正的功能，结合Transformer和CRF的运用来说，就是用vector来表示每个token的内容，如x1，x2，…xn，这样就会产生信息的偏差，针对输入的sequence中的每个token都会有相应的label的概率，从一个label到下一个label也会有转移的概率，CRF提供的转移矩阵能够很好地捕获在label层面前后的依赖关系。

二、信息提取CRF(Conditional Random Fields)解密系列之算法详解及实验分析

CRF的数据模型定义解析

使用乘法来表达不同的元素构成一个序列（相当于划分了很多步骤），通过使用指数运算来把乘法变为加法，P()是基于输入的内容x来谈y所指向的标签，w是参数，公式分母部分表示了所有的label sequence的内容，包括每个label sequence本身及它内部的所有features的转移部分从yi-1到yi，以及x表示所有的observation，因为CRF把所有的observation都作为上下文，在不同的状态之间转移会涉及到权重的信息。

扫描二维码关注公众号，回复： 13724784 查看本文章

CRF提供了这样一些优势的组合：用于sequence的segmentation和labeling的分类训练模型，可以把过去和未来的信息整合在一起，基于动态编程的有效的训练和解码，保证找到全局优化的参数评估。如果状态依赖是本地的，能够有效使用动态编程来调整所有本地分类器的参数并结合每个label的loss来最小化一个smooth loss function。

2. 简化的CRF分析模型

假设X表示基于数据输入序列的随机变量，而Y表示基于对应label sequence的随机变量，X的范围可以是基于自然语言的语句来确定的，而Y的范围是由这些语句的POS tagging的处理结果来确定的，随机变量X和Y构成了联合的对应关系（一个token对应一个Y的具体内容），但是在一个判别式的框架中，基于结对的observation和label sequences来构建一个条件概率模型p(Y|X)，而不去对边缘概率p(X)进行建模。

在下面的图中，把所有的输入X作为上下文，所有的labels依赖于输入的observation sequence X=X1,…，对于label Y2既可以和Y1联结，又可以和Y3联结，它们之间存在transition（在训练的角度来说，从Y1转移到Y2，Y2转移到Y3，…，转移矩阵本身都是一样的，只不过是不同的Y会导致使用里面不同的内容），这样的transition的概率不仅取决于当前的observation，而且可能的话也会依赖过去和未来的observation：