CRF++代码分析

本文按照调用顺序抽丝剥茧地分析了CRF++的代码，详细注释了主要函数，并指出了代码与理论公式的对应关系。内容包括拟牛顿法的目标函数、梯度、L2正则化、L-BFGS优化、概率图构建、前向后向算法、维特比算法等。

背景知识请参考《条件随机场》。

训练

先从训练开始说起吧

/**
* 命令行式训练
* @param argc 命令个数
* @param argv 命令数组
* @return 0表示正常执行,其他表示错误
*/
int crfpp_learn(int argc, char **argv)

该函数解析命令行之后调用：

/**
* 训练CRF模型
* @param param 参数
* @return
*/
int crfpp_learn(const Param &param)

该函数会调用：

/**
* 训练
* @param templfile 模板文件
* @param trainfile 训练文件
* @param modelfile 模型文件
* @param textmodelfile 是否输出文本形式的模型文件
* @param maxitr 最大迭代次数
* @param freq 特征最低频次
* @param eta 收敛阈值
* @param C cost-factor
* @param thread_num 线程数
* @param shrinking_size
* @param algorithm 训练算法
* @return
*/
bool learn(const char *templfile,
const char *trainfile,
const char *modelfile,
bool textmodelfile,
size_t maxitr,
size_t freq,
double eta,
double C,
unsigned short thread_num,
unsigned short shrinking_size,
int algorithm);

该函数先读取特征模板和训练文件

/**
* 打开配置文件和训练文件
* @param template_filename
* @param train_filename
* @return
*/
bool open(const char *template_filename, const char *train_filename);

这个open方法并没有构建训练实例，而是简单地解析特征模板和统计标注集：

/**
* 读取特征模板文件
* @param filename
* @return
*/
bool openTemplate(const char *filename);
/**
* 读取训练文件中的标注集
* @param filename
* @return
*/
bool openTagSet(const char *filename);

回到learn方法中来，做完了这些诸如IO和参数解析之后，learn方法会根据算法参数的不同而调用不同的训练算法。取最常用的说明如下：

/**
* CRF训练
* @param x 句子列表
* @param feature_index 特征编号表
* @param alpha 特征函数的代价
* @param maxitr 最大迭代次数
* @param C cost factor
* @param eta 收敛阈值
* @param shrinking_size 未使用
* @param thread_num 线程数
* @param orthant 是否使用L1范数
* @return 是否成功
*/
bool runCRF(const std::vector<TaggerImpl *> &x, EncoderFeatureIndex *feature_index, double *alpha, size_t maxitr,
float C, double eta, unsigned short shrinking_size, unsigned short thread_num, bool orthant)

计算梯度

创建多个CRFEncoderThread，平均地将句子分给每个线程。每个线程的工作其实只是计算梯度：

/**
* 计算梯度
* @param expected 梯度向量
* @return 损失函数的值
*/
double TaggerImpl::gradient(double *expected)

梯度计算时，先构建网格：

void TaggerImpl::buildLattice()

由于CRF是概率图模型，所以有一些图的特有概念，如顶点和边：

/**
* 图模型中的节点
*/
struct Node
/**
* 边
*/
struct Path

buildLattice方法调用rebuildFeatures对每个时刻的每个状态分别构造边和顶点：

for (size_t cur = 0; cur < tagger->size(); ++cur)
{
const int *f = (*feature_cache)[fid++];
for (size_t i = 0; i < y_.size(); ++i)
{
Node *n = allocator->newNode(thread_id);
n->clear();
n->x = cur;
n->y = i;
n->fvector = f;
tagger->set_node(n, cur, i);
}
}
for (size_t cur = 1; cur < tagger->size(); ++cur)
{
const int *f = (*feature_cache)[fid++];
for (size_t j = 0; j < y_.size(); ++j)
{
for (size_t i = 0; i < y_.size(); ++i)
{
Path *p = allocator->newPath(thread_id);
p->clear();
p->add(tagger->node(cur - 1, j), tagger->node(cur, i));
p->fvector = f;
}
}
}

这也就是大家经常看到的类似如下的图：

屏幕快照 2016-08-21 下午2.39.17.png

然后计算每个节点和每条边的代价（也就是特征函数乘以相应的权值，简称代价）：

/**
* 计算状态特征函数的代价
* @param node 顶点
*/
void FeatureIndex::calcCost(Node *n) const
{
n->cost = 0.0;
#define ADD_COST(T, A) \
do { T c = 0; \
for (const int *f = n->fvector; *f != -1; ++f) { c += (A)[*f + n->y]; } \
n->cost =cost_factor_ *(T)c; } while (0)
if (alpha_float_)
{
ADD_COST(float, alpha_float_);
}
else
{
ADD_COST(double, alpha_);
}
#undef ADD_COST
}
/**
* 计算转移特征函数的代价
* @param path 边
*/
void FeatureIndex::calcCost(Path *p) const
{
p->cost = 0.0;
#define ADD_COST(T, A) \
{ T c = 0.0; \
for (const int *f = p->fvector; *f != -1; ++f) { \
c += (A)[*f + p->lnode->y * y_.size() + p->rnode->y]; \
} \
p->cost =cost_factor_*(T)c; }
if (alpha_float_)
{
ADD_COST(float, alpha_float_);
}
else
{
ADD_COST(double, alpha_);
}
}

其中fvector是当前命中特征函数的起始id集合，对于每个起始id，都有连续标签个数种y值；n->y是当前时刻的标签，由于每个特征函数都必须同时接受x和y才能决定输出1或0，所以要把两者加起来才能确定最终特征函数的id。用此id就能在alpha向量中取到最终的权值，将权值累加起来，乘以一个倍率（也就是所谓的代价参数cost_factor），得到最终的代价cost。

对于边来说，也是类似的，只不过对每个起始id，都有连续标签个数平方种y值组合。

这部分对应

屏幕快照 2016-08-08 下午5.09.02.png

前向后向算法

网格建完了，就可以在这个图上面跑前向后向算法了:

/**
* 前向后向算法
*/
void forwardbackward();

该方法依次计算前后向概率：

for (int i = 0; i < static_cast<int>(x_.size()); ++i)
{
for (size_t j = 0; j < ysize_; ++j)
{
node_[i][j]->calcAlpha();
}
}
for (int i = static_cast<int>(x_.size() - 1); i >= 0; --i)
{
for (size_t j = 0; j < ysize_; ++j)
{
node_[i][j]->calcBeta();
}
}

计算前向概率的具体实现是：

void Node::calcAlpha()
{
alpha = 0.0;
for (const_Path_iterator it = lpath.begin(); it != lpath.end(); ++it)
{
alpha = logsumexp(alpha, (*it)->cost + (*it)->lnode->alpha, (it == lpath.begin()));
}
alpha += cost;
}