《原始论文：Rouge: A package for automatic evaluation of summaries》

Rouge(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

一、Rouge-N（Rouge-1,Rouge-2）

1、公式

在这里插入图片描述

分母是参考摘要（人工摘要/标准答案）中n-gram的总数量，分子是模型生成的摘要和参考摘要共有的n-gram的个数，即召回率（Recall）。

Rouge-N: 是对应的Rouge-1 : 1-gram， Rouge-2: 2-gram，Rouge-3: 3-gram。

2、举例

自动摘要 $Y$ （一般是模型生成的）：

the cat was found under the bed

参考摘要， $X$ （gold standard ，人工生成的）：

the cat was under the bed

则模型生成的summary的1-gram、2-gram如下，N-gram以此类推：

#	1-gram	reference 1-gram	2-gram	reference 2-gram
1	the	the	the cat	the cat
2	cat	cat	cat was	cat was
3	was	was	was found	was under
4	found	under	found under	under the
5	under	the	under the	the bed
6	the	bed	the bed
7	bed
count	7	6	6	5

$\text{Rouge-1}(X,Y) = \cfrac66=1.0$ ：分子是待评测摘要和参考摘要都出现的1-gram的个数，分子是参考摘要的1-gram个数。（其实分母也可以是待评测摘要的，但是在精确率和召回率之间，我们更关心的是召回率Recall，同时这也和上面ROUGN-N的公式相同）

$\text{Rouge-2}(X,Y) = \cfrac45=0.8$

Rouge-N 优点：直观，简洁，能反映词序。

Rouge-N 缺点：区分度不高，且当N>3时，ROUGE-N值通常很小。

应用场景：

ROUGE-1：短摘要评估，多文档摘要（去停用词条件）;
ROUGE-2: 单文档摘要，多文档摘要（去停用词条件）;

二、Rouge-L

L即是LCS(longest common subsequence，最长公共子序列)的首字母，因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图：

在这里插入图片描述
其中：

$L C S (X, Y)$ 是 $X$ 和 $Y$ 的最长公共子序列的长度；
$m$ 和 $n$ 分别表示参考摘要（人工生成）和自动摘要（模型生成）的长度（一般就是所含词的个数）；
$R_{lcs}$ 、 $P_{lcs}$ 分别表示召回率和准确率。
$F_{lcs}$ 即是我们所说的Rouge-L。

在DUC中， $β$ 被设置为一个很大的数，所以Rouge-L几乎只考虑 $R_{lcs}$ ，与上面所说的一般只考虑召回率对应。

优点：使用LCS的一个优点是它不需要连续匹配，而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram，因此您不需要预定义的n-gram长度。

缺点：只计算一个最长子序列，最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景：单文档摘要；短摘要评估。

三、Rouge-S

即使用了skip-grams，在参考摘要和待评测摘要进行匹配时，不要求gram之间必须是连续的，可以“跳过”几个单词，比如skip-bigram，在产生grams时，允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”.

优点：考虑了所有按词序排列的词对，比n-gram模型更深入反映句子级词序。

缺点：若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数，需要指定最大跳跃词数的值。

应用场景：单文档摘要；ROUGE-S4，ROUGE-S9: 多文档摘要（去停用词条件);

参考资料：
自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
文本摘要的评测方法：Rouge-1, Rouge-2, Rouge-L, Rouge-S
自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
ROUGE评价方法

NLP-文本摘要：Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-S】

一、Rouge-N（Rouge-1,Rouge-2）

1、公式

2、举例

二、Rouge-L

三、Rouge-S

猜你喜欢