《原始论文:Rouge: A package for automatic evaluation of summaries》
Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。
一、Rouge-N(Rouge-1,Rouge-2)
1、公式
分母是参考摘要(人工摘要/标准答案)中n-gram的总数量,分子是模型生成的摘要和参考摘要共有的n-gram的个数,即召回率(Recall)。
Rouge-N: 是对应的Rouge-1 : 1-gram, Rouge-2: 2-gram,Rouge-3: 3-gram。
2、举例
自动摘要 Y Y Y(一般是模型生成的):
the cat was found under the bed
参考摘要, X X X(gold standard ,人工生成的):
the cat was under the bed
则模型生成的summary的1-gram、2-gram如下,N-gram以此类推:
# | 1-gram | reference 1-gram | 2-gram | reference 2-gram |
---|---|---|---|---|
1 | the | the | the cat | the cat |
2 | cat | cat | cat was | cat was |
3 | was | was | was found | was under |
4 | found | under | found under | under the |
5 | under | the | under the | the bed |
6 | the | bed | the bed | |
7 | bed | |||
count | 7 | 6 | 6 | 5 |
Rouge-1 ( X , Y ) = 6 6 = 1.0 \text{Rouge-1}(X,Y) = \cfrac66=1.0 Rouge-1(X,Y)=66=1.0:分子是待评测摘要和参考摘要都出现的1-gram的个数,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间,我们更关心的是召回率Recall,同时这也和上面ROUGN-N的公式相同)
Rouge-2 ( X , Y ) = 4 5 = 0.8 \text{Rouge-2}(X,Y) = \cfrac45=0.8 Rouge-2(X,Y)=54=0.8
Rouge-N 优点:直观,简洁,能反映词序。
Rouge-N 缺点:区分度不高,且当N>3时,ROUGE-N值通常很小。
应用场景:
- ROUGE-1:短摘要评估,多文档摘要(去停用词条件);
- ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);
二、Rouge-L
L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:
其中:
- L C S ( X , Y ) LCS(X,Y) LCS(X,Y)是 X X X 和 Y Y Y 的最长公共子序列的长度;
- m m m 和 n n n 分别表示参考摘要(人工生成)和自动摘要(模型生成)的长度(一般就是所含词的个数);
- R l c s R_{lcs} Rlcs、 P l c s P_{lcs} Plcs 分别表示召回率和准确率。
- F l c s F_{lcs} Flcs 即是我们所说的Rouge-L。
在DUC中, β β β 被设置为一个很大的数,所以Rouge-L几乎只考虑 R l c s R_{lcs} Rlcs,与上面所说的一般只考虑召回率对应。
优点:使用LCS的一个优点是它不需要连续匹配,而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram,因此您不需要预定义的n-gram长度。
缺点:只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。
应用场景:单文档摘要;短摘要评估。
三、Rouge-S
即使用了skip-grams,在参考摘要和待评测摘要进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词,比如skip-bigram,在产生grams时,允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”.
优点:考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。
缺点:若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数,需要指定最大跳跃词数的值。
应用场景:单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);
参考资料:
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
文本摘要的评测方法:Rouge-1, Rouge-2, Rouge-L, Rouge-S
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
ROUGE评价方法