task-oriented:人工评分的监督数据,
开放式对话系统:使用word-embedding based similarity metrics来判断
具体来说有一下几种:
BLEU
METEOR
ROUGE
Embedding-Based
RUBER(17年):在train的时候使用ground truth和训练结果对比,进行pooling处理得到最小和最大值contat。然后使用cos 。
在test的时候使用query和answer通过矩阵变换,得到一个数值。觉得这个方法还挺有意思的。