P@n
前 n 个结果的准确度, P指的是Precision. 如果用
分别表示第 i 个结果相关、不相关, 则
在评测系统的 P@n 时, 对每个查询的结果计算P@n, 取这些值的平均值作为系统的P@n.
参考:
MAP
Average Precision(AP): P@n的一个平均, 计算方式如下:
其中R是预定义的. 在评测系统的AP时, 对每个查询的结果计算AP, 取这些值的平均值作为系统的AP.
Mean Average Precision (MAP): 在评价一个系统的性能, 有时会用不同主题的查询进行检索, 评价系统的整体性能. 在第t类查询, 系统的AP记作
的话, MAP计算方式如下:
参考
MRR
Mean Reciprocal Rank (MRR). 对每个查询
, 记它第一个相关的结果排在位置
, 即rank为
, 则Reciprocal Rank(RR)得分计作
.
对所有query的RR取平均, 即为MRR:
DCG和NDCG
Discounted Cumulative Gain (DCG): 指的, Cumulative为将所有的结果累加起来, Discounted指给排在后面的结果加一个折扣系数, 排序位置越考后, 折扣系数越小.
DCG@N的计算方式如下
其中
指每条结果的收益(Gain),
指折扣系数, 排序位置越考后, 折扣系数越小, 常用的是
.
一种常用的形式如下:
Normalized Discounted Cumulative Gain (NDCG): 对于不同query, DCG的量级可能不同, 比如一个query对应的文档相关性都较差, 另一个query对应的文档都很好, 这样评价指标就会偏向第二个query. Normalized指将一个query对应的文档所有排序中最大的DCG求出来, 不妨计作
, 则
举例来说, query下有4个文档, 相关性分别为1 2 3 0
. 则最好的排序是 3 2 1 0
, 在这种排序情况下计算出来的DCG就是IDCG.