前言
- 该文章提出一种利用大模型对open-domain对话进行评估的方法。主要利用一个Prompt,来指示LLMs一次性输出相应的多个指标
- 原文地址:LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models
方法
-
基于大模型,提出一个unified multi-dimensional evaluation method
LLM-EVAL
,不依赖human references和多种prompts,来从多个角度评测对话- 其实就是利用一个 prompt,仅调用一次模型,能够在多个维度评估对话
- 有两种设定,分别在0-5的区间和0-100的区间进行评分
-
unified evaluation schema: 一个自然语言指令,定义任务以及评估标准(包含多个维度,以及每个维度的分数区间)
-
single prompt for evaluation: 包含必要的对话上下文和需要评估的 target response
- reference是可选的
-
输入:unified evaluation schema + single prompt for evaluation
-
输出:
结论
- 在
DSTC 10 hidden test datasets
上,0-5和0-100两个版本都好,0-5的还更好一些
- 在带有human reference的数据集上,两种设定的效果都好,0-100的最好
- 在不带human reference的数据集上,两种设定效果都好,说明在可以作为reference-free的评估方法
- 上面三张表,在各种数据集上的效果都很不错,说明该指标评估效果好,且鲁棒性好,泛化性强
-
dialogue-optimized LLMs
Claude ChatGPT
在LLM-EVAL
上效果更好,小一些的模型Anthropic Claude-instant
虽然没达到最好效果,但是也能用 -
使用greedy decoding比nucleus sampling生成
LLM-EVAL
效果更好