【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs - 代码天地

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs

企业开发 2023-09-05 22:08:17 阅读次数: 0

前言

该文章提出一种利用大模型对open-domain对话进行评估的方法。主要利用一个Prompt，来指示LLMs一次性输出相应的多个指标
原文地址：LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models

方法

基于大模型，提出一个unified multi-dimensional evaluation method LLM-EVAL，不依赖human references和多种prompts，来从多个角度评测对话
- 其实就是利用一个 prompt，仅调用一次模型，能够在多个维度评估对话
- 有两种设定，分别在0-5的区间和0-100的区间进行评分
- unified evaluation schema: 一个自然语言指令，定义任务以及评估标准（包含多个维度，以及每个维度的分数区间）
- single prompt for evaluation: 包含必要的对话上下文和需要评估的 target response
  - reference是可选的
输入：unified evaluation schema + single prompt for evaluation
输出：

在这里插入图片描述

结论

在这里插入图片描述

在 DSTC 10 hidden test datasets 上，0-5和0-100两个版本都好，0-5的还更好一些

在这里插入图片描述

在带有human reference的数据集上，两种设定的效果都好，0-100的最好

在这里插入图片描述

在不带human reference的数据集上，两种设定效果都好，说明在可以作为reference-free的评估方法
上面三张表，在各种数据集上的效果都很不错，说明该指标评估效果好，且鲁棒性好，泛化性强

在这里插入图片描述

dialogue-optimized LLMs Claude ChatGPT 在 LLM-EVAL 上效果更好，小一些的模型 Anthropic Claude-instant虽然没达到最好效果，但是也能用
使用greedy decoding比nucleus sampling生成 LLM-EVAL效果更好

猜你喜欢

转载自blog.csdn.net/qq_52852138/article/details/131813445

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)