一年过去了，ChatGPT差点榜上无名

11月底，ChatGPT发布一周年，这一年真是风起云涌，ChatGPT 面世没久，我写了一篇文章《ChartGPT火出了圈，AI伴生时代已来》，这也算是开始关注AI的开端。

百模大战早已开启，随着中文大模型如雨后春笋般源源不断地发布，研究者和大模型爱好者们对谁是中文大模型界的扛把子争论不休。于是评测就出现了，就像手机测评、汽车测评一样，各路测评机构、评测基准应运而生，各大模型也争相在排行榜上一显身手，而且每家多多少少都会捎带上 GPT 进行对比，来凸显自己的能力。

之前每家模型发布的时候，都会附带一个排名，来标记自己在业界的位置，不过一般大家都把自己的位置排在前面，不然怎么好意思放出来呢。有兴趣的小伙伴，可以找找过去的新闻佐证一下。

最近也看了几个比较有代表性的测评榜单，比如SuperCLUE、AGIEval、FlagEval、C-Eval等等，我把一些排名的情况放在这里供大家作为参考（点击图片放大）。

C-Eval

https://cevalbenchmark.com/static/leaderboard_zh.html

SuperCLUE

https://www.superclueai.com/

OpenCompass

https://opencompass.org.cn/leaderboard-llm

FlagEval

https://flageval.baai.ac.cn/#/home

AGIEval

https://opencompass.org.cn/dataset-detail/AGIEval

我觉得 C-Eval 的声明说的还是比较中肯的，这里截取过来：

任何评测都有其局限性，以及任何的榜单都可以被不健康的刷榜。尤其是在大模型时代，大部分模型并未公开，用户也无法在实际应用中验证这些模型。例如，在榜单上得到高分的方式有：从GPT-4的预测结果蒸馏，找人工标注然后蒸馏，在网上找到原题加入训练集中微调模型 -- 然而这样得到的分数是没有意义的。因此，我们建议用户谨慎看待榜单。

从这些榜单排名看，GPT的能力确实堪忧，不过从使用效果来看，大家又都更偏向于ChatGPT，这是个迷之现象。

以上榜单仅供参考，哪个好用咱就用哪个，不必过度在意。公众号回复【大模型报告】，获取《2023中文大模型基准测评报告》。

—扩展阅读—

WPS Office AI实战总结，智能化办公时代已来

这是我用过最好的翻译软件，不容错过

一本足以影响你（孩子）一生的书，不容错过

名字大却不中用的AI大模型，名不副实

英语学习有困难？给你介绍几个AI高高手陪你学习（2）

每月20美元的Plus版ChatGPT到底有什么不同，真的香吗