被“薄纱”的文心一言，真的一无是处？

大家好，我是王有志，欢迎和我聊技术，聊漂泊在外的生活。本文单纯讨论文心一言，不涉及其母公司百度的所作所为

3月16日百度交卷了，正式推出了自己的知识增强大语言模型文心一言。
在这里插入图片描述
作为全球第二家，中国第一家正式推出的大语言模型，文心一言被很多人寄予厚望，期望它能达到chatGPT的水准。但李彦宏很清楚，文心一言暂时还没有能力对标chatGPT，发布会现场他也说到：“今天的文心一言，大家的期望值是要对标chatGPT（3.5），甚至要对标GPT 4，那么这个门槛还是很高的”。

当然，除了期盼外，还有很多单纯希望文心一言出丑的，或者说希望百度出丑的。发布会开始前，各大交流群已经疯狂的转发这张文心一言与chatGPT的对比图。
在这里插入图片描述
玩梗的高潮出现在发布会的演示环节上，鉴于Google的前车之鉴，百度选择通过提前录制的演示视频来展示文心一言的能力，“chatPPT”这个爱称随之诞生。那么文心一言到底怎么样？真的是“chatPPT”吗？

刚好我拿到了文心一言的测试资格，手上也有OpenAI的账号，那么我们来做个全面的对比。首先是参赛选手：

大语言模型	公司	说明	使用条件
文心一言	百度	被寄予厚望的“国产之光”	内测中，需要申请
chatGPT 3.5	OpenAI	目前的标杆，代表了最高的技术水平	科学上网，关联国外手机号
BingAI	微软	大头儿子（chatGPT）和小头爸爸（bing）	科学上网，或者特殊配置

测试维度：

中文语义理解，测试“中文八级”题目。
数学逻辑推算，测试“趣味”数学题目。
代码生成能力，我应该还不会被取代吧？
角色扮演能力，作为一个乐子人，必须要找点乐子。

中文理解

先用文心一言发布会上的洛阳纸贵来试探下它们。
在这里插入图片描述
文心一言和BingAI的回答算是中规中矩，chatGPT的回答多少是有些离谱了。当然这道题文心一言和bingAI都可以利用自身具备的搜索能力完成，多少算是欺负chatGPT了。

换一道题目：

“小明，窗台上落了鸟屎，去擦一下好么？”
“我擦！！我不擦！！”
问：小明擦不擦窗台？

在这里插入图片描述
这道题的难度并不大，它们都给出了正确的答案，bingAI甚至能够识别出这是一个笑话。

再换一道题目：

人要行，干一行行一行，一行行行行行，要是不行，干一行不行一行，一行不行行行不行！请问下列说法哪个对？
A.人行，行行行
B.人行，行行不行
C.人不行，行行行

在这里插入图片描述
正确答案是A。文心一言和bingAI都给出了正确的回答，文心一言甚至都学会进行额外的分析了。但chatGPT的回答多少是有些离谱了，只能说是毫不相干吧。

目前在我的测试中，文心一言在中文语义的理解上是优于chatGPT的。虽然测试中文语义理解多少是有点欺负chatGPT，但作为用户，使用的过程中肯定是优先母语的。

Tips：OpeanAI目前已经禁止了大陆及港澳地区的手机号注册。

数学推算

从文心一言发布会上那道错误的鸡兔同笼开始：
在这里插入图片描述
chatGPT给出了详细的解答过程，并得出正确结论；文心一言直接给出了正确的结论；至于bing AI的回答，我倒是有点好奇，按理应该给出和chatGPT相同的回答，难道说是微软做了反向优化？

再问一道题：

用1，2，3，4，5这5个数字计算出24，每个数字只能出现1次。

我第一时间想到的答案是 $5\times4+3+2-1=24$ ，奈何三个AI都没给出正确答案，难道是我的题目有问题？

我们来看数学逻辑推算环节各参赛选手的得分情况：

参赛选手	第一题	第二题
文心一言	正确	错误，且没有识别出是数学题
chatGPT	正确，且有详细解答	错误，识别为数学题
bingAI	错误，分析过程拉胯	错误，识别为数学题

仅仅以这两道题目的结果来看，我心中的排名是： $chatGPT>文心一言\approx bingAI$ 。

Tips：bingAI给出的错误答案中，第二个答案稍微改动下就是正确答案了。

代码生成

从chatGPT诞生之初，取代程序员的的言论就甚嚣尘上。那么以目前的技术水平，它们真的能取代程序员吗？出一道简单的题目：用html写一个时间戳转换的网页。

先来看文心一言给出的答案：
在这里插入图片描述
文心一言知道要做什么，确实也提供了一个网页，但却没有提供按钮的转换方法，另外它没有理解时间戳是什么。

接着是chatGPT的答案：
在这里插入图片描述
chatGPT的答案是可以运行的，也能成功将时间戳转换为当前时间。

最后是bingAI的答案：
在这里插入图片描述
bingAI的答案也是没有问题的，可以成功运行，而且网页风格和chatGPT完全一致。另外，bingAI也给出了改进建议。

除了这些简单的功能外，我还尝试着让它们仨做一些复杂的功能，但是结果都不是很理想，工具类或者通用代码可以写的有模有样，修修补补也能用，不过一旦牵扯到业务逻辑，它们也只能给出简单且毫无价值的Demo。

太好了，暂时我还不会失业~~

角色扮演

上面测了很多不正经的，接下来我们测点正经内容。

bingAI会直接拒绝了乐子人的请求：
在这里插入图片描述
文心一言也拒绝我：

只有chatGPT答应了我的请求：

虽然是答应了我，但不能聊两三句就结束啊。

百无禁忌

对比国内外的产品时，很多人都会把能聊敏感话题作为重要标准之一。文心一言不必多说，有些话题是不能聊的，有些话题虽然可以聊，但回答过后会关闭对话框，另外，从前面的截图中也可以看到，背景上布满了水印。
在这里插入图片描述
那么外国的月亮真的就比较圆吗？其实也不是，从上面来看，chatGPT不愿意谈及政治，bingAI也一样，某些问题压根就不会回答：

其实每个国家和地区都有自己的敏感话题，否则大洋彼岸怎么会诞生出近百种性别？

4个回合的较量中，文心一言只有在中文语义的理解上稍微胜出，可以说是被全方位的“薄纱”。那么你愿意使用文心一言吗？如果是我，我想我会给文心一言多一点点宽容，尝试着使用它。

对了，如果你具备科学上网的条件，却苦于手机号的限制无法使用chatGPT，关注【王有志】并回复【GPT】，我来帮你~~