被“薄纱”的文心一言,真的一无是处?

大家好,我是王有志,欢迎和我聊技术,聊漂泊在外的生活。本文单纯讨论文心一言,不涉及其母公司百度的所作所为

3月16日百度交卷了,正式推出了自己的知识增强大语言模型文心一言
在这里插入图片描述
作为全球第二家,中国第一家正式推出的大语言模型,文心一言被很多人寄予厚望,期望它能达到chatGPT的水准。但李彦宏很清楚,文心一言暂时还没有能力对标chatGPT,发布会现场他也说到:“今天的文心一言,大家的期望值是要对标chatGPT(3.5),甚至要对标GPT 4,那么这个门槛还是很高的”。

当然,除了期盼外,还有很多单纯希望文心一言出丑的,或者说希望百度出丑的。发布会开始前,各大交流群已经疯狂的转发这张文心一言与chatGPT的对比图。
在这里插入图片描述
玩梗的高潮出现在发布会的演示环节上,鉴于Google的前车之鉴,百度选择通过提前录制的演示视频来展示文心一言的能力,“chatPPT”这个爱称随之诞生。那么文心一言到底怎么样?真的是“chatPPT”吗?

刚好我拿到了文心一言的测试资格,手上也有OpenAI的账号,那么我们来做个全面的对比。首先是参赛选手:

大语言模型 公司 说明 使用条件
文心一言 百度 被寄予厚望的“国产之光” 内测中,需要申请
chatGPT 3.5 OpenAI 目前的标杆,代表了最高的技术水平 科学上网,关联国外手机号
BingAI 微软 大头儿子(chatGPT)和小头爸爸(bing) 科学上网,或者特殊配置

测试维度:

  • 中文语义理解,测试“中文八级”题目。
  • 数学逻辑推算,测试“趣味”数学题目。
  • 代码生成能力,我应该还不会被取代吧?
  • 角色扮演能力,作为一个乐子人,必须要找点乐子。

中文理解

先用文心一言发布会上的洛阳纸贵来试探下它们。
在这里插入图片描述
文心一言和BingAI的回答算是中规中矩,chatGPT的回答多少是有些离谱了。当然这道题文心一言和bingAI都可以利用自身具备的搜索能力完成,多少算是欺负chatGPT了。

换一道题目:

“小明,窗台上落了鸟屎,去擦一下好么?”
“我擦!!我不擦!!”
问:小明擦不擦窗台?

在这里插入图片描述
这道题的难度并不大,它们都给出了正确的答案,bingAI甚至能够识别出这是一个笑话

再换一道题目:

人要行,干一行行一行,一行行行行行,要是不行,干一行不行一行,一行不行行行不行!请问下列说法哪个对?
A.人行,行行行
B.人行,行行不行
C.人不行,行行行

在这里插入图片描述
正确答案是A。文心一言和bingAI都给出了正确的回答,文心一言甚至都学会进行额外的分析了。但chatGPT的回答多少是有些离谱了,只能说是毫不相干吧。

目前在我的测试中,文心一言在中文语义的理解上是优于chatGPT的。虽然测试中文语义理解多少是有点欺负chatGPT,但作为用户,使用的过程中肯定是优先母语的。

Tips:OpeanAI目前已经禁止了大陆及港澳地区的手机号注册。

数学推算

从文心一言发布会上那道错误的鸡兔同笼开始:
在这里插入图片描述
chatGPT给出了详细的解答过程,并得出正确结论;文心一言直接给出了正确的结论;至于bing AI的回答,我倒是有点好奇,按理应该给出和chatGPT相同的回答,难道说是微软做了反向优化?

再问一道题:

用1,2,3,4,5这5个数字计算出24,每个数字只能出现1次。
在这里插入图片描述
我第一时间想到的答案是 5 × 4 + 3 + 2 − 1 = 24 5\times4+3+2-1=24 5×4+3+21=24,奈何三个AI都没给出正确答案,难道是我的题目有问题?

我们来看数学逻辑推算环节各参赛选手的得分情况:

参赛选手 第一题 第二题
文心一言 正确 错误,且没有识别出是数学题
chatGPT 正确,且有详细解答 错误,识别为数学题
bingAI 错误,分析过程拉胯 错误,识别为数学题

仅仅以这两道题目的结果来看,我心中的排名是: c h a t G P T > 文心一言 ≈ b i n g A I chatGPT>文心一言\approx bingAI chatGPT>文心一言bingAI

Tips:bingAI给出的错误答案中,第二个答案稍微改动下就是正确答案了。

代码生成

从chatGPT诞生之初,取代程序员的的言论就甚嚣尘上。那么以目前的技术水平,它们真的能取代程序员吗?出一道简单的题目:用html写一个时间戳转换的网页。

先来看文心一言给出的答案:
在这里插入图片描述
文心一言知道要做什么,确实也提供了一个网页,但却没有提供按钮的转换方法,另外它没有理解时间戳是什么。

接着是chatGPT的答案:
在这里插入图片描述
chatGPT的答案是可以运行的,也能成功将时间戳转换为当前时间。

最后是bingAI的答案:
在这里插入图片描述
bingAI的答案也是没有问题的,可以成功运行,而且网页风格和chatGPT完全一致。另外,bingAI也给出了改进建议。

除了这些简单的功能外,我还尝试着让它们仨做一些复杂的功能,但是结果都不是很理想,工具类或者通用代码可以写的有模有样,修修补补也能用,不过一旦牵扯到业务逻辑,它们也只能给出简单且毫无价值的Demo

太好了,暂时我还不会失业~~

角色扮演

上面测了很多不正经的,接下来我们测点正经内容。

bingAI会直接拒绝了乐子人的请求:
在这里插入图片描述
文心一言也拒绝我:
在这里插入图片描述
只有chatGPT答应了我的请求:
在这里插入图片描述
虽然是答应了我,但不能聊两三句就结束啊。

百无禁忌

对比国内外的产品时,很多人都会把能聊敏感话题作为重要标准之一。文心一言不必多说,有些话题是不能聊的,有些话题虽然可以聊,但回答过后会关闭对话框,另外,从前面的截图中也可以看到,背景上布满了水印
在这里插入图片描述
那么外国的月亮真的就比较圆吗?其实也不是,从上面来看,chatGPT不愿意谈及政治,bingAI也一样,某些问题压根就不会回答:
在这里插入图片描述
其实每个国家和地区都有自己的敏感话题,否则大洋彼岸怎么会诞生出近百种性别?


4个回合的较量中,文心一言只有在中文语义的理解上稍微胜出,可以说是被全方位的“薄纱”。那么你愿意使用文心一言吗?如果是我,我想我会给文心一言多一点点宽容,尝试着使用它

对了,如果你具备科学上网的条件,却苦于手机号的限制无法使用chatGPT,关注【王有志】并回复【GPT】,我来帮你~~

猜你喜欢

转载自blog.csdn.net/wyz_1945/article/details/129698417