Google Duplex是否对用户做了过度的承诺？（深度讨论）

出品：贪心科技（公众号：贪心科技）

作者：李文哲

字数：2300

阅读时长：5分钟

本次Google I/O大会的最大亮点无疑是Google Duplex，它抢占了整个大会的风头，在场的观众们对首席执行官Pichai先生演示的视频表现出了极大的兴趣。以下是本次大会中关于Google Duplex的一小段视频，供大家参考。

视频中第一个例子讲的是，Google虚拟助手在后台帮助用户完成跟理发店的预约，它能够跟理发店里的工作人员无缝交流，这也使得工作人员根本没有察觉到跟自己通话的竟然是一个虚拟助理！看到这里，全场欢呼声响起。第二个例子的交流环境稍微复杂一些，但大体来讲跟第一个例子很类似。

这种技术非常酷，而且构建一个懂情感的，跟人类自由交谈的机器人是未来人工智能的终极目标。

一、Google Duplex具有“欺骗”的能力，是否意味着通过了图灵测试？

答案是否定的。即便他们所展示的功能确实能够让人察觉不到是人还是虚拟助理，这也并不意味着Google Duplex通过了图灵测试。

在这里，简单普及一下什么是图灵测试。图灵测试是阿兰图灵在1950年提出来的，用来判断一个机器是否具有人类智能的一种测试方式。这种测试不依赖于理论，只是试验性的测试。通过一段时间的对话，当一个人很难判断出对面的是人还是机器时，我们就认为机器具有人类的智能。

但图灵测试本身并不会限定一个特定的领域，真正的强智能在任何环境下都具有人类一样的智能。但Google Duplex本身只能应用在特定的场景中，比如预约机票，订餐等服务。

如果我们在平时生活中关注细节，我们可以很容易发现订餐这类的交谈过程中，通常都会有一些常用的话术，以及常见的对话路径（比如先问什么后问什么）。所以这类特定领域中的应用比起那些广义上的应用，对技术的要求简单得很多，但即便如此，搭建一个完善的对话系统（Dialogue System）是很具有挑战的事情。

二、Google Duplex的体验是否会像视频里所展示的一样具有“欺骗性”？

对话系统的（dialogue system)的研发一直是工业界和学术界在攻克的难题。如果曾经参与过对话系统的研发，会对其挑战有更深刻的了解。

对话系统的核心是自然语言处理技术，比如让机器去理解人类的语言。但从技术的角度来讲，真正让机器去理解人类的语言非常难，目前流行的统计学习模型，以及深度学习模型（端到端）归根结底还是依赖于一些语言中的统计特征（比如词频，不同词出现的相关性等），而非真正去理解其背后的含义（meaning），在这一点上跟人类的思考方式是不一样的。通常，一个自然语言问题的难度要高于图像识别，还有语音识别问题的难度。

首先，我们来看一下研发出特定领域的对话系统有没有可能。答案是肯定的，其实市面上已经有很多类似的应用在各个垂直领域中。比如机票预订，订餐，智能客服等等。因为在这些特定的场景里，涉及到的问题种类比较有限，问题的路径比较固定，对话中所涉及到的关键词数目也相对有限，所以就大大降低了研发对话系统的难度，同时也能有比较高的识别率。比如对于预定机票这件任务，对于机器来说，无非需要搜集几个关键的信息包括日、出发地、目的地、航班偏好、价格偏好等。当我们从对话中获取到这些关键信息之后就可以通过查询、下单等操作来帮助客户完成所交给的任务。之前被Cisco收购的位于硅谷的MindMeld公司在类似的对话系统中做得尤其出色。Amazon Echo也是其实也是属于特定领域中的应用，比如提供听歌的功能，控制家具的功能等等。

其次，我们简单了解一下语音的生成技术。在本次大会中Pichai提到了WaveNet，它的核心在于，通过对某一个人的语音数据的学习，可以生成此人的声音模型，进而对于任何的文章，可以用此人的声音来帮我们阅读，这是一件多么酷的事情！，睡觉前，如果自己喜欢的明星或者暗恋的人，能够用他们/她们的声音给我们讲讲故事，估计也是种美好的感受。

从技术的角度，这是否可行呢？对于这个问题，答案还是肯定的。主要的挑战来自于，我们怎么通过少量的语音数据来生成准确的声音模型。因为搜集语音数据的成本是很高的，而且我们不可能请过来一个明星，让他一直对着系统讲几千个小时或者甚至更多。

最后，我们来思考这样的对话系统是否真正能像视频里所展示的一样，具有“欺骗性”？至少从现阶段的技术现状来看，对此类问题还是持有比较怀疑的态度。即便在一个特定的应用领域，交流-这件事情可以变得异常得复杂，而且有太多的不确定性。比如说话时所处的环境，语速，语调，而且自由交谈的用语是很随意的，不像写文章时那样有着比较好的标准。另外，对于上下文的分析也是件很具有挑战的事情，在这方面机器目前还远不如人类。

只有当这些问题都被解决的时候，我觉得我们才能拥有一个高智能的对话系统。或许有人会问，大会的演示视频已经非常流畅，完全感觉不出来是人还是机器啊？其实演示归演示，现实的世界要比实验环境复杂得太多。如果我们的系统在某些特定人群或者某一个很小的场景下，用大量的数据训练出来的，其实达到这种效果也不是不可能。但是一旦把产品卖给了终端用户，问题就会变得复杂太多。

三、Google Duplex的概念很酷，但同时是否会引发社会伦理问题？

我们可以想象一下，如果我们在跟一个人通话，但却不知道对方是人还是机器，这将会是什么样的感觉？从伦理的角度来看，这是某种意义上的“欺骗”。对于Google Duplex这一概念的提出，社会上也引发了不少的担忧。

当这类技术被社会广泛应用的时候，它所带来的负面影响是肯定存在的。有些公司有可能利用这种工具来搜集用户的数据，甚至是欺诈用户。除此之外，它还会造成哪些负面影响呢？这个问题就留给读者来思考了。

结语

Google Duplex这种产品概念的提出还是具有象征性的意义，这必将会推动整个行业和学术界沿着更高的标准去做事情，其实也是件好事情。但由于现阶段技术上的限制，特别是在自然语言处理技术上的挑战，想做出一款具有“欺骗”性质的对话系统还是有不少困难的。

从短期来看，我们最好还是不要太高估人工智能技术的能力，但长期来看，我们还是有理由去憧憬更多有挑战性的问题被解决。所有的研究都还在路上。

最后一点，在2017年Google I/O大会的时候，整个世界也同样被推出的Pixel Buds所震惊，但现在看来，很大程度上还是过度承诺（over-promise)。

如果对本文有自己的见解，欢迎在评论区留言, 或者扫码关注公众号交流。

此为贪心科技原创，转载请联系本公众号获得授权。

Google Duplex是否对用户做了过度的承诺？（深度讨论）

猜你喜欢