想象一下，您发现自己置身于下一代航天器的驾驶舱内——这种航天器可以毫不费力地将您从近地轨道带到柯伊伯带。你设想如何控制它？
在这里插入图片描述
科幻小说使我们习惯于将未来技术等同于令人眼花缭乱的复杂性，因此您可能会想象一排排闪烁的灯光、闪亮的按钮，以及充满发光数字和起伏正弦曲线的屏幕。它肯定看起来令人印象深刻。但这真的是先进技术的标志吗？
在这里插入图片描述

相反，想象一个几乎是空的驾驶舱，用墙到墙的控制换取令人惊叹的全景。你坐在船长的椅子上，再欣赏一两分钟的风景，然后大声说：“带我去土星！” 没有按钮，没有开关，没有计算轨迹。您甚至不需要一些特殊的代码或语法。只是您每天使用的自然语言。
在这里插入图片描述

进一步想象一下，这艘船会立即以自己的声音做出同样的回应。“目的地设定为土星，”它说，它的音调随着栩栩如生的变化而起伏。“你想要最快的路线吗？或者，我们可以利用附近物体的引力来减少燃料消耗，但行程会慢 17%。而且总是有风景优美的路线。这是最长且效率最低的，但我们会清楚地看到斯蒂克尼陨石坑——火卫一上最大的陨石坑——并飞过木星的大红斑！”

在考虑了你的选择之后，你的回应就像你最初的命令一样毫不费力，用同样简单的方式说出来。“我想我会选择风景优美的路线。” （只要我们在想象，我们不妨从中获得乐趣。）就是这样。你作为船长的职责已经完成。

“风景路线确认，”船回复道。“系好安全带！”

1. 我们与工具的关系简史

无论你怎么看，由自然语言操作的航天器都是一件大事，但考虑到我们作为工具制造者的历史，这是一个特别雄心勃勃的梦想——这个梦想可以追溯到很久以前，我们智人实际上从我们的前辈那里继承了这个概念。来自大约 260 万年前被称为旧石器时代晚期的时期的证据表明，早期人类天生喜欢粉碎岩石，直到它们破裂，将碳块变成锋利的切割工具。这是考古学家称之为“模式 I”石器的一类人工制品：手持式、数量丰富且适用于广泛的任务。从本质上讲，这是地球上的第一项技术。
在这里插入图片描述

从那以后的几千年里，我们一直是一个忙碌的物种，以无数种方式在人工帮助下扩展我们的自然能力。例如，Mode I 摇滚是石器悠久世系中的第一个，但最终让位给了我们今天所知道的复杂的后继者。然而，让这段历史特别有趣的是，我们的工具不仅在功能和范围上都在增长——它们也变得更容易使用。

诚然，一块石头一开始并不十分复杂，但现代刀对用户更加友好——不仅因为它的刀片更锋利，还因为它配备了一个手柄，可以提高杠杆作用和安全性。汽车也是如此，它们优先考虑速度和续航里程的进步，以及人体工程学和驾驶员舒适度。甚至计时也从沙子、水和齿轮（以及随之而来的所有令人头疼的问题）的机制发展到无需维护即可提供毫秒精度的数字手表。

这些示例中的每一个都证明了一个深刻的想法：最好的工具不仅功能强大且易于使用，而且还因为它们易于使用而功能强大。

最好的工具不仅功能强大且易于使用，而且功能强大还因为它们易于使用。

但故事并没有就此结束。随着信息时代在 20 世纪初具规模，出现了一种全新的工具类别，它们利用了计算和符号数据处理等抽象功能。在短短几十年的时间里，数字技术改变了世界，就像之前几千年的任何事情一样戏剧性地改变了世界，实现了甚至对我们最近的祖先来说都显得不可思议的能力。然而，这些进步是有代价的：今天，我们的工具对我们的要求从未如此高。

2. 一个变得复杂到无法理解的世界

作为我们与技术的关系发生了多么根本性变化的一个例子，请考虑图形设计的演变。像大多数艺术形式一样，它在其历史的大部分时间里都是纯粹的模拟实践；做好工作所需的才能可能需要数年才能培养，但用来表达这种才能的工具是触觉和直觉的。设计师们大量使用铅笔、钢笔、刀具、粘合剂和模板，这些都是一眼就能看懂的东西，而且往往在童年时代就已掌握。即使是更复杂的设备，如排字机和照相机，也可能需要一些培训或练习，但它们通常是建立在简单的原则之上的。

在这里插入图片描述
图形设计的传统工具。

然而，如今，仅仅学习操作已成为整个设计行业标准的软件就需要投入前所未有的时间和精力。虽然昔日的设计师会发现他们的能力几乎是神奇的，但他们的复杂性使得初学者经常求助于门挡大小的手册、课程以及数小时和数小时的教程视频来入门。人们还能如何理解构成其界面的图标、菜单、调色板和键盘快捷键？

在这里插入图片描述
数字时代的平面设计。

作为回应，出现了一个平行市场，提供更简单的替代品，这些替代品具有更温和的学习曲线。但这些更友好的应用程序展示了一个不幸的权衡：随着可访问性的提高，功能往往会下降。因此，虽然它们可能更易于使用，但灵活性较差，产生的结果质量较低，并且通常不适合专业人士。

我们可以将这种权衡可视化为二维图，其中 X 轴代表能力和灵活性，而 Y 轴代表易用性。立即，我们可以看到专业工具被吸引到右下方，易用性通常较低，而功能和灵活性较高；相比之下，针对新手的工具往往位于相反的方向（朝向左上角）。

在这里插入图片描述
刀具、自行车和钟表等工具的发展演变，以能力和经验为轴描绘进步。

模式本身很清楚：当今最强大的工具也是最难使用的。不太明显的是我们应该如何解释它。复杂性是现代世界不可避免的副产品吗？还是可以通过一种新的方法避免这种情况？无论哪种方式，随着对我们时间和注意力的需求不断增加——而且看不到尽头——必须做出一些让步。

2.1 考虑以下趋势：

信息超载。争夺我们注意力的内容数量之多——书籍、社交媒体、新闻、播客、电影和电视、教育材料等等——正在逐渐失控。在我们的个人生活和职业生活中，我们中很少有人有足够的时间来消费我们想要的一切。
增加工作量。由于各种行业都面临着紧缩的预算和日益激烈的竞争——有时来自技术本身的进步——即使是训练有素的专家也感到压力，要求用更少的资源做更多的事情。
被困的潜力。与此同时，我们的同事中可能隐藏着大量隐藏的才能和价值。我们有多少同行拥有值得贡献的想法，无论是创意、技术还是战略，但缺乏使用传统工具表达这些想法的专业知识？
工作的未来。最后，随着我们工作性质的变化，一个不确定的前景隐约可见，几乎我们所有人都可以预期在未来十年至少会出现一些混乱。但如今的工具非常专业，即使是适度的职业转型也会带来不切实际的技能提升和再培训负担。

在这里插入图片描述

这些是我们不能指望轻易解决的深层次问题。但是，如果有可能重振我们技术历史上如此多的特征的精神——当复杂性的增加使我们的工具更易于使用，而不是更难——我相信我们可以在所有这些方面取得重大进展。这就是为什么我相信现在是时候采用一种全新的方式与我们的工具进行交互了。

3. 完成工作的全新范例

谈话呢？

对话可能看起来很平凡，但它是我们最强大、最通用的技能之一。人们甚至可以将其称为一种人类协作的通用界面：一种单一的表达方式，使我们能够与会计师一起规划财务、与医生讨论医疗问题、与老朋友重温生活，或者简单地吃顿午餐命令。它展示了惊人的灵活性，与当今数字界面的复杂性形成鲜明对比——更不用说它们的学习曲线了。

对话看似平淡无奇，但它是我们人类最通用的技能之一。

当然，当计算机介入时，谈话的优雅往往会崩溃。在速度、内存和网络方面，它们可能绕着我们转，但它们在破译我们的交流方式方面表现得尤为糟糕。具有讽刺意味的是，正是缺乏使我们如此容易进行对话的结构，正是机器难以理解它的原因。即使在今天，随着基于语音的界面的快速发展和普及，智能手机和家庭助理的病毒式视频仍然被自然语言的歧义所混淆，常常达到滑稽的极端。但如果情况改变了呢？很难理解真正的对话界面所代表的体验转变有多么深刻，所以让我们一步一步地想象它可能是什么样子，让我们的创造力源源不断。

首先，就像人与人之间的对话一样，大多数任务都以初始陈述或请求开始——描述用户想要什么，目标是创建内容、消费信息，还是开发新软件。

例如，让我们想象一位营销专业人员使用一种纯粹通过对话驱动的设计工具来启动一个新项目：

“我想要一个深蓝色背景的横幅广告布局，我们公司的标志在角落里，我们最新的标语写在日出时的森林照片旁边。”

注意语言的随意、日常品质。它或多或少与一个人可能写给同事的电子邮件相同。而且它也一样多才多艺；事实上，以下是同一界面可能如何用于自动化高管的日常新闻消费：

“阅读上周《福布斯》、《财富》和《华尔街日报》的头条新闻，让我知道生物技术领域是否有任何公司宣布 IPO。”

简单吧？不需要新的语法或结构。令人惊奇的是，在一个完全不同的行业中，在技术意义上几乎不需要改变就可以切换到完全不同类型的任务。因此，让我们更进一步，思考一下这个工作流程如何转化为一个简单的软件开发项目：

“创建一个名为“建议框”的输入表单，其中包含两个文本输入字段：一个用于用户的名字，另一个用于建议，最多 480 个字符。然后，提交按钮应将其内容发送至[email protected]。”

值得停下来考虑一下信息的绝对深度，即使是像这样的简单短语也能传达信息。仅仅一两句话，整个项目就已经启动——一个从头开始建立的新想法——其细节已准备好进行完善。没有点击，没有拖动，没有菜单层次结构，也没有在互联网上搜索教程。

仅仅一两句话，整个项目就已经启动——一个从头开始建立的新想法——它的细节准备好进行完善。

但即使这只是一种方法。毕竟，对话并不总是以如此详尽的陈述开始，而且一些最好的创意起点指的是已经存在的东西。让我们想象一下这如何应用于我们的营销示例：

“我想创建一个看起来像这样的横幅，但将徽标和标语替换为我们自己的：”<与图像配对。>

请注意，就像很多对话一样，意思是通过单词和非语言的东西传播的——在这种情况下，图像、徽标、副本等。一个真正流利的对话伙伴会理解所有这些——不仅仅是孤立的，而是融入一个单一的、相互联系的思想空间。

这确实是一个激进的新范式。但是，尽管它与我们目前与我们的工具交互的方式截然不同，但它都建立在三个简单的想法之上：

对话是一种看似强大的东西，它使我们能够轻松地描述和调用复杂的任务。
尽管行话可能会因一个领域而异，但对话的基础是通用的。作为适用于几乎任何目标的单一表达方式，它本质上是易于访问的。
我们交谈的方式通常是多模态的，也就是说，我们将我们的语言与视觉、声音和其他外部非语言事物的参考结合起来。

如果体验就此结束，它已经代表了对我们工作方式的地震破坏。即使这个假设的工具不能比这一步更进一步，这种强大的委托形式——仅通过自然语言创建的初稿——也可以全面提高生产力并减轻几乎每个人的认知负担。但真正的诀窍是接下来会发生什么：独白变成对话，并随着时间的推移而演变。

4. 完全对话式工作流程的力量

对话是信息双向流动的交流。在多次互动的过程中，一个单一的、持久的想法可以从模糊的草图演变为成品。在每一步——无论是陈述、问题还是答案——都添加了细节，消除了歧义，最终的画面变得更加清晰。

因此，当对话界面可以用建议做出响应时，它的真正力量就会显现出来：用户可以接受、拒绝或修改的整个行动过程，这反过来又会刺激更多的对话。从这个意义上说，人工智能更像是一个合作伙伴而不是工具：富有创造力、足智多谋并致力于帮助解决问题。让我们回到前面例子中的生物技术主管，想象一下她的对话式 AI 会如何回应：

“我已经阅读了您要求的文章。没有公司宣布首次公开募股，但三家公司宣布了新一轮融资，两家公司宣布 FDA 批准新疗法。你想了解更多吗？”

请注意，这个单一的回答不仅回答了最初的问题，而且还提供了全新的选项，供用户探索。其他时候，响应可能涉及语言以外的媒介，例如我们的营销专家的情况：。在这里，AI 可能会以草图布局进行响应，并提供请求修改的机会，甚至可以呈现多个布局并为用户提供一个简单的选择：

“你更喜欢选项A还是B？”

有时，人工智能需要在继续之前消除用户请求的歧义，就像我们在软件开发示例中想象的那样：

“意见箱电子邮件的主题行应该说什么？”

从这里开始，对话继续，来回，直到达到预期的结果。

现在，让我们将所有内容放在一起，并在我们的三个示例场景中的每一个中想象一个完整的对话，从头到尾：

创意：
- 用户：“将标语放大，给我找一张不同的图片。背景是夕阳。”
- AI：[提出修订草案]
- 用户：“很好，但将口号分成两行。”
- AI：[提出修订草案]
- 用户：“完美！”
信息：
- AI：“没有公司宣布首次公开募股，但三家公司宣布了新一轮融资，两家公司宣布 FDA 批准新疗法。你想了解更多吗？”
- 用户：“我不需要知道 IPO，但哪些公司获得了 FDA 批准？”
- AI：“Acme Biotech, Inc. 和 Pacific Coast Pharmaceuticals。”
- 用户：“Acme 的疗法有什么作用？”
- 人工智能：“降低血压。”
- 用户：“有趣。总结所有这些，并将其添加到我明天的全体会议的笔记中。”
发展：
- AI：“意见箱邮件的主题行应该说什么？”
- 用户：“哦，对了。让我们使用“传入的建议来自”，后跟用户的名字。”
- AI：[为用户编译和运行代码。]
- 用户：“也将电子邮件的副本发送给用户，主题为‘您的建议已提交。’”

通过将我们的工作流程从单一提示扩展到持续的、来回的对话，我们将一个已经很强大的想法变成了真正具有启发性的东西——一个可以作为几乎任何任务的单一界面的工具。只需要几个基本的想法就可以勾画出来：

对话被提议打断——工具提出想法或行动计划的时刻，用户可以通过反提议接受、拒绝或修改这些想法或行动计划。
对话的流程是开放式的和迭代的，想法是在多次交流的过程中形成的，通常涉及反复试验，直到满足用户的需求。

简而言之，这就是我们对 AI 未来的愿景。这项技术不仅提供革命性的功能，而且有望改变我们体验它们的方式。事实上，我相信人工智能会扭转我们都学会接受的权衡：高质量的结果必须与复杂、劳动密集型的工作流程相关联。人工智能——尤其是对话式人工智能——是第一次将权衡转化为双赢。

对话式 AI 是第一次将权衡转化为双赢。

事实上，如果我们想象一下之前的二维图，我们可以看到人工智能有望进入一个尚未探索的象限：右上角，易用性和能力都很高。
在这里插入图片描述
对话式 AI 可以提升功能和体验的便利性。

5. 那么我们如何到达那里呢？

鉴于它的广泛性和对细微差别的敏感性，对话式交互长期以来一直躲避机器也就不足为奇了。尽管如此，自然语言处理 (NLP) 领域已将对对话的分析理解作为其主要任务之一。在整个研究人员社区的努力推动下，这是几代人的追求，我们的工作从他们那里受益匪浅——特别是对以下概念的严格、科学的理解：

自然语言。日常言语的自由形式，包括模棱两可甚至不正确的语法、隐含意义和俚语。
持久状态。不断回忆对话的历史，以及调用它的多种速记形式。例如，最初明确提及的想法可能随后被称为“它”或“那个”。
含糊不清。能够识别没有意义的陈述或问题，做出有根据的猜测来填补空白，并在必要时询问更多信息。
领域专业知识。特定领域（如医学、软件开发或市场营销）固有的行话、实践和期望。

尽管这些能力在人类身上往往是自然而然的，但每一种能力都代表了人工智能研究人员数十年的工作，而且还远未得到解决。但即使是渐进的进步也可以在我们寻求实现自然的、语言驱动的工作流程的过程中带来有意义的好处。事实上，最近的进展正在以前所未有的方式实现真实的、类似人类的交互，许多令人兴奋的例子表明这项技术可能很快就会触手可及。

6. 基础模型的突破力

大型语言模型 (LLM)，也称为基础模型，是支持这项技术的核心发展。这些大型神经网络在概念上与过去十年中因能够识别图像中的对象、翻译语言甚至合成真实声音而日益流行的神经网络相似。但它们在几个关键方面有所不同，这些方面极大地扩展了它们的潜力。

首先，它们很大。一些最大的例子具有数千亿个参数——微小的、相互关联的决策制定元素共同产生了它们的能力——比它们的前辈增加了一个数量级。这种提升提供了消耗前几年难以想象的训练数据语料库所需的能力，包括数十TB的文本量。
在这里插入图片描述
基础模型代表了规模的数量级增长。

但魔法真正始于他们使用该秤的方式。基础模型的特点是它们研究训练数据的范围空前广泛——例如，在大量文本中识别单词之间的关系，从明显到微妙。与之前可能会在到达句子末尾之前失去焦点的网络不同，基础模型可以在整个段落甚至页面中推断出一个词相对于另一个词的重要性。

在这里插入图片描述

注意力机制允许输入流中的单个词与大量相邻词关联，每个词的关联程度不同。

更强大的是他们自我训练的能力，避免了对人工整理数据集的需求，并避开了机器学习中最大的瓶颈之一。基础模型大量使用完形填空测试等技术，其中句子中的每个单词在被阅读之前都被屏蔽，让模型有机会利用其对文本关系不断增长的理解来做出有根据的猜测。随着时间的推移，它了解到，例如“it’s getting outside”这样的句子中遗漏的词更可能是“热”或“冷”，而不是“电视”或“蓝莓”。由于训练数据同时提供了问题和答案，因此无需手动管理，让模型能够以极快的速度自主学习。

这些品质结合在一起，使培训课程真正令人难以置信——例如，仔细检查维基百科上每篇文章的每一个词，甚至是整个公共互联网的基于文本的存储库 Common Crawl。就在那时，一些非凡的事情发生了：这些巨大的、高度专注的、经过大量训练的模型开发了一种在机器中从未见过的语言技巧。他们可以组成类似人类的表达作品，无论是完成句子还是撰写整篇文章。他们可以阅读文档并以引人注目的洞察力回答有关其内容的问题。有些甚至可以解释笑话。

由于所有这些原因，基础模型是朝着我们梦寐以求的对话界面迈出的令人鼓舞的一步。但即使处于最佳状态，它们也只是一个开始。尽管他们说话的方式常常很不可思议，但让谈话如此强大的许多因素仍然超出了他们的理解范围。

7. 超越基础模型：对话式 AI 的开放性问题

在未来的几年里，我们的研究将探索超越最大基础模型的能力，其中许多切入我们智能概念的核心。让我们谈谈一些。

7.1 知识表示

尽管基础模型所接触的训练数据种类繁多——通常广泛涵盖艺术、科学、文学、政治、历史等——人们普遍认为它们缺乏对基础主题的概念意识，甚至从本质上讲，他们最令人印象深刻的表达方式是一种统计模仿。这就是这样一个模型如何正确地回答像“谁在甲壳虫乐队中演奏贝斯？”这样的问题——利用一个复杂的相互关联的概率网络来正确地生成“保罗”和“麦卡特尼”这两个词——而不需要真正理解像 20 世纪流行文化这样的概念、摇滚乐器，甚至音乐本身。

人工智能将如何克服这一局限性是该领域最悬而未决的问题之一，回答这个问题的价值怎么强调都不为过。这可能只是意味着可以简单反应的模型——尽管通常具有惊人的深度——和可以真正推理的模型之间的区别。这样的人工智能会像我们一样理解单词背后的概念，从而解锁更深入、更敏锐的对话能力。

7.2 小样本学习

破解知识表示的问题可能会解锁一系列相关的进步，其中最有用的是小样本学习。虽然现代 AI 能够做出令人惊奇的事情，但通常需要大量的训练数据才能实现这一目标——如果没有大量预算、资源和专业知识，通常无法克服这一管理障碍。即使是简单的 AI 任务，这也是一个严重的进入壁垒，并且可能成为基于自然罕见事件（有时是幸运的）的应用程序的全面破坏者，例如预测汽车事故的新原因。

一个能够进行少样本学习的模型将足够智能，仅通过少量示例就可以推导出工作中的原理，就像人类可能的方式一样，从而在不需要数百、数千甚至数百万个额外示例的情况下概括它所学的内容通过蛮力连接点。它几乎可以使每项任务的学习速度更快、成本更低、效率更高，同时还能实现许多目前还不可能实现的应用。

7.3 迁移学习

与此相关的是，更好地掌握知识的基础知识将使模型能够将他们在一个领域的经验也应用到其他领域——这是一个当前被称为迁移学习的前沿话题. 近期的应用可能是渐进的，例如机器人优雅地将在一个工厂学到的例行程序转换到另一个工厂，可能具有不同的平面图，但在极限情况下，机器有一天可能会完全接受我们的隐喻和类比技巧，并且所有这意味着。考虑一个学生在压力下（可能甚至没有意识到）准备假期晚餐时运用在商学院学到的时间管理技术，数学老师参考饼图来教授分数课，甚至作曲家将节奏与动物的脚步声或和弦的音符与日落的音调。无论是诗意的还是文字的，我们将我们在生活的一个方面学到的东西运用到另一个方面的能力——通常是即时的——是人类智力的一个决定性特征。

7.4 主动学习

理想情况下，对话式人工智能也将参与主动学习：认识到自己在意识上的差距，并知道如何向用户询问所需的信息来弥补这些差距。这是一种远远超出当今大多数机器学习模型的习惯，这些模型倾向于以未经检验的自信来响应任何查询，而这往往是不应该的。相比之下，明天的人工智能必须采取谦逊的姿态，对知识的边界敏感并渴望扩展它们。这是一种美德，有助于使系统更安全、更透明，同时鼓励它们以更加多样化和有机的方式发展。

7.5 多模态表达

对于我们所有的语言谈话，重要的是要记住谈话的意义有多少超出了文字本身。例如，想象一下运动鞋设计师之间的头脑风暴会议，围坐在一张散布在桌子上的拼贴画周围——照片、草图和任何其他可能激发想法的东西。就其本身而言，谈话的文字记录可能会神秘地提及“这件上的条纹”或“那件上的花边”，这些都毫无意义。然而，当与视觉效果相结合时，通过将一种媒体的丰富性和另一种媒体的特殊性相结合，所发挥的想法就变得栩栩如生。诚然，对此类非文本内容的解释极大地扩大了对话式人工智能的挑战——在这种情况下，它需要像理解语言一样流利地理解图像，以及两者之间的关系——但它对任何领域工作流的影响肯定会让这些努力变得值得。想象一下，我们的鞋履设计师可以通过向 AI 驱动的绘图工具展示去年模型的图片，说“让我们从这个开始”并描述他们希望它如何演变来节省多少时间。

7.6 常识

最后，这些技术都可能在解决人工智能历史上最古老的问题之一：常识的获取方面发挥作用。尽管被认为是理所当然的，但几乎根据定义，常识是指我们通常认为我们的人类同胞拥有的知识体系；一张由不成文的规则和无法表达的期望组成的网络，很少被承认，但却是理解世界所必需的。尽管缺乏严格的定义或结构，而且广泛分布于各个领域以至于无法量化，但常识对于人类推理来说是如此的基础，以至于很难想象没有它就可以度过一天。例如，当请助理帮忙安排一次全体会议时，通常没有必要规定它不应该在午夜、周日或超级碗期间举行。

即使是当今最先进的人工智能，这种本能通常仍然无法企及。想一想语音助手是多么容易被意外触发，例如，没有意识到用户可能并不是想让他们的“80 年代流行金属”播放列表在烛光晚餐期间开始播放。这种失误在今天很烦人，但随着人工智能的作用越来越大，风险也会增加。想象一下，要求电子邮件助理整理您的收件箱，却发现它实现了其目标（从技术上讲），方法是删除每条未读邮件，或者使用无法理解灵感与抄袭之间区别的设计工具。像这样的例子提醒我们，虽然常识看似微不足道，但缺乏常识可能是毁灭性的。

8. 现实世界的应用：实践中的对话式人工智能

最后，在基础模型做得很好的许多事情中，它的多模态能力可能是我觉得最引人注目的——也就是说，那些在文本、图像、视频和其他形式的内容之间流畅转换的能力。一个很好的例子是 LAVIS 库，之所以这样命名是因为它能够同时理解语言和视觉。它为开发者提供了强大的功能，可以快速构建自然跨越不同媒体之间界限的智能工具。

在我们早期的一个演示中，我们使用 LAVIS 构建了一个工具来回答有关图像的问题——本质上是使用自然语言对视觉内容进行推理。给定一张自拍照，我们问“这张照片是在哪个国家拍摄的？” 并立即得到正确答案：“新加坡”。虽然自拍并不总能提供足够的背景信息来回答这样的问题，但这个特殊的例子在背景中突出了著名的滨海湾金沙——一个广为人知的建筑景点。令人印象深刻的是，LAVIS 确定了地标，理解了问题的性质，并利用两者之间的联系综合了一个有用的回答。

想到如何在实践中应用这种多模态智能，我们的脑海里浮现出这样的想法，而我们仍然只是触及表面。然而，电子商务是我们许多客户所钟爱的一种直接可能性。文本和图像之间的关系是在线零售的基础，无论是目录中商品的描述、客户关于质地、设计和颜色的问题，还是简单的搜索查询。LAVIS 可以让所有这些体验更深入、更高效：自动为服装照片生成标题，回答有关餐桌饰面的问题，或提供比以往更详细的搜索结果。

最后，还有视觉内容生成，其中图像不仅被分析，而且从头开始创建。与 CodeGen 一样，此类工具将自然语言描述转化为以前需要来之不易的专业知识和技术知识的结果，从而降低了进入技术门槛的创意门槛。近几个月来，人工智能生成的摄影和艺术品的突然出现占据了头条新闻，我们相信整个企业的应用程序都在等待探索。

尽管仍处于开发阶段，但我们相信，像这样的技术是一个截然不同的世界的一瞥——在这个世界中，各种专业人士都可以通过智能自动化他们工作的各个方面的工具来满足快速发展的行业的需求。成为常规，而新手可以自行解决全新的问题。

9. 道德与安全

如果不承认它提出的独特的伦理甚至安全问题，那么关于对话式人工智能的讨论就不会完整。由于语法的流动性和措辞的解释性，对话交流可以采用几乎无限的形式，这使得即使是最基本的对话人工智能也成为一个异常复杂的系统。验证这样一个系统——即确保它按预期运行，并确定在什么情况下它可能无法做到这一点——绝非易事。但这也是必不可少的；鉴于这项技术在我们的未来可能发挥的重要作用，它必须建立在透明和信任的基础上。

一方面，智能工具的发展与当下许多最紧迫的问题交织在一起，其中最主要的是偏见和公平问题。我们如何构建对话式人工智能，以同样的效率和尊重对待整个世界的用户？我们如何教它优雅地驾驭全球鸿沟——不仅是语言本身，还有围绕它的文化、传统和社会期望的各个层面？毕竟，单词不存在于真空中，真正的理解不仅仅取决于它们的字典定义。对话式人工智能必须像我们一样认识到这一点。

与此密切相关且同样紧迫的是安全问题。考虑到语言的主观性，有时甚至连说话的人都会感到困惑，我们需要强大的基准和验证指标来量化 AI 准确和可预测地解析它的能力，以及定义明确的保护措施以防止不必要的行动过程。与对话式工作流的可能性一样令人兴奋，我们必须同样热衷于尽量减少它们造成伤害的可能性，即使是无意的。

没有单一的解决方案可以解决所有这些问题，但即使是现在，也可以朝着正确的方向采取有意义的步骤。一个是采用日益流行的多利益相关方方法，其中召集了多元化且具有代表性的贡献者小组，为该技术的开发、测试和部署带来更广泛的视角。另一个是支持对可解释性的研究：人工智能可以进行一种内省，揭示其预测、推论和决策背后的原因。这些话题多年来一直被热烈讨论，我乐观地认为对话式人工智能的发展将刺激这两个方面的进步。

最后，还有一个哲学问题笼罩着整个人工智能的未来，尤其是对话式人工智能：人类用户的最终角色。无论土星之旅变得多么快速、高效和自动化，最重要的因素始终是它为乘客带来的好处。因此，虽然船上的仪表板可能会被简化，并且有一天会完全消失——连同我们应用程序和设备的传统界面——但我们必须保留我们的控制感。

值得庆幸的是，可以说对话式人工智能特别适合兑现这一承诺，因为它本质上依赖于人类的参与。远不止让我们“了解情况”，如果没有我们的想法、愿望和贡献的输入，自然语言界面就无法运行，对这些的理解直接转化为行动。从这个意义上说，我相信它们能够像其他技术一样赋予我们力量。

10. 结论

人工智能正在为现代世界中一些最棘手的问题提供一种全新的解决方案。它扩展了我们消费信息的能力，提高了我们的生产力，揭示了数据中隐藏的意义，甚至增强了我们的艺术性。但要真正获得其价值，必须通过如此直观的体验来访问这些功能，这样我们才能毫不费力地表达想法、协同工作并从头到尾保持控制。

对话式人工智能就是这种体验。它通过我们已经在日常生活中使用的自然语言提供大规模机器学习的非凡力量，几乎不需要我们任何东西，即使它让变革能力触手可及——力量和可访问性的最终平衡。通过将我们从琐碎的任务中解放出来，剩下的就是挖掘我们人性的工作：我们的愿景、我们的创造力以及造就我们每个人的独特视角。

参考

https://blog.salesforceairesearch.com/age-of-conversational-ai/

翻译: 如果你能说，你就能做到：对话式人工智能时代 If You Can Say It, You Can Do It: The Age of Conversational AI