认知智能大模型未来还需要攻克哪些难题？

7月23-24日，2023中国人工智能大会（CCAI 2023）在福州举办，11位中外院士携手140余位产学界专家打造了8场主报告和15场专题论坛，吸引了超2000万人次观会。科大讯飞副总裁、研究院院长刘聪参与“大模型与自然语言处理”专题论坛发表主题演讲，围绕大模型的发展启示、大模型未来发展需要攻克的难题等进行了分享。

站在未来通用人工智能发展角度，认知智能大模型是核心基础

认知智能大模型所带来的技术和产业变革，相信大家都有所了解和感受。认知智能大模型所带来的“智能涌现”也给予我们宝贵的技术启示：

深度神经网络建模能力的上限非常高

GPT系列是基于一个统一的深度神经网络大模型来完成各种复杂任务。只要模型够大、训练够多，大模型就有望涌现出和人类智慧接近的机器智能，目前来看也是迈向通用人工智能的有效手段之一。

“纯文字世界”的对话式AI系统是一种很好的任务设计

语言是很难处理的。词语和句子的语义本身表现为相对稳定的“向量”和“函数”，文本输入刺激产生文本输出的过程类似于一个明确但复杂的函数，过程中想要定义、标注所谓函数式的变化非常困难。

语言也是所有对话式AI任务的核心。语言能够更准确、抽象、可控地表达各种含义，相较于其他载体更符合人类的思维方式，形成沟通闭环，能够自洽。

站在未来通用人工智能发展的角度，认知智能大模型是核心基础

从认知智能大模型，到大家越来越关注的多模态智能大模型，其中认知智能大模型是通用人工智能的大脑。以其为核心，不论是多模理解还是多模生成，语音、图像、视频等其他模态都对齐统一到语义空间中，再结合插件、工具等实现多模态协同涌现。

认知智能大模型未来仍需攻克的四大难题

虽然认知智能大模型展现了巨大的潜力，但仍然存在不少难题亟待攻克。

大模型的科学客观实地问题

大模型没有所谓的“科学”、“客观”。例如我们询问大模型一个问题后得到了正确的回答，但只要我们反馈大模型“答错了”，大模型就会顺着说自己答错了。

“科学”指的是在客观世界里能够复现，但大模型并没有这样的概念，如何告知大模型哪些是科学客观的训练语料尤为关键。

大模型的自进化和个性化问题

目前，大模型已具备临时修正答案的能力，但是很难分辨出哪些是新知识、错误的反馈还是个性化的信息，所以也难以实现快速持续的自进化。

大模型的个性化是一个比较理想化的情况，想要实现个性化成本极高。让大模型从每次对话中识别出应当吸收或者更新的知识，剔除不需要的内容，这也是个难题。

多模态及具身智能训练问题

多模态具身智能想要实现，是不是让AI看尽所有的视频就可以？基于物理模拟器的强化学习，是不是让带有各种传感器的机器人跑遍全世界就行？

在多模态领域，大家比较熟悉的文生图、文本生成视频已经做到了很好的效果。但客观分析来说仍然是以视觉为主，语义只是支撑，这和具身智能要实现的理解真实世界并不一样。

首先，大模型当前可能还不具备通过画面感记忆去联想推理的能力。举个例子，如果有个烟头掉到了小狗身上，人类思维的第一反应是小狗会感到疼痛、惊慌，甚至跳起、大叫；但如果让大模型根据“烟头掉到小狗身上”生成作画，图画里的小狗则显得平静自然。

其次，人类能够基于具身实践的知识学习，大模型是否能做到尚不可知。常识推理方面我们经常举一个例子：“爸爸举不起他的儿子，因为他很重。请问谁重”？“爸爸举不起他的儿子，因为他很虚弱。请问谁虚弱？”大模型能够根据这些描述生成图画，但并不能理解这背后的常识。

两个智慧黑洞交叉研究问题

我们认为迈向通用人工智能有三种潜在的实现路径：类脑智能、深度神经网络大模型和博弈智能。其中，深度神经网络当前进展最好，持续提升的机会也最大，它与类脑智能、博弈智能均有交叉。
深度神经网络大模型和类脑智能在原理层上类似、都是“黑洞”，因此可以交叉探究“智能涌现”的现象和原理；博弈智能的载体可能仍然是深度神经网络大模型。无论是哪一种路径实现通用人工智能，深度神经网络大模型都是必不可少的角色。