大佬们纷纷涌入，大模型到底怎么建？

创新工场的董事长兼首席执行官李开复宣布自己将亲自筹备新公司，名为“Project AI 2.0”，专注于人工智能大模型领域。该公司的目标是打造全球化的AI 2.0全新平台和AI-first生产力应用，李开复希望能够号召世界级人才加入。他认为，AI已经迈入2.0的拐点，AI 2.0将会带来平台式的变革，改写用户的入口和界面，催生新一代AI 2.0应用的研发和商业化。已有多位具有全球大厂带领大型团队的技术管理人才确认加入意向。

就行业层面而言，李开复也是“姗姗来迟”的入局者。此前，前美团联合创始人王慧文公布了AI创业公司“光年之外”的“英雄帖”，王兴表示支持并入股，原搜狗CEO王小川也发微博表示需要中国自己的OpenAI。人工智能行业领军人物的加入必将给国内行业带来更多资金、资源以及热度，但国内企业如何跨越算力障碍与落地应用困难，仍是需要持续投入与摸索的领域。

大型语言模型（LLMs）已经成为了互联网的风暴。2022年，OpenAI的ChatGPT推出仅五天后就达到了100万用户，这要归功于它拥有1750亿参数的GPT-3语言模型所具备的广泛功能。然而，开发一个大型语言模型需要相当的计算机科学知识、时间和资源。

大型语言模型是一种机器学习模型，它在大规模文本数据集上进行训练，以生成各种自然语言处理（NLP）任务的输出，例如文本生成、问题回答和机器翻译。大型语言模型通常基于深度学习神经网络，例如Transformer架构，并在海量文本数据上进行训练，通常涉及数十亿个单词。较大的模型，例如Google的BERT模型，是使用来自各种数据源的大型数据集进行训练，从而使它们能够生成许多任务的输出。

大型语言模型的架构，例如OpenAI的GPT-3和GPT-4，基于一种称为Transformer架构的深度学习类型。它由几个主要组件组成，例如输入序列，该序列首先被转换为称为嵌入的密集向量表示，该嵌入捕捉输入中单词之间的关系。Transformer块架构的核心组件是多头自注意机制，它允许模型关注输入序列的不同部分以捕捉其关系和依赖性。自注意机制之后，输出被馈送到一个前馈神经网络中，该神经网络执行非线性变换以生成新的表示。为了稳定训练过程，每层的输出被规范化，并添加了残差连接，以允许输入直接传递到输出，从而使模型学习哪些输入部分最重要。这些组件重复多次以形成深度神经网络，该网络可以处理长文本序列，并为各种语言任务生成高质量的输出，例如文本生成、问题回答和翻译。

开发人员继续通过实现新技术来改善大型语言模型的性能，例如知识蒸馏和微调。训练大型语言模型有四个步骤：收集训练数据集、清理和准备数据、配置Transformer神经网络和使用监督学习来训练模型。由于模型和数据的大小都很大，因此需要巨大的计算能力来训练模型。为了减少训练时间，使用一种称为模型并行的技术。通过将模型分成较小的部分，每个部分可以并行训练，从而比在单个GPU或处理器上训练整个模型更快地进行训练过程。常见的模型并行包括数据并行和管道并行。

从头开始训练大型语言模型需要重要的投资。更经济的选择是微调现有的语言模型，以使其适合您的特定用例。训练后，模型在测试数据集上进行评估以测量其性能。根据评估结果，模型可能需要通过调整其超参数、改变架构或训练其他数据来改进其性能进行微调。

LLM的训练包括两个部分：预训练和特定任务训练。预训练是训练的一部分，使模型学习语言内部的通用规则和依赖关系，这需要大量的数据、计算能力和时间来完成。这里讨论的大型语言模型需要具有多个AI芯片的超级计算机系统。一旦加上维护和电力成本，大型语言模型的预训练是一笔数百万级别的投资。

但是好消息是摩尔定律可能来帮忙：预计AI培训成本每年下降60％。 2020年培训GPT-3的成本约为500万美元。到2030年，训练一个达到相同性能水平的模型可能仅需要约500美元。

关注原文

原文

AI好书推荐

AI日新月异，但是万丈高楼拔地起，离不开良好的基础。您是否有兴趣了解人工智能的原理和实践？不要再观望！我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。由该领域的领先专家撰写，这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。无论您是初学者还是经验丰富的 AI 从业者，本书都能满足您的需求。那为什么还要等呢？

人工智能原理与实践全面涵盖人工智能和数据科学各个重要体系经典

北大出版社，人工智能原理与实践人工智能和数据科学从入门到精通详解机器学习深度学习算法原理