机器学习领域中各学派划分（符号主义、频率主义、贝叶斯主义、连接主义）

前言

如果你对这篇文章感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

在机器学习领域中，算法数量可谓是数不胜数，若只关注每个算法本身，将各个算法独立地进行看待，则将眼花缭乱，难以把握算法背后的核心思想。

事实上，虽然机器学习领域中算法数量十分庞大，但其背后的核心思想，即隐藏的世界观认知是有限的。因此在学习机器学习的过程中，我们首先需要了解该领域中各学派之间的关系，随后在学习算法时分析其涉及了哪些流派的思想，并在之后自己设计算法时，将这些思想有机地结合起来。

具体来说，若从最顶层开始细分，那么我们首先需要考虑的是「这个世界究竟应该从离散的角度来看待，还是从连续的角度来看待」，若使用离散的角度来看待，则对应「符号主义」；若从连续的角度来看待，则分别对应「连接主义」、「频率主义」与「贝叶斯主义」，其中后两者同时是统计学中的两大主流学派。

整体关系如下所示，后文再分别对其进行详细介绍：

「离散的角度」-「符号主义」
- 代表性算法领域 1：决策树，涉及到的学科知识：信息论；
- 代表性算法领域 2：规则学习 (Rule)，涉及到的学科知识：数理逻辑；
「连续的角度」
- 「频率主义」
  - 代表性算法领域：支持向量机 (SVM)，涉及到的学科知识：统计学；
- 「贝叶斯主义」
  - 代表性算法领域：贝叶斯，例如朴素贝叶斯、概率图等，涉及到的学科知识：统计学、概率论；
- 「连接主义」
  - 代表性算法领域：神经网络，涉及到的学科知识：泛函分析。

符号主义 (Symbolism)

在人工智能领域早期发展阶段，「符号主义」受大多数研究人员认可，其核心思想为：

人类认知和思维的基本单元是符号，认知过程就是在符号表示上的一种运算；
也就是说人是一个物理符号系统，计算机也是一个物理符号系统，因此我们可以用计算机来模拟人的智能行为，即用计算机的符号操作来模拟人的认知过程。

因此当时「符号主义」的研究人员主要目的为：明确地向计算机教授世界知识。他们认为知识可以由一组规则表示，计算机程序可以使用逻辑来操纵这些知识，即「将知识表示为符号，然后使用逻辑推理和规则来处理这些符号以获得新的知识」。例如「符号主义」先驱纽厄尔和赫伯特西蒙认为：如果一个符号系统有足够的结构化事实和前提，那么聚合的结果最终会产生通用的智能。

基于「符号主义」，产生了大量代表性算法：

专家系统：专家系统是一种基于规则的符号主义算法，它使用一组 “如果…那么…” 规则来推断出结论。这些规则通常由领域专家编写，可以用于解决特定领域中的问题；
基于逻辑的学习：基于逻辑的学习是一种使用逻辑规则来表示知识和学习的方法。它将知识表示为逻辑表达式，并使用逻辑推理来学习和推断新知识；
决策树：决策树是一种基于树形结构的分类算法，它使用一系列规则和决策节点来判断输入数据的类别。每个节点表示一个决策，它将输入数据分成两个或多个子集，并在子集之间递归执行相同的过程，直到叶节点被标记为一个类别。
归纳逻辑编程：归纳逻辑编程是一种将逻辑规则和机器学习技术结合起来的方法。它使用归纳逻辑编程（ILP）来自动推导逻辑规则，并使用这些规则来解决特定领域中的问题。

「符号主义」发挥了重要作用，但也存在一些限制，例如：其需要先定义一组符号和规则，这可能会导致无法处理复杂和模糊的情况。此外，符号主义还需要大量的人工知识工程，这使得符号主义在某些领域中变得不可行。

连接主义 (Connectionism)

近年来，「连接主义」所代表的神经网络模型得到广泛推崇，但在上个世纪「符号主义」大行其道之时，「连接主义」还处于无人问津的阶段，多少有些「三十年河东，三十年河西」的意味。

具体来说，「连接主义」的核心思想是「模仿神经系统中的信息处理方式，通过构建一些简单的神经元模型来实现智能的学习和决策」。

在「连接主义」中，通常使用人工神经网络（Artificial Neural Network，ANN）来建模，其中 ANN 由许多神经元组成，每个神经元都具有输入、输出和激活函数。神经元之间通过权重连接，这些权重可以通过训练来调整。

统计学 (Statistics)

在统计学中，有两大主义，即「频率主义 (Frequentism)」与「贝叶斯主义 (Bayesianism)」，亦称为两大学派，即「频率学派」与「贝叶斯学派」。两个学派在统计推断的方法上各有不同，而这些表明上的不同主要来自其背后的不同的世界观认知。

从表面上看，「频率主义」将模型参数看成「未知的常量」，通常用极大似然估计（MLE）的方法求解具体参数：
$\text{MLE:}\quad \theta=\mathop{\arg\max}\limits_{\theta} P(\boldsymbol{x}\mid \theta).$

与之对应的「贝叶斯主义」则将模型参数看成「未知的变量，其本身有一个分布」，因此通常先假定参数服从一个先验分布，再用观测到的数据来计算参数的后验分布，并使用最大化后验概率（MAP）的方法求解参数（通过贝叶斯公式进行展开）：
$\text{MAP:}\quad \theta=\mathop{\arg\max}\limits_{\theta}P(\theta\mid \boldsymbol{x})=\mathop{\arg\max}\limits_{\theta}P(\boldsymbol{x}\mid \theta)P(\theta).$

贝叶斯公式如下所示：
$P(\theta\mid \boldsymbol{x})=\frac{P(\boldsymbol{x}\mid \theta)P(\theta)}{P(\boldsymbol{x})}$

深究算法背后的世界观认知，我们可以发现「频率主义」认为模型参数是客观存在的，它就在那里，如果存在一个上帝，我们就可以得到那个精准无误的参数值，且随着数据量的不断增加，我们可以不断地去逼近那个参数。

与之对比，「贝叶斯主义」认为一切概率都是主观的（需要主观确定参数的先验分布，即 $P(\theta)$ ），因此将参数看成是一个带有概率分布的变量，不存在客观存在的概率。

「频率主义」将先验分布视为一种偏见，他们只相信自己所见的，而无视先验分布，或先验知识。因此他们经常攻击「贝叶斯主义」中的先验分布，即「先验分布难以获取，过于主观」。

与此同时，「贝叶斯主义」则认为如何先验分布来自于我之前的经验，其本身有很大的意义，且先验分布正确与否并没有那么重要，我们可以不断对先验分布进行假设，当现实状态与已有先验知识不相符时（根据收集到的数据估计的参数后验概率与先验概率差距过大），则可以对目前的信念（参数先验）进行怀疑，进而对先验知识进行修正。