文章目录

正态分布
范数
梯度
矩阵和向量
偏差和方差
- 偏差（bias）
- 方差（varience）
概率知识

正态分布

$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

μ：服从正态分布的随机变量的均值

σ^2：此随机变量的方差

正态分布记作N（μ,σ2）

标准正态分布：μ=0，σ=1

$f(x)=\frac{1}{\sqrt{2 \pi}} e^{(-\frac{x^2}{2})}$
在这里插入图片描述

高斯函数

一维：

$f(x)=ae^{-\frac{(x-b)^2}{2c^2}}$

是一种正态分布
在这里插入图片描述

二维：

$f(x,y)=A·exp(-(\frac{(x-x_0)^2}{2\sigma^2_x}+\frac{(y-y_0)^2}{2\sigma^2_y}))$
在这里插入图片描述
分析：

高斯函数中的参数有

ksize 高斯函数的大小

sigma 高斯函数的方差

center 高斯函数尖峰中心点坐标

bias 高斯函数尖峰中心点的偏移量，用于控制截断高斯函数

范数

什么是范数？

距离的定义是一个宽泛的概念，只要满足非负、自反、三角不等式就可以称之为距离。

范数是一种强化了的距离概念，它在定义上比距离多了一条数乘的运算法则。

有时候为了便于理解，可以把范数当作距离来理解。

范数包括向量范数和矩阵范数

向量范数表征向量空间中向量的大小

向量空间中的向量都是有大小的，这个大小如何度量，就是用范数来度量的，不同的范数都可以来度量这个大小，就好比米和尺都可以来度量远近一样；

矩阵范数表征矩阵引起变化的大小

运算AX=B，可以将向量X变化为B，矩阵范数就是来度量这个变化大小的。

这里简单地介绍以下几种向量范数的定义和含义

最常用的应该是：L0和L1

L-P范数

与闵可夫斯基距离的定义一样，L-P范数不是一个范数，而是一组范数，其定义如下：
$L_p=||x||_p=\sqrt[p]{\sum_{i=1}^nx_i^p}, \quad x=(x_1,x_2,...,x_n)$
根据P 的变化，范数也有着不同的变化，一个经典的有关P范数的变化图如下：

在这里插入图片描述
上图表示了p从无穷到0变化时，三维空间中到原点的距离（范数）为1的点构成的图形的变化情况。

以常见的L-2范数（p=2）为例，此时的范数也即欧氏距离，空间中到原点的欧氏距离为1的点构成了一个球面。

实际上，在0时，Lp并不满足三角不等式的性质，也就不是严格意义下的范数。以p=0.5，二维坐标(1,4)、(4,1)、(1,9)为例，
$\sqrt[0.5]{1+\sqrt{4}}+\sqrt[0.5]{1+\sqrt{4}}<\sqrt[0.5]{1+\sqrt{9}}$
因此这里的L-P范数只是一个概念上的宽泛说法。

L0范数

当P=0时，也就是L0范数

由上面可知，L0范数并不是一个真正的范数，它主要被用来度量向量中非零元素的个数。

用上面的L-P定义可以得到的L-0的定义为：
$||x||_0=\sqrt[0]{\sum_{i=1}^nx_i^0}$
这里就有点问题了，我们知道非零元素的零次方为1，但零的零次方，非零数开零次方都是什么鬼，很不好说明L0的意义，所以在通常情况下，大家都用的是：
$||x||_0=\#(i|x_i \neq 0)$
表示向量x中非零元素的个数。

对于L0范数，其优化问题为：
$min||x||_0 \\ s.t. \quad Ax=b$
在实际应用中，由于L0范数本身不容易有一个好的数学表示形式，给出上面问题的形式化表示是一个很难的问题，故被人认为是一个NP难问题。所以在实际情况中，L0的最优问题会被放宽到L1或L2下的最优化。

L1范数

L1范数是我们经常见到的一种范数，它的定义如下：
$||x||_1=\sum_{i=1}^n|x_i|$
表示向量x中非零元素的绝对值之和。

L1范数有很多的名字，例如我们熟悉的曼哈顿距离、最小绝对误差等。

使用L1范数可以度量两个向量间的差异，如绝对误差和（Sum of Absolute Difference）：
$SAD(x_1,x_2)=\sum_i^n|x_{1i}-x_{2i}|$
对于L1范数，它的优化问题如下：
$min||x||_1 \\ s.t. \quad Ax=b$
由于L1范数的天然性质，对L1优化的解是一个稀疏解，因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏，去掉一些没有信息的特征，例如在对用户的电影爱好做分类的时候，用户有100个特征，可能只有十几个特征是对分类有用的，大部分特征如身高体重等可能都是无用的，利用L1范数就可以过滤掉。

L2范数

L2范数是我们最常见最常用的范数了，我们用的最多的度量距离欧氏距离就是一种L2范数，它的定义如下：
$||x||_2=\sqrt{\sum_{i=1}^nx_i^2}$
表示向量元素的平方和再开平方。

像L1范数一样，L2也可以度量两个向量间的差异，如平方差和（Sum of Squared Difference）:
$SSD(x_1,x_2)=\sum_{i=1}^n(x_{1i}-x_{2i})^2$
对于L2范数，它的优化问题如下：
$min||x||_2 \\ s.t. \quad Ax=b$
L2范数通常会被用来做优化目标函数的正则化项，防止模型为了迎合训练集而过于复杂造成过拟合的情况，从而提高模型的泛化能力。

范数

当
$P=\infty$
，也就是范数
$L_\infty$
，它主要被用来度量向量元素的最大值，与L0一样，通常情况下表示为
$||x||_\infty=max(|x_i|)$
来表示
$L_\infty$

梯度

什么是梯度？

方向导数：一点上，所有方向的导数的集合

梯度：变化最快的方向导数。

符号

函数f的梯度为： $\nabla f$ 或 $\quad f$ ，其中 $\nabla$ nabla表示向量微分算子
$\nabla=\frac{\partial}{\partial x}\bar i + \frac{\partial}{\partial y}\bar j + \frac{\partial}{\partial z}\bar k$
梯度在直角坐标系中表示为：
$\nabla f=(\frac{\partial f}{\partial x}+\frac{\partial f}{\partial y}+\frac{\partial f}{\partial z})=\frac{\partial f}{\partial x}\bold i + \frac{\partial f}{\partial y}\bold j + \frac{\partial f}{\partial z}\bold k$
梯度的模为：
$|gradf(x,y)|=\sqrt{(\frac{\partial f}{\partial x})^2+(\frac{\partial f}{\partial y})^2}$

公式

与导数公式一样

矩阵和向量

矩阵

二维数组。

大写字母表示A

矩阵特性

不满足交换律：AxB不等于BxA

满足结合律：AxBxC = (AxB)xC = Ax(BxC)
$AA^{-1}=A^{-1}A=I$
只有方阵才有逆矩阵
$B=A^T$

$B_{ij}=A_{ji}$

矩阵的迹：trace(A)，主对角线上各元素的总和

行列式：det(A) 或 |A|

特殊矩阵

正交矩阵

$AA^T=E或A^TA=E$

性质：

A的各行各列都是单位向量，且两两相交。
|A|为1或-1
$A^T=A^{-1}$
正交矩阵通常用Q表示

矩阵的迹

trace(A)，主对角线上各元素的总和

性质：

设N阶矩阵A

矩阵A的迹等于所有主对角元素的和
矩阵A的迹等于A的特征值的总和
trace(AB) = trace(BA) ，此处A和B不一定是方阵，只需要AB为方阵即可
tr(ABC) = tr(BC A) = tr(C AB) = …
trace(mA+nB)=m trace(A)+n trace(B)

向量

向量：nx1的矩阵。（n维向量）

小写字母表示a

向量乘法

数量积、点积、内积：
$a·b=|a||b|cos\theta \\ a·b=(a_x,a_y,a_z)·(b_x,b_y,b_z)=a_xb_x+a_yb_y+a_zb_z \\ 结果是一个数$
如果假设 B 的模为 1，即让 $∣ B ∣ = 1$ ，那么就变成了：
$A \cdot B = ∣ A ∣ c o s (a)$
也就是说，A 与 B 的内积值等于 A 向 B 所在直线投影的标量大小。

向量积、叉积、外积：
$\times b \\ |c|=|a||b|sin\theta \\ c的方向既垂直于a，又垂直于b，指向符合右手系$

特征值、特征向量

定义：

设A为n阶方阵，如果存在数λ和非0向量x

使得 Ax=λx

则：λ是A的一个特征值，x是A对应λ的特征向量

（A-λE）x=0称为对应λ的特征子空间

|A-λE|称为A的特征多项式

求解：

根据|A-λE|=0就可以求解出λ。
在这里插入图片描述
特征值为-1,2,2,

求特征向量：λ代入（A+λE），化简
在这里插入图片描述

性质：

$A^2x=A(Ax)=A(\lambda x)=\lambda(Ax)=\lambda^2x$
$A^kx=\lambda^kx$
$A^{-1}x=1/ \lambda x$

相似矩阵

如果一个矩阵B可以表示成： $B=M^{-1}AM$

我们就说B和A是相似的，相似矩阵拥有相同的特征值

矩阵的迹和行列式

矩阵的迹等于特征向量的和：
$tr(A)=\lambda_1+\lambda_2+...+\lambda_n$
矩阵的行列式等于特征向量的积：
$det(A)=\lambda_1\lambda_2...\lambda_n$

特征分解：

对于一般的nxn矩阵，可以分解成：
$A=Q\Lambda Q^{-1}$
其中：

Q是nxn的方阵，且其第i列为A的特征向量 $q_i$
$\Lambda$ 是对角矩阵，其对角线上的元素为对应的特征值，即： $\Lambda _{ii}=\lambda_i$

只有可对角化矩阵才可以做特征分解。

矩阵求导

如果 $a = W h$ ，a、h为向量，W为矩阵

则
$\frac{\partial a}{\partial h}=W^T \\ \frac{\partial a}{\partial W}=h^T$

偏差和方差

偏差（bias）

低偏差：可以更高的吻合训练集

高偏差：不能很好的吻合训练数据，欠拟合

方差（varience）

低方差：在不同的集合损失都很小

高方差：泛化能力太差，过拟合

概率知识

似然、概率

在这里插入图片描述

期望

所有结果和结果概率相乘之后的累加。也称均值，符号为E

期望

如：变量X，X取x的概率为P(X=x)

则
$E(X)=\sum{xP(X=x)}$

条件期望

变量X，条件Y=y，在Y=y条件下X取x的概率为P(X=x|Y=y)
$\sum{xP(X=x|Y=y)}$

指示函数I

机器学习算法推导当中，有的时候能看到一个函数 $I$ ，这个函数代表什么意思？

$I$ 代表的是指示函数（indicator function）。

它的含义是：

当输入为True的时候，输出为 1
当输入为False的时候，输出为 0。

例如： $I(f(x_i)\neq y_i)$ ，表示当 $f(x_i)$ 不等于 $y_i$ 的时候输出为1，否则输出为0。

仍然在持续更新总结中。。。

【机器学习】机器学习中的数学问题（持续更新ing）