【机器学习】机器学习中的数学问题(持续更新ing)

正态分布

f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π σ1e2σ2(xμ)2

μ:服从正态分布的随机变量的均值

σ^2:此随机变量的方差

正态分布记作N(μ,σ2)

标准正态分布:μ=0,σ=1

f ( x ) = 1 2 π e ( − x 2 2 ) f(x)=\frac{1}{\sqrt{2 \pi}} e^{(-\frac{x^2}{2})} f(x)=2π 1e(2x2)
在这里插入图片描述

高斯函数

一维:

f ( x ) = a e − ( x − b ) 2 2 c 2 f(x)=ae^{-\frac{(x-b)^2}{2c^2}} f(x)=ae2c2(xb)2

是一种正态分布
在这里插入图片描述

二维:

f ( x , y ) = A ⋅ e x p ( − ( ( x − x 0 ) 2 2 σ x 2 + ( y − y 0 ) 2 2 σ y 2 ) ) f(x,y)=A·exp(-(\frac{(x-x_0)^2}{2\sigma^2_x}+\frac{(y-y_0)^2}{2\sigma^2_y})) f(x,y)=Aexp((2σx2(xx0)2+2σy2(yy0)2))
在这里插入图片描述
分析:

高斯函数中的参数有

ksize 高斯函数的大小

sigma 高斯函数的方差

center 高斯函数尖峰中心点坐标

bias 高斯函数尖峰中心点的偏移量,用于控制截断高斯函数

范数

什么是范数?

距离的定义是一个宽泛的概念,只要满足非负、自反、三角不等式就可以称之为距离。

范数是一种强化了的距离概念,它在定义上比距离多了一条数乘的运算法则。

有时候为了便于理解,可以把范数当作距离来理解

范数包括 向量范数和矩阵范数

向量范数表征向量空间中向量的大小

向量空间中的向量都是有大小的,这个大小如何度量,就是用范数来度量的,不同的范数都可以来度量这个大小,就好比米和尺都可以来度量远近一样;

矩阵范数表征矩阵引起变化的大小

运算AX=B,可以将向量X变化为B,矩阵范数就是来度量这个变化大小的。

这里简单地介绍以下几种向量范数的定义和含义

最常用的应该是:L0和L1

L-P范数

与闵可夫斯基距离的定义一样,L-P范数不是一个范数,而是一组范数,其定义如下:
L p = ∣ ∣ x ∣ ∣ p = ∑ i = 1 n x i p p , x = ( x 1 , x 2 , . . . , x n ) L_p=||x||_p=\sqrt[p]{\sum_{i=1}^nx_i^p}, \quad x=(x_1,x_2,...,x_n) Lp=xp=pi=1nxip ,x=(x1,x2,...,xn)
根据P 的变化,范数也有着不同的变化,一个经典的有关P范数的变化图如下:

在这里插入图片描述
上图表示了p从无穷到0变化时,三维空间中到原点的距离(范数)为1的点构成的图形的变化情况。

以常见的L-2范数(p=2)为例,此时的范数也即欧氏距离,空间中到原点的欧氏距离为1的点构成了一个球面。

实际上,在0时,Lp并不满足三角不等式的性质,也就不是严格意义下的范数。以p=0.5,二维坐标(1,4)、(4,1)、(1,9)为例,
1 + 4 0.5 + 1 + 4 0.5 < 1 + 9 0.5 \sqrt[0.5]{1+\sqrt{4}}+\sqrt[0.5]{1+\sqrt{4}}<\sqrt[0.5]{1+\sqrt{9}} 0.51+4 +0.51+4 <0.51+9
因此这里的L-P范数只是一个概念上的宽泛说法。

L0范数

当P=0时,也就是L0范数

由上面可知,L0范数并不是一个真正的范数,它主要被用来度量向量中非零元素的个数。

用上面的L-P定义可以得到的L-0的定义为:
∣ ∣ x ∣ ∣ 0 = ∑ i = 1 n x i 0 0 ||x||_0=\sqrt[0]{\sum_{i=1}^nx_i^0} x0=0i=1nxi0
这里就有点问题了,我们知道非零元素的零次方为1,但零的零次方,非零数开零次方都是什么鬼,很不好说明L0的意义,所以在通常情况下,大家都用的是:
∣ ∣ x ∣ ∣ 0 = # ( i ∣ x i ≠ 0 ) ||x||_0=\#(i|x_i \neq 0) x0=#(ixi=0)
表示向量x中非零元素的个数。

对于L0范数,其优化问题为:
m i n ∣ ∣ x ∣ ∣ 0 s . t . A x = b min||x||_0 \\ s.t. \quad Ax=b minx0s.t.Ax=b
在实际应用中,由于L0范数本身不容易有一个好的数学表示形式,给出上面问题的形式化表示是一个很难的问题,故被人认为是一个NP难问题。所以在实际情况中,L0的最优问题会被放宽到L1或L2下的最优化。

L1范数

L1范数是我们经常见到的一种范数,它的定义如下:
∣ ∣ x ∣ ∣ 1 = ∑ i = 1 n ∣ x i ∣ ||x||_1=\sum_{i=1}^n|x_i| x1=i=1nxi
表示向量x中非零元素的绝对值之和。

L1范数有很多的名字,例如我们熟悉的曼哈顿距离、最小绝对误差等。

使用L1范数可以度量两个向量间的差异,如绝对误差和(Sum of Absolute Difference):
S A D ( x 1 , x 2 ) = ∑ i n ∣ x 1 i − x 2 i ∣ SAD(x_1,x_2)=\sum_i^n|x_{1i}-x_{2i}| SAD(x1,x2)=inx1ix2i
对于L1范数,它的优化问题如下:
m i n ∣ ∣ x ∣ ∣ 1 s . t . A x = b min||x||_1 \\ s.t. \quad Ax=b minx1s.t.Ax=b
由于L1范数的天然性质,对L1优化的解是一个稀疏解,因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏,去掉一些没有信息的特征,例如在对用户的电影爱好做分类的时候,用户有100个特征,可能只有十几个特征是对分类有用的,大部分特征如身高体重等可能都是无用的,利用L1范数就可以过滤掉。

L2范数

L2范数是我们最常见最常用的范数了,我们用的最多的度量距离 欧氏距离 就是一种L2范数,它的定义如下:
∣ ∣ x ∣ ∣ 2 = ∑ i = 1 n x i 2 ||x||_2=\sqrt{\sum_{i=1}^nx_i^2} x2=i=1nxi2
表示向量元素的平方和再开平方。

像L1范数一样,L2也可以度量两个向量间的差异,如平方差和(Sum of Squared Difference):
S S D ( x 1 , x 2 ) = ∑ i = 1 n ( x 1 i − x 2 i ) 2 SSD(x_1,x_2)=\sum_{i=1}^n(x_{1i}-x_{2i})^2 SSD(x1,x2)=i=1n(x1ix2i)2
对于L2范数,它的优化问题如下:
m i n ∣ ∣ x ∣ ∣ 2 s . t . A x = b min||x||_2 \\ s.t. \quad Ax=b minx2s.t.Ax=b
L2范数通常会被用来做 优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

范数


P = ∞ P=\infty P=
,也就是范数
L ∞ L_\infty L
,它主要被用来度量向量元素的最大值,与L0一样,通常情况下表示为
∣ ∣ x ∣ ∣ ∞ = m a x ( ∣ x i ∣ ) ||x||_\infty=max(|x_i|) x=max(xi)
来表示
L ∞ L_\infty L

梯度

什么是梯度?

方向导数:一点上,所有方向的导数的集合

梯度:变化最快的方向导数。

符号

函数f的梯度为: ∇ f \nabla f f g r a d f grad \quad f gradf,其中 ∇ \nabla nabla表示向量微分算子
∇ = ∂ ∂ x i ˉ + ∂ ∂ y j ˉ + ∂ ∂ z k ˉ \nabla=\frac{\partial}{\partial x}\bar i + \frac{\partial}{\partial y}\bar j + \frac{\partial}{\partial z}\bar k =xiˉ+yjˉ+zkˉ
梯度在直角坐标系中表示为:
∇ f = ( ∂ f ∂ x + ∂ f ∂ y + ∂ f ∂ z ) = ∂ f ∂ x i + ∂ f ∂ y j + ∂ f ∂ z k \nabla f=(\frac{\partial f}{\partial x}+\frac{\partial f}{\partial y}+\frac{\partial f}{\partial z})=\frac{\partial f}{\partial x}\bold i + \frac{\partial f}{\partial y}\bold j + \frac{\partial f}{\partial z}\bold k f=(xf+yf+zf)=xfi+yfj+zfk
梯度的模为:
∣ g r a d f ( x , y ) ∣ = ( ∂ f ∂ x ) 2 + ( ∂ f ∂ y ) 2 |gradf(x,y)|=\sqrt{(\frac{\partial f}{\partial x})^2+(\frac{\partial f}{\partial y})^2} gradf(x,y)=(xf)2+(yf)2

公式

与导数公式一样

矩阵和向量

矩阵

二维数组。

大写字母表示A

矩阵特性

不满足交换律:AxB不等于BxA

满足结合律:AxBxC = (AxB)xC = Ax(BxC)
A A − 1 = A − 1 A = I AA^{-1}=A^{-1}A=I AA1=A1A=I
只有方阵才有逆矩阵
B = A T B=A^T B=AT

B i j = A j i B_{ij}=A_{ji} Bij=Aji

矩阵的迹:trace(A),主对角线上各元素的总和

行列式:det(A) 或 |A|

特殊矩阵

正交矩阵

A A T = E 或 A T A = E AA^T=E或A^TA=E AAT=EATA=E

性质:

  1. A的各行各列都是单位向量,且两两相交。

  2. |A|为1或-1

  3. A T = A − 1 A^T=A^{-1} AT=A1

  4. 正交矩阵通常用Q表示

矩阵的迹

trace(A),主对角线上各元素的总和

性质:

设N阶矩阵A

  1. 矩阵A的迹等于所有主对角元素的和

  2. 矩阵A的迹等于A的特征值的总和

  3. trace(AB) = trace(BA) ,此处A和B不一定是方阵,只需要AB为方阵即可
    tr(ABC) = tr(BC A) = tr(C AB) = …

  4. trace(mA+nB)=m trace(A)+n trace(B)

向量

向量:nx1的矩阵。(n维向量)

小写字母表示a

向量乘法

数量积、点积、内积:
a ⋅ b = ∣ a ∣ ∣ b ∣ c o s θ a ⋅ b = ( a x , a y , a z ) ⋅ ( b x , b y , b z ) = a x b x + a y b y + a z b z 结 果 是 一 个 数 a·b=|a||b|cos\theta \\ a·b=(a_x,a_y,a_z)·(b_x,b_y,b_z)=a_xb_x+a_yb_y+a_zb_z \\ 结果是一个数 ab=abcosθab=(ax,ay,az)(bx,by,bz)=axbx+ayby+azbz
如果假设 B 的模为 1,即让 ∣ B ∣ = 1 |B|=1 B=1,那么就变成了:
A ⋅ B = ∣ A ∣ c o s ( a ) A·B=|A|cos(a) AB=Acos(a)
也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的标量大小。

向量积、叉积、外积:
c = a × b ∣ c ∣ = ∣ a ∣ ∣ b ∣ s i n θ c 的 方 向 既 垂 直 于 a , 又 垂 直 于 b , 指 向 符 合 右 手 系 c=a \times b \\ |c|=|a||b|sin\theta \\ c的方向既垂直于a,又垂直于b,指向符合右手系 c=a×bc=absinθcab

特征值、特征向量

定义:

设A为n阶方阵,如果存在数λ和非0向量x

使得 Ax=λx

则:λ是A的一个特征值,x是A对应λ的特征向量

(A-λE)x=0称为对应λ的特征子空间

|A-λE|称为A的特征多项式

求解:

根据|A-λE|=0就可以求解出λ。
在这里插入图片描述
特征值为-1,2,2,

求特征向量:λ代入(A+λE),化简
在这里插入图片描述
在这里插入图片描述

性质:

  • A 2 x = A ( A x ) = A ( λ x ) = λ ( A x ) = λ 2 x A^2x=A(Ax)=A(\lambda x)=\lambda(Ax)=\lambda^2x A2x=A(Ax)=A(λx)=λ(Ax)=λ2x
  • A k x = λ k x A^kx=\lambda^kx Akx=λkx
  • A − 1 x = 1 / λ x A^{-1}x=1/ \lambda x A1x=1/λx

相似矩阵

如果一个矩阵B可以表示成: B = M − 1 A M B=M^{-1}AM B=M1AM

我们就说B和A是相似的,相似矩阵拥有相同的特征值

矩阵的迹和行列式

矩阵的迹等于特征向量的和:
t r ( A ) = λ 1 + λ 2 + . . . + λ n tr(A)=\lambda_1+\lambda_2+...+\lambda_n tr(A)=λ1+λ2+...+λn
矩阵的行列式等于特征向量的积:
d e t ( A ) = λ 1 λ 2 . . . λ n det(A)=\lambda_1\lambda_2...\lambda_n det(A)=λ1λ2...λn

特征分解:

对于一般的nxn矩阵,可以分解成:
A = Q Λ Q − 1 A=Q\Lambda Q^{-1} A=QΛQ1
其中:

  • Q是nxn的方阵,且其第i列为A的特征向量 q i q_i qi
  • Λ \Lambda Λ是对角矩阵,其对角线上的元素为对应的特征值,即: Λ i i = λ i \Lambda _{ii}=\lambda_i Λii=λi

只有可对角化矩阵才可以做特征分解。

矩阵求导

如果 a = W h a=Wh a=Wh,a、h为向量,W为矩阵


∂ a ∂ h = W T ∂ a ∂ W = h T \frac{\partial a}{\partial h}=W^T \\ \frac{\partial a}{\partial W}=h^T ha=WTWa=hT

偏差和方差

偏差(bias)

低偏差:可以更高的吻合训练集

高偏差:不能很好的吻合训练数据,欠拟合

方差(varience)

低方差:在不同的集合损失都很小

高方差:泛化能力太差,过拟合

概率知识

似然、概率

在这里插入图片描述

期望

所有结果和结果概率相乘之后的累加。也称均值,符号为E

期望

如:变量X,X取x的概率为P(X=x)


E ( X ) = ∑ x P ( X = x ) E(X)=\sum{xP(X=x)} E(X)=xP(X=x)

条件期望

变量X,条件Y=y,在Y=y条件下X取x的概率为P(X=x|Y=y)
E ( X ∣ Y = y ) = ∑ x P ( X = x ∣ Y = y ) E(X|Y=y) = \sum{xP(X=x|Y=y)} E(XY=y)=xP(X=xY=y)

指示函数I

机器学习算法推导当中,有的时候能看到一个函数 I I I,这个函数代表什么意思?

I I I 代表的是指示函数(indicator function)。

它的含义是:

  • 当输入为True的时候,输出为 1
  • 当输入为False的时候,输出为 0。

例如: I ( f ( x i ) ≠ y i ) I(f(x_i)\neq y_i) I(f(xi)=yi) ,表示当 f ( x i ) f(x_i) f(xi)不等于 y i y_i yi 的时候输出为1,否则输出为0。

仍然在持续更新总结中。。。

猜你喜欢

转载自blog.csdn.net/qq_41340996/article/details/124838329