深度学习 基本面试题

版权声明:添加我的微信wlagooble,开启一段不一样的旅程 https://blog.csdn.net/nineship/article/details/89454663

1 梯度消失、梯度爆炸 
  梯度消失:这本质上是由于激活函数的选择导致的, 最简单的sigmoid函数为例,在函数的两端梯度求导结果非常小(饱和区),导致后向传播过程中由于多次用到激活函数的导数值使得整体的乘积梯度结果变得越来越小,也就出现了梯度消失的现象。 
  梯度爆炸:同理,出现在激活函数处在激活区,而且权重W过大的情况下。但是梯度爆炸不如梯度消失出现的机会多。

2 解决过拟合overfitting的方法 
  Dropout, Regularization, batch normalizatin,但是要注意dropout只在训练的时候用,让一部分神经元随机失活。 
  Batch normalization是为了让输出都是单位高斯激活,方法是在连接和激活函数之间加入BatchNorm层,计算每个特征的均值和方差进行规则化。 

3 防止过拟合:剪枝 
  剪枝分为前剪枝和后剪枝,前剪枝本质就是早停止,后剪枝通常是通过衡量剪枝后损失函数变化来决定是否剪枝。后剪枝有:错误率降低剪枝、悲观剪枝、代价复杂度剪枝

4 前剪枝的几种停止条件

         节点中样本为同一类

         特征不足返回多类

         如果某个分支没有值则返回父节点中的多类

         样本个数小于阈值返回多类

5 LR和随机森林区别 
  随机森林等树算法都是非线性的,而LR是线性的。LR更侧重全局优化,而树模型主要是局部的优化。 
6 带核的SVM为什么能分类非线性问题? 
  核函数的本质是两个函数的內积,而这个函数在SVM中可以表示成对于输入值的高维映射。注意核并不是直接对应映射,核只不过是一个內积 

数据归一化(或者标准化,注意归一化和标准化不同)的原因 
  要强调:能不归一化最好不归一化,之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。

有些模型在各维度进行了不均匀的伸缩后,最优解与原来不等价(如SVM)需要归一化。

有些模型伸缩有与原来等价,如:LR则不用归一化,但是实际中往往通过迭代求解模型参数,如果目标函数太扁(想象一下很扁的高斯模型)迭代算法会发生不收敛的情况,所以最坏进行数据归一化。

7 腾讯面试:梯度弥散,SVM核函数(线性,多项式,高斯核函数),梯度消失(ResNet,BN,减少层数,使用ReLu激活函数):梯度爆炸(BN,正则化,参数初始化,减少层数,激活,梯度截断):

8.  梯度下降法和牛顿法的优缺点?

优点:梯度下降法:可用于数据量较大的情况;牛顿法:收敛速度更快;

缺点:梯度下降法:每一步可能不是向着最优解的方向;牛顿法:每次迭代的时间长;需要计算一阶和二阶导数;

9. sigmoid 不是关于原点对称;需要计算exp

10 tanh 关于原点对称, 比sigmoid梯度更新更快

11 Relu 神经元输出为正时,没有饱和区计算复杂度低,效率高在实际应用中,比sigmoid、tanh更新更快相比于sigmoid更加符合生物特性

12 神经元输出为负时,进入了饱和区,神经元的输出在非0中心,使得数据存在Active ReLU、Dead ReLU(当wx+b<0时,将永远无法进行权值更新,此时的神经元将死掉)的问题

13  Momentum优化算法原理?作用?

原理:在梯度下降算法中引入指数加权平均数,在更新梯度方向的过程中,在一定程度上保留了之前梯度更新的方向,同时利用当前mini_batch的梯度方向微调最终的更新方向。

作用:在一定程度上增加梯度更新方向的稳定性,从而使得收敛速度更快。

14 

正则化的理解:正则化是在损失函数中加入对模型参数的惩罚项,以平衡因子lamda控制惩罚力度,其通过在训练过程中降低参数的数量级,从而降低模型的过拟合现象。

从贝叶斯的角度来看,正则化等价于对模型参数引入先验分布:对参数引入高斯先验分布等价于L2正则化,对参数引入拉普拉斯分布等价于L1正则化。
15 

等距变换:图像旋转+平移

相似变换:图像旋转+平移+缩放(放大或缩小原图)

仿射变换:图像旋转+平移+缩放+切变(虽改变图像的形状,但未改变图像中的平行线)

投影变换:图像旋转+平移+缩放+切变+射影(不仅改变了图像的形状,而且改变了图像中的平行线)

16 

回归:对连续随机变量建模预测的监督学习算法;经典案例:房价预测;算法举例:线性回归,建立数据的拟合曲线作为预测模型(y = wx + b);

分类:对离散随机变量建模预测的监督学习算法;经典案例:垃圾邮件分类;算法举例:支持向量机,寻找二类支持向量的最大切分超平面;

聚类:基于数据的内部规律,寻找其属于不同族群的无监督学习算法;算法举例:k-means;
17 朴素贝叶斯 

朴素指的是各个特征之间相互独立

18 1×1卷积 跨通道信息的融合;通过对通道数的降维和升维,减少计算量;

19 偏差是真实值和预测值之间的偏离程度;方差是预测值得分散程度,即越分散,方差越大;

20 过拟合

数据增强,Ealy stopping,Dropout,交叉验证,L1、L2正则化

参考:

https://blog.csdn.net/attitude_yu/article/details/80963323

https://www.cnblogs.com/houjun/p/8535471.html 

https://blog.csdn.net/weixin_41421485/article/details/81254563

猜你喜欢

转载自blog.csdn.net/nineship/article/details/89454663