深度学习面试常问问题（一）

1、深度学习要这么深？

答：1、一个直观的解释，从模型复杂度角度。如果我们能够增强一个学习模型的复杂度，那么它的学习能力能够提升。如何增加神经网络的复杂度呢？要么变宽，即增加隐层网络神经元的个数；要么变深，即增加隐层的层数。当变宽的时候，只不过是增加了一些计算单元，增加了函数的个数，在变深的时候不仅增加了个数，还增加了函数间的嵌入的程度。

2、深度学习可以通过多个layer的转换学习更高维度的特征来解决更加复杂的任务。

3、那现在我们为什么可以用这样的模型？有很多因素，第一我们有了更大的数据；第二我们有强力的计算设备；第三我们有很多有效的训练技巧

4、像在ZFNet网络中已经体现，特征间存在层次性，层次更深，特征不变性强，类别分类能力越强，要学习复杂的任务需要更深的网络

2、如何解决数据不平衡问题？

答：1、利用重采样中的下采样和上采样，对小数据类别采用上采用，通过复制来增加数据，不过这种情况容易出现过拟合，建议用数据扩增的方法，对原有数据集进行翻转，旋转，平移，尺度拉伸，对比度，亮度，色彩变化来增加数据。对大数据类别剔除一些样本量。

2、组合不同的重采样数据集：假设建立十个模型，选取小数据类1000个数据样本，然后将大数据类别10000个数据样本分为十份，每份为1000个，并训练十个不同的模型。

3、更改分类器评价指标：在传统的分类方法中，准确率是常用的指标。然而在不平衡数据分类中，准确率不再是恰当的指标，采用精准率即查准率P：真正例除以真正例与假正例之和。召回率即查全率F。真正例除以真正例与假反例之和。或者F1分数查全率和查准率加权平衡=2*P*R/(P+R)。

3、对于训练集与验证集测试集分布不同的处理办法

1、若训练集与验证集来自不同分布，比如一个网络爬虫获取的高清图像，一个是手机不清晰图像，人工合成图像，比如不清晰图像，亮度高的图像。

2、两种来源的数据一个来源数据大比如20万张，一个来源数据小，如五千张小数据集是我们优化目标，一种情况是将两组数据合并在一起，然后随机分配到训练验证测试集中好处是，三个数据集来自同一分布。缺点：瞄准目标都是大数据那一类的数据，而不是我们的目标小数据集。另外一种情况是训练集全部用大数据集，开发与测试集都是小数据集数据，优点：瞄准目标，坏处是不同分布。

3、分析偏差和方差方法和同一分布的方法不一样，加一个训练开发集（从训练集留出一部分数据）。总共四个数据集，训练集、训练开发集、开发集、测试集。看训练开发集的准确率与训练集验证集的区别来判别式方差还是数据分布不匹配的造成的误差。具体看如下链接：https://blog.csdn.net/koala_tree/article/details/78319908

深度学习面试常问问题（一）

猜你喜欢