机器学习笔试题目

关于Logistic回归和SVM，以下说法错误的是？

A. Logistic回归可用于预测事件发生概率的大小
B. Logistic回归的目标函数是最小化后验概率
C. SVM的目标的结构风险最小化
D. SVM可以有效避免模型过拟合
答案：B，Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。A错误 Logit回归的输出就是样本属于正类别的几率，可以计算出概率，正确C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，应该属于结构风险最小化. D. SVM可以通过正则化系数控制模型的复杂度，避免过拟合。
假设三个稠密矩阵（Dense Matrix）A, B, C的尺寸分别为m*n, n*q和p*q，且 $m<n<p<q$ ，一下计算顺序会加速的是？
(AB)C
B. AC(B)
A(BC)
所有效率都相同
答案：A
(AB)C 要mp(2n-1)+mq(2p-1)次运算;
A(BC) 要nq(2p-1) mq(2n-1)次运算；
$又因为m<n<p<q$ ;所以
$mp(2n-1)<mq(2n-1);$
$mq(2p-1)<nq(2p-1);$
所以(AB)C运算次数最少，效率最高；越小越要先乘
以下有关特征数据归一化的说法错误的是：
A 特征数据归一化加速梯度下降优化的速度
B 特征数据归一化有可能提高模型的精度
C 线性归一化适用于特征数值分化比较大的情况
D 概率模型不需要做归一化处理
答案：C 线性归一化这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷，如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代max和min。非线性归一化经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括 log、指数，正切等。需要根据数据分布的情况，决定非线性函数的曲线，比如log(V, 2)还是log(V, 10)等。概率模型（决策树）不需要归一化，因为他们不关心变量的值，而是关心变量的分布和变量之间的条件概率。像SVM、线性回归之类的最优化问题需要归一化。归一化之后加快了梯度下降求最优解的速度，并有可能提高精度。
假定你在神经网络中的隐藏层中使用激活函数X，在特定神经元给定任意输入，你会得到输出[-0.0001]，X可能是一下哪一个？
A ReLU
B tanh
C sigmoid
D 其他都不是
答案为（B）：该激活函数可能是 tanh，因为该函数的取值范围是 (-1,1)。
下列哪些项所描述的相关技术是对的？
A AdaGrad和L-BFGS使用的都是一阶差分
B AdaGrad和L-BFGS使用的都是二阶差分
C Adagrad使用的是一阶差分，L-BFGS使用的是二阶差分
D Adagrad使用的是二阶差分，L-BFGS使用的是一阶差分
答案： C 牛顿法不仅使用了一阶导信息，同时还利用了二阶导来更新参数,L-BFGS算法是一种在牛顿法基础上提出的一种求解函数根的算法
在一个n维的空间中，最好的检测outlier(离群点)的方法是：
A. 作正态分布概率图
B. 作盒形图
C. 马氏距离
D. 作散点图
答案：C
马氏距离是基于卡方分布的，度量多元outlier离群点的统计方法。
对数几率回归（logistics regression）和一般回归分析有什么区别？：
A. 对数几率回归是设计用来预测事件可能性的
B. 对数几率回归可以用来度量模型拟合程度
C. 对数几率回归可以用来估计回归系数
D. 以上所有
答案：D
bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）
A. 有放回地从总共M个特征中抽样m个特征
B. 无放回地从总共M个特征中抽样m个特征
C. 有放回地从总共N个样本中抽样n个样本
D. 无放回地从总共N个样本中抽样n个样本
答案：C
回归模型中存在多重共线性, 你如何解决这个问题？
A. 去除这两个共线性变量
B. 我们可以先去除一个共线性变量
C. 计算VIF(方差膨胀因子), 采取相应措施
D. 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归.
以下哪些是对的:
A. 1
B. 2
C. 2和3
D. 2, 3和4
答案: D
解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也可以VIF, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高.
我们也可以用岭回归和lasso回归的带有惩罚正则项的方法. 我们也可以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果.
模型的高bias是什么意思, 我们如何降低它 ?
A. 在特征空间中减少特征
B. 在特征空间中增加特征
C. 增加数据点
D. B和C
E. 以上所有
答案: B
bias太高说明模型太简单了, 数据维数不够, 无法准确预测数据, 所以, 升维吧 !
对于信息增益, 决策树分裂节点, 下面说法正确的是:
A. 纯度高的节点需要更多的信息去区分
B. 信息增益可以用”1比特-熵”获得
C. 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的
答案: BC
如果SVM模型欠拟合, 以下方法哪些可以改进模型 :
A. 增大惩罚参数C的值
B. 减小惩罚参数C的值
C. 减小核系数(gamma参数)
答案: A
如果SVM模型欠拟合, 我们可以调高参数C的值, 使得模型复杂度上升.
SVM中，SVM的目标函数是:

gamma参数是你选择径向基函数作为kernel后,该函数自带的一个参数.隐含地决定了数据映射到新的特征空间后的分布.
gamma参数与C参数无关. gamma参数越高, 模型越复杂.
假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 :
A. 模型分类的召回率会降低或不变
B. 模型分类的召回率会升高
C. 模型分类准确率会升高或不变
D. 模型分类准确率会降低
答案: AC
我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 :
A. 增加树的深度
B. 增加学习率 (learning rate)
C. 减少树的深度
D. 减少树的数量
答案: C
增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.
决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)
决策树只有一棵树, 不是随机森林.
对于神经网络的说法, 下面正确的是 :
A 增加神经网络层数, 可能会增加测试数据集的分类错误率
B 减少神经网络层数, 总是能减小测试数据集的分类错误率
C 增加神经网络层数, 总是能减小训练数据集的分类错误率
答案: A
深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化能力, 即, 训练数据集和测试数据集都表现得更好. 但是, 在这篇文献中, 作者提到, 更多的层数, 也不一定能保证有更好的表现. 所以, 不能绝对地说层数多的好坏, 只能选A
假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分 :
A. 设C=1
B. 设C=0
C. 设C=无穷大
D. 以上都不对
答案: C
C无穷大保证了所有的线性不可分都是可以忍受的.常数C决定了松弛变量之和的影响程度，如果越大，影响越严重，那么在优化的时候会更多的注重所有点到分界面的距离，
训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类:
A. 正确
B. 错误
答案: A
SVM模型中, 真正影响决策边界的是支持向量
以下哪些算法, 可以用神经网络去构造:
A. KNN
B. 线性回归
C. 对数几率回归
答案: BC
KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
最简单的神经网络, 感知器, 其实就是线性回归的训练
我们可以用一层的神经网络构造对数几率回归
请选择下面可以应用隐马尔科夫(HMM)模型的选项:
A. 基因序列数据集
B. 电影浏览数据集
C. 股票市场数据集
D. 所有以上
答案: D
只要是和时间序列问题有关的 , 都可以试试HMM
我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :
A. 我们随机抽取一些样本, 在这些少量样本之上训练
B. 我们可以试用在线机器学习算法
C. 我们应用PCA算法降维, 减少特征数
D. B 和 C
E. A 和 B
F. 以上所有
答案: F
我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :
A. 使用前向特征选择方法
B. 使用后向特征排除方法
C. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.
D. 查看相关性表, 去除相关性最高的一些特征
答案: ABCD
前向特征选择方法和后向特征排除方法是我们特征选择的常用方法
如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.
用相关性的度量去删除多余特征, 也是一个好方法
所有D是正确的
对于随机森林和GradientBoosting Trees, 下面说法正确的是:
A 在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的.
B 这两个模型都使用随机特征子集, 来生成许多单个的树.
C 我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好
答案: B
随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的, 所有说反了,在随机森林的单个树中, 树和树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系.
这两个模型都使用随机特征子集, 来生成许多单个的树.
对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :
A. 正确的
B. 错误的
答案: B.
这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的.
对于下图, 最好的主成分选择是多少 ? :

A. 7
B. 30
C. 35
D. Can’t Say
答案: B
主成分选择使variance越大越好，在这个前提下，主成分越少越好。
数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是 :
A. 单个模型之间有高相关性
B. 单个模型之间有低相关性
C. 在集成学习中使用“平均权重”而不是“投票”会比较好
D. 单个模型都是用的一个算法
答案: B
在有监督学习中，我们如何使用聚类方法？ :
A. 我们可以先创建聚类类别，然后在每个类别上用监督学习分别进行学习
B. 我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习
C. 在进行监督学习之前，我们不能新建聚类类别
D. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习
答案: AB
我们可以为每个聚类构建不同的模型，提高预测准确率。
“类别id”作为一个特征项去训练，可以有效地总结了数据特征。
以下说法正确的是 :
A. 一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的
B. 如果增加模型复杂度，那么模型的测试错误率总是会降低
C. 如果增加模型复杂度，那么模型的训练错误率总是会降低
D. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习
答案: C
考的是过拟合和欠拟合的问题。
对应GradientBoosting tree算法，以下说法正确的是 :
A. 当增加最小样本分裂个数，我们可以抵制过拟合
B. 当增加最小样本分裂个数，会导致过拟合
C. 当我们减少训练单个学习器的样本个数，我们可以降低variance
D. 当我们减少训练单个学习器的样本个数，我们可以降低bias
答案: AC
最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”，这个参数应该用交叉验证来调节。
第二点是靠bias和variance概念的。
下面的交叉验证方法 :
i. 有放回的Bootstrap方法
ii. 留一个测试样本的交叉验证
iii. 5折交叉验证
iv. 重复两次的5折教程验证
当样本是1000时，下面执行时间的顺序，正确的是：
A. i > ii > iii > iv
B. ii > iv > iii > i
C. iv > i > ii > iii
D. ii > iii > iv > i
答案: B
Boostrap方法是传统地随机抽样，验证一次的验证方法，只需要训练1次模型，所以时间最少。
留一个测试样本的交叉验证，需要n次训练过程（n是样本个数），这里，要训练1000个模型。
5折交叉验证需要训练5个模型。重复2次的5折交叉验证，需要训练10个模型。
变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？ :
1.多个变量其实有相同的用处
2.变量对于模型的解释有多大作用
3.特征携带的信息
4.交叉验证
A. 1 和 4
B. 1, 2 和 3
C. 1,3 和 4
D. 以上所有
答案: C
注意，这题的题眼是考虑模型效率，所以不要考虑选项2.
对于线性回归，我们应该有以下哪些假设？ :
A.找到利群点很重要, 因为线性回归对利群点很敏感
B.线性回归要求所有变量必须符合正态分布
C.线性回归假设数据没有多重线性相关性
答案: A
利群点要着重考虑, 第一点是对的
不是必须的, 当然, 如果是正态分布, 训练效果会更好
有少量的多重线性相关性是可以的, 但是我们要尽量避免
当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:
A. Var1和Var2是非常相关的
B. 因为Var和Var2是非常相关的, 我们可以去除其中一个
C. Var3和Var1的1.23相关系数是不可能的
答案: ABC
Var1和Var2相关系数是负的, 所以这是多重线性相关, 我们可以考虑去除其中一个.
一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的
相关性系数范围应该是 [-1,1]
关于主成分分析PCA说法正确的是：
A 我们必须在使用PCA前规范化数据
B 我们应该选择使得模型有最大variance的主成分
C 我们应该选择使得模型有最小variance的主成分
D我们可以使用PCA在低纬度上做数据可视化
答案： ABD
PCA对数据尺度很敏感, 打个比方, 如果单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分).
我们总是应该选择使得模型有最大variance的主成分
有时在低维度上左图是需要PCA的降维帮助的
以下描述错误的是？
A SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimal margin classifier）
B 在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好
C 在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题
D 聚类分析可以看做是一种非监督的分类
答案：AC
解析：A. SVM的策略是最大间隔分类器。
B. 簇内的相似性越大，簇间的差别越大，聚类的效果就越好
C. 训练误差减少与测试误差逐渐增大，是明显的过拟合的特征。
假设目标遍历的类别非常不平衡，即主要类别占据了训练数据的99%，现在你的模型在训练集上表现为99%的准确度，那么下面说法正确的是：
A 准确度并不适合衡量不平衡类别问题
B 准确度适合衡量不平衡类别问题
C 精确度和召回率适合于衡量不平衡类别问题
D 精确度和召回率不适合衡量不平衡类别问题
答案 AC
神经网络训练过程中的哪些现象表明可能出现了梯度爆炸？（ABC）
A 模型梯度快速变大
B 模型权重变为NaN值
C 每个节点和层的误差梯度值持续超多1.0
D 损失函数持续减小
下面哪项操作能实现跟神经网络中Dropout的类似效果？（B）
A Boosting
B Bagging
C Stacking
D Mapping
Dropout可以认为是一种极端的Bagging，每一个模型都在单独的数据上训练，同时，通过和其他模型对应参数的共享，从而实现模型参数的高度正则化。
在训练神经网络时，损失函数(loss)在最初的几个epochs时没有下降，可能的原因是？（D）
A 学习率(learning rate)太低
B 正则参数太高
C 陷入局部最小值
D 以上都有可能
批规范化(Batch Normalization)的好处都有啥？
A.在将所有的输入传递到下一层之前对其进行归一化（更改）
B.它将权重的归一化平均值和标准差
C.它是一种非常有效的反向传播(BP)方法
D.这些均不是
答案：（A）
对于一个分类任务，如果开始时神经网络的权重不是随机赋值的，二是都设成0，下面哪个叙述是正确的？（C）
A 其他选项都不对
B 没啥问题，神经网络会正常开始训练
C 神经网络可以训练，但是所有的神经元最后都会变成识别同样的东西
D 神经网络不会开始训练，因为没有梯度改变
令所有权重都初始化为0这个一个听起来还蛮合理的想法也许是一个我们假设中最好的一个假设了, 但结果是错误的，因为如果神经网络计算出来的输出值都一个样，那么反向传播算法计算出来的梯度值一样，并且参数更新值也一样(w=w−α∗dw)。更一般地说，如果权重初始化为同一个值，网络即是对称的, 最终所有的神经元最后都会变成识别同样的东西。
下面那个决策边界是神经网络生成的？（E）

A A
B D
C C
D B
E 以上都有
神经网络可以逼近方式拟合任意函数, 所以以上图都可能由神经网络通过监督学习训练得到决策边界。
考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？（C）
A 把除了最后一层外所有的层都冻住，重新训练最后一层
B 对新数据重新训练整个模型
C 只对最后几层进行调参(fine tune)
D 对每一层模型进行评估，选择其中的少数来用
如果有个预先训练好的神经网络, 就相当于网络各参数有个很靠谱的先验代替随机初始化. 若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布, 而新数据采样自完全相同的分布), 则冻结前面所有层而重新训练最后一层即可; 但一般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验网络不足以完全拟合新数据时, 可以冻结大部分前层网络, 只对最后几层进行训练调参(这也称之为fine tune)。
以下()属于线性分类器最佳准则？机器学习 ML模型易
A.感知准则函数
B.贝叶斯分类
C.支持向量机
D.Fisher准则
正确答案：ACD
本题题目及解析来源：http://blog.csdn.net/column/details/16442.html
线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。
感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。
支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。（使用核函数可解决非线性问题）
Fisher 准则：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化“广义瑞利商”。
根据两类样本一般类内密集，类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
以下说法中正确的是() 机器学习 ML模型中
A.SVM对噪声(如来自其他分布的噪声样本)鲁棒
B.在AdaBoost算法中,所有被分错的样本的权重更新比例相同
C.Boosting和Bagging都是组合多个分类器投票的方法,二都是根据单个分类器的正确率决定其权重
D.给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少
正确答案：BD
@刘炫320，本题题目及解析来源：http://blog.csdn.net/column/details/16442.html
A、SVM本身对噪声具有一定的鲁棒性，但实验证明，是当噪声率低于一定水平的噪声对SVM没有太大影响，但随着噪声率的不断增加，分类器的识别率会降低。
B、AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时，每个样本对应的权重是相同的，即其中n为样本个数，在此样本分布下训练出一弱分类器。对于分类错误的样本，加大其对应的权重；而对于分类正确的样本，降低其权重，这样分错的样本就被凸显出来，从而得到一个新的样本分布。在新的样本分布下，再次对样本进行训练，得到弱分类器。以此类推，将所有的弱分类器重叠加起来，得到强分类器。
C、Bagging与Boosting的区别：
取样方式不同。
Bagging采用均匀取样，而Boosting根据错误率取样。
Bagging的各个预测函数没有权重，而Boosting是有权重的。
Bagging的各个预测函数可以并行生成，而Boosing的各个预测函数只能顺序生成。
A. SVM解决的是结构风险最小, 经验风险处理较弱, 所以对数据噪声敏感.
B. AdaBoost算法中, 每个迭代训练一个学习器并按其误分类率得到该学习器的权重alpha, 这个学习器的权重算出两个更新比例去修正全部样本的权重: 正样本是exp(-alpha), 负样本是exp(alpha). 所以所有被分错的样本的权重更新比例相同.
C. bagging的学习器之间无权重不同, 简单取投票结果; Boosting的adaboost根据误分类率决定权重, boosting的gbdt则是固定小权重(也称学习率), 用逼近伪残差函数本身代替权重.
D: 根据中心极限定律, 随着n的增加, 训练误差和测试误差之间的差别必然减少 – 这就是大数据训练的由来
关于支持向量机SVM,下列说法错误的是（）
A.L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力
B.Hinge 损失函数，作用是最小化经验分类错误
C.分类间隔为1/||w||，||w||代表向量的模
D.当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习
正确答案：C
A正确。考虑加入正则化项的原因：想象一个完美的数据集，y>1是正类，y<-1是负类，决策面y=0，加入一个y=-30的正类噪声样本，那么决策面将会变“歪”很多，分类间隔变小，泛化能力减小。加入正则项之后，对噪声样本的容错能力增强，前面提到的例子里面，决策面就会没那么“歪”了，使得分类间隔变大，提高了泛化能力。
B正确。
C错误。间隔应该是2/||w||才对，后半句应该没错，向量的模通常指的就是其二范数。
D正确。考虑软间隔的时候，C对优化问题的影响就在于把a的范围从[0，+inf]限制到了[0,C]。C越小，那么a就会越小，目标函数拉格朗日函数导数为0可以求出w=求和，a变小使得w变小，因此间隔2/||w||变大
下面哪个/些超参数的增加可能会造成随机森林数据过拟合？
A 树的数量
B 树的深度
C 学习速率
答案为（B）：通常情况下，我们增加树的深度有可能会造成模型过拟合。学习速率并不是随机森林的超参数。增加树的数量可能会造成欠拟合。

机器学习笔试题目

猜你喜欢