机器学习习题（20）

本章基本上都是和神经网络与自然语言处理相关的问题，主要涉及到卷积层、激活函数、决策树、
语言模型和序列标注等知识点。

卷积操作的本质特性包括稀疏交互和参数共享。（）
A. 正确
B. 错误

参考答案：A
解析：卷积操作一方面是加权求和（稀疏交互），另一方面就是对每一个局部都是用同一个卷积核（参数共享）。

K均值聚类的核心目标是将给定的数据集划分为K个簇，并给出每个数据对应的簇中心点。（）
A. 正确
B. 错误

参考答案：A
解析：参见K均值聚类定义。

3.Seq2Seq模型在解码时可以使用贪心法或Beam Search方法。（）
A. 正确
B. 错误

参考答案：A
解析：只要是序列标注，都可以使用贪心法，Beam Search方法，还可以使用全局优化和CRF等方法。

从计算角度上，Sigmoid和tanh激活函数均需要计算指数，复杂度高，而ReLU只需要一个阈值即可得到激活值。（）
A. 正确
B. 错误

参考答案：A
解析：ReLU(·)=Max(0,x)，详情见常见的激活函数。

5.逻辑回归是一个回归模型。（）
A. 正确
B. 错误

参考答案：B
解析：逻辑回归是音译，尽管最后仍然是sigmoid函数出最终结果，但是，它会增加一个阈值判断，阈值之上为一类，阈值之下为一类，并不考虑预测值与真实值进行连续的比较。

6.Dropout作用于每份小批量训练数据，由于其随机丢弃部分神经元的机制，相当于每次迭代都在训练不同结构的神经网络。（）
A. 正确
B. 错误

参考答案：A
解析：dropout的定义即是如此。

7.文本信息检索的一个核心问题是文本相似度计算，将查询条件和文本之间的相似程度数值化，从而方便比较。当文档和查询都表示成向量时，可以利用向量的内积的大小近似地表示两个向量之间的相关程度。
设有两个文档和查询抽取特征和去除停用词后分别是：
文档d1: a、b、c、a、f、b、a、f、h
文档d2: a、c
查询q: a、c、a
特征项集合为 {a、b、c、d、e、f、g、h}
如果采用二值向量表示，那么利用内积法计算出q和d1、d2的相似度分别是（）
A. 1、1
B. 2、2
C. 7、2
D. 0、0

参考答案：B
解析：根据特征项集合，其向量空间分别为:
Q:[1,0,1,0,0,0,0,0]
D1:[1,1,1,0,0,1,0,1]
D2:[1,0,1,0,0,0,0,0]

因此内积分别为2，2。另一个直接表示就是看他们之间到底有多少相同的单词即可。

决策树有哪些常用的启发函数（）
A.最大信息增益
B.最大信息增益率
C.最大基尼系数
D.最大交叉熵

参考答案:AB
解析：ABC分别对应了ID3树，C4.5树和CART树。具体可以参见《统计学习方法-决策树》。但是C应该是最小基尼系数才能够对。

9.关于Word2vec，下列哪些说法是正确的（）
A.Word2vec是无监督学习
B.Word2vec利用当前特征词的上下文信息实现词向量编码，是语言模型的副产品
C.Word2vec能够表示词汇之间的语义相关性
D.Word2vec没有使用完全的深度神经网络模型
E.Word2vec可以采用负采样的方式来节省计算开销

参考答案：ABCDE
解析：word2Vec是一个比较成熟的技术了因此BCDE基本上没有太大的争议，争议在于A，Word2Vec是不是无监督学习？无监督一个熟悉的例子是聚类算法，聚类算法的目标并没有包含类别，而是采用了距离度量的方法，根据假设“相同的类别的样本表现上更加相似”，才预测其类别。word2Vec从这个角度上讲，和聚类算法是比较相似的，但是正因为他是语言模型的副产品，因此很难说它是一个完完全全的无监督学习，因为语言模型本身是有目标的，只不过这个目标并不是每个词的类别，因此从这个角度讲，更像是半监督学习。

10.下面哪些算法模型可以用来完成命名实体的任务（）
A.GBDT
B.LDA
C.HMM
D.CRF
E.LSTM
F.seq2seq

参考答案：CDEF
解析：CDEF均可以进行序列标注。但是，在序列标注方法没出来之前，使用局部的分类方法同样可以进行命名实体任务，只不过性能上要差上许多。因此题干中的“可以”，应该理解为“适合”。

刘炫320 博客专家

发布了232 篇原创文章 · 获赞 547 · 访问量 51万+

他的留言板关注

机器学习习题（20）

猜你喜欢