机器学习习题(20)

本章基本上都是和神经网络与自然语言处理相关的问题,主要涉及到卷积层、激活函数、决策树、
语言模型和序列标注等知识点。

  1. 卷积操作的本质特性包括稀疏交互和参数共享。()
    A. 正确
    B. 错误

参考答案:A
解析:卷积操作一方面是加权求和(稀疏交互),另一方面就是对每一个局部都是用同一个卷积核(参数共享)。

  1. K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。()
    A. 正确
    B. 错误

参考答案:A
解析:参见K均值聚类定义。

3.Seq2Seq模型在解码时可以使用贪心法或Beam Search方法。()
A. 正确
B. 错误

参考答案:A
解析:只要是序列标注,都可以使用贪心法,Beam Search方法,还可以使用全局优化和CRF等方法。

  1. 从计算角度上,Sigmoid和tanh激活函数均需要计算指数,复杂度高,而ReLU只需要一个阈值即可得到激活值。()
    A. 正确
    B. 错误

参考答案:A
解析:ReLU(·)=Max(0,x),详情见常见的激活函数

5.逻辑回归是一个回归模型。()
A. 正确
B. 错误

参考答案:B
解析:逻辑回归是音译,尽管最后仍然是sigmoid函数出最终结果,但是,它会增加一个阈值判断,阈值之上为一类,阈值之下为一类,并不考虑预测值与真实值进行连续的比较。

6.Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。()
A. 正确
B. 错误

参考答案:A
解析:dropout的定义即是如此。

7.文本信息检索的一个核心问题是文本相似度计算,将查询条件和文本之间的相似程度数值化,从而方便比较。当文档和查询都表示成向量时,可以利用向量的内积的大小近似地表示两个向量之间的相关程度。
设有两个文档和查询抽取特征和去除停用词后分别是:
文档d1: a、b、c、a、f、b、a、f、h
文档d2: a、c
查询q: a、c、a
特征项集合为 {a、b、c、d、e、f、g、h}
如果采用二值向量表示,那么利用内积法计算出q和d1、d2的相似度分别是( )
A. 1、1
B. 2、2
C. 7、2
D. 0、0

参考答案:B
解析:根据特征项集合,其向量空间分别为:
Q:[1,0,1,0,0,0,0,0]
D1:[1,1,1,0,0,1,0,1]
D2:[1,0,1,0,0,0,0,0]

因此内积分别为2,2。另一个直接表示就是看他们之间到底有多少相同的单词即可。

  1. 决策树有哪些常用的启发函数()
    A.最大信息增益
    B.最大信息增益率
    C.最大基尼系数
    D.最大交叉熵

参考答案:AB
解析:ABC分别对应了ID3树,C4.5树和CART树。具体可以参见《统计学习方法-决策树》。但是C应该是最小基尼系数才能够对。

9.关于Word2vec,下列哪些说法是正确的()
A.Word2vec是无监督学习
B.Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品
C.Word2vec能够表示词汇之间的语义相关性
D.Word2vec没有使用完全的深度神经网络模型
E.Word2vec可以采用负采样的方式来节省计算开销

参考答案:ABCDE
解析:word2Vec是一个比较成熟的技术了因此BCDE基本上没有太大的争议,争议在于A,Word2Vec是不是无监督学习?无监督一个熟悉的例子是聚类算法,聚类算法的目标并没有包含类别,而是采用了距离度量的方法,根据假设“相同的类别的样本表现上更加相似”,才预测其类别。word2Vec从这个角度上讲,和聚类算法是比较相似的,但是正因为他是语言模型的副产品,因此很难说它是一个完完全全的无监督学习,因为语言模型本身是有目标的,只不过这个目标并不是每个词的类别,因此从这个角度讲,更像是半监督学习。

10.下面哪些算法模型可以用来完成命名实体的任务()
A.GBDT
B.LDA
C.HMM
D.CRF
E.LSTM
F.seq2seq

参考答案:CDEF
解析:CDEF均可以进行序列标注。但是,在序列标注方法没出来之前,使用局部的分类方法同样可以进行命名实体任务,只不过性能上要差上许多。因此题干中的“可以”,应该理解为“适合”。

发布了232 篇原创文章 · 获赞 547 · 访问量 51万+

猜你喜欢

转载自blog.csdn.net/qq_35082030/article/details/104473699