Spark系统与开发--2019-- zzti---期末考试

PDF格式传送门：点这里提取码: 1skf

本试卷共 8 页，此页为 A 卷第 1 页（注：参加重修考试者请在重修标识框内打钩）
2018～2019 学年第 2 学期
软件学院专业课程期末试卷
题号一二三四五六七八九十总分
说明：
1.考试为闭卷笔试，考试时间共 120 分钟。
2.考试题答案请填写到答题卡内，交卷时试卷和答题卡均要上交。

一、选择题（30 分，每题 1 分）
1) 从发展先后顺序上讲，以下次序不正确的是（）
A) Hadoop->HBase
B) Spark->Storm
C) HBase->Spark
D) Hadoop->Spark
2) scala 中 def mul(x:Int)(y:Int) = x*y 称作（）
A) 柯里化函数
B) 匿名函数
C) 高阶函数
D) 偏应用函数
3) scala 反编译后是（）
A) C 语言
B) C++
C) JAVA
D) 字节码文件
4) Scala 中 Any 是所有其他类的（）
A) 超类
B) 子类
C) 继承类
D) 以上都不正确
5) scala 中 import java.awt._ 是（）
A) 引入 java.awt 包内所有成员
B) 引入 java.awt 包内名为“_”的成员
C) 引入 java.awt 包内除了第一个成员以外的成员
D) 引入 java.awt 包内最后一个成员
6) scala 中多行字符用什么来表示（）
A) "
B) ""
C) """
D) """"
7) scala 中 val pa=(40,"Foo")如果要访问 40，正确的访问语句是（）
A) pa._0
B) pa._1
C) pa._2
D) pa._
8) SparkContext 不能读取哪个地方的数据（）
A) 本地磁盘
B) web
C) hdfs
D) 内存
9) 以下哪个不是 Spark 的组件（）
A) NodeManager
B) TaskScheduler
C) DAGScheduler
D) ClusterManager

10) 以下哪个不是 hadoop 的限制（）
A) 算法 pipeline 太长
B) hadoop 原生算法辅助工具少
C) 执行 python 效率低
D) 需要在 linux 运行
11) 以下哪个不是 Spark 的组件（）
A) Driver
B) SparkContext
C) ClusterManager
D) ResourceManager
12) ClusterManager 是（）
A) 主节点
B) 从节点
C) 执行器
D) 上下文
13) SparkContext 是（）
A) 主节点
B) 从节点
C) 执行器
D) 上下文
14) 以下哪个选项不属于 DAG 的应用（）
A) 任务调度
B) 谱关系计算
C) 引文网络计算
D) 语义计算
15) DAGScheduler 划分 stage 的依据是（）
A) Action 执行时
B) Transformer 执行时
C) Transformer 发生 shuffle 时
D) 按照 task 计数器的计数值
16) Hadoop 中有，Spark 中没有的调度策略是（）
A) FIFO
B) Capacity
C) Fair
D) Stack
17) 关于算子数量，以下叙述正确的是（）
A) Spark>SparkSQL>SparkStreaming
B) SparkSQL>Spark>SparkStreaming
C) Spark>SparkStreaming>SparkSQL
D) SparkSQL>SparkStreaming>Spark
18) SparkSQL 和 Spark 计算性能的差异来自于（）
A) DataFrame
B) RDD
C) Stage
D) 算子
19) 以下哪种不是 DataFrame 的数据源（）
A) jdbc
B) csv
C) orcfile
D) xml
20) 语句“select phone from students order by phone”的作用是（）
A) 求学生的年龄分布
B) 求平均年龄
C) 求学生中出现的所有姓氏
D) 按照同学们电话号码的大小排序
21) 语句“select distinct(substr(name,0,1)) from students”的作用是（）
A) 统计男生和女生的总人数
B) 求出生年月日最大值
C) 求学生中出现的所有姓氏
D) 求平均年龄

22) df.select(rand())的作用是（）
A) 生成均为正数的浮点随机数
B) 生成均为负数的浮点随机数
C) 生成有正负数的浮点随机数
D) 生成一列 0
23) 以下关于流式数据计算叙述不正确的是（）
A) 流式计算是实时的，批量计算是非实时的
B) 流式计算数据量是无限的，批量计算数据量有限
C) 流式计算数据时效性短，批量计算数据时效性长
D) 流式计算数据速率稳定，批量计算数据速率不稳定
24) SparkStreaming 的 Transformer 算子分为（）
A) 无状态和有状态
B) 长时间和短时间
C) map 和 reduce
D) 单独和窗口
25) DStream 是（）
A) 不间断 RDD
B) 随时间推移而收到的数据序列
C) 含有列信息的 RDD
D) 内存存储块
26) 以下哪个不是 mllib 含有的计算模型（）
A) 分类模型
B) 聚类模型
C) 特征抽取
D) 神经网络
27) 关于聚类和分类以下说法不正确的是（）
A) 聚类是从已知到未知
B) 分类是从未知到已知
C) 逻辑回归是聚类
D) Kmeans 是聚类
28) 以下关于 BOC 算法叙述不正确的是（）
A) BOC 全称是词袋算法
B) BOC 不考虑序列关系
C) BOC 的向量空间是浮点数空间
D) BOC 是非监督特征表述算法
29) 以下关于 Word2Vec 叙述正确的是（）
A) Word2Vec 是一种语言模型
B) Word2Vec 是一种主题模型
C) Word2Vec 和 TFIDF 目标一致
D) Word2Vec 的训练结果是词频矩阵
30) 关于 TFIDF 叙述不正确的是（）
A) TF 是词频
B) IDF 是逆文档频率
C) TFIDF 能够衡量文档和用户关键词之间的相似度
A) TFIDF 利用了序列关系
二、读程序写结果（共 35 分）
1、请写出下面每段 scala 程序的执行结果（共 10 分，每个 2 分）

2、已知数据 students.data 格式和内容如下，请写出每个 scala 程序的执行结果，（注意
是执行结果，不是程序的执行目的）（共 15 分，每个 3 分）

3、使用上题的数据，请写出下面每个 spark 程序的运行结果（共 15 分，每个 3 分）

二、程序设计题（共 20 分）
1、已知 students.csv 文件内容如下，请补全 sparkSQL 代码完成任务（共 15 分，每个 3
分）

2、已知日志服务器发送日志的逻辑如下（共 15 分，每个 3 分）
请按要求填入合适的 sparkstreaming 代码完成任务：

四、算法认识（共 20 分）
任选下列某一个本学期所学的算法，谈谈算法的目的、原理和自己的认识：
1、逻辑回归
2、线性回归
3、随机梯度下降
4、 TFIDF
5、 LDA
6、 Kmeans

-----------------------------------------------------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------------------------------------------------
参考答案（即评分标准）
一、选择题（共 30 分，每题 1 分）
1 2 3 4 5 6 7 8 9 10
B A D A A C B B A D
11 12 13 14 15 16 17 18 19 20
D A D D C B B A D D
21 22 23 24 25 26 27 28 29 30
C A D A B D C C A D
二、简答题（共 40 分）
1、（每空 2 分）
a) 12
b) [0]=b,[1]=c,[2]=a,
c) 120
d) a:b
e) 9
2、（每空 3 分）
a) (RB173,2)(RB172,2)(RB171,2)(RB174,2)
b) 19980302,19950528
c) 张冯姜何周罗宋马
d) 22
e) (23,2)(22,4)(21,1)(24,1)
3、（每空 3 分）
a) (男,4)(女,4)
b) RB174-13596325874
c) 31254485
d) (何桦,1220)(冯成刚,1001)(周存富,0528)(宋立昌,0528)(罗鹏,0302)
e) (何桦,RB172)(罗鹏,RB173)(马彦,RB174)
三、程序设计题（共 20 分，每空 2 分）
[1] name STRING, no STRING, cls STRING, gender STRING, birthday STRING,
phone STRING, loc STRING
[2] true
[3] groupBy("gender")
[4] select count(*) from students group by gender
[5] df("birthday")
[6] select max(birthday) from students
[7] (x(2), 1)
[8] x + y
[9] _.contains("error")
[10]_.filter(_.contains("error"))
四、算法认识（共 10 分）
略

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

JPG

风逍遥-

发布了16 篇原创文章 · 获赞 10 · 访问量 1万+

私信关注

Spark系统与开发--2019-- zzti---期末考试

猜你喜欢