Spark系统与开发--2019-- zzti---期末考试

 PDF格式传送门: 点这里 提取码: 1skf 

本试卷共 8 页,此页为 A 卷第 1 页 (注:参加重修考试者请在重修标识框内打钩)
2018~2019 学年 第 2 学期
软件学院 专业 课程期末试卷
题号 一 二 三 四 五 六 七 八 九 十 总分
说明: 
1.考试为闭卷笔试,考试时间共 120 分钟。
2.考试题答案请填写到答题卡内,交卷时试卷和答题卡均要上交。 


一、选择题(30 分,每题 1 分)
1) 从发展先后顺序上讲,以下次序不正确的是( )
A) Hadoop->HBase
B) Spark->Storm
C) HBase->Spark
D) Hadoop->Spark
2) scala 中 def mul(x:Int)(y:Int) = x*y 称作( )
A) 柯里化函数
B) 匿名函数
C) 高阶函数
D) 偏应用函数
3) scala 反编译后是( )
A) C 语言
B) C++
C) JAVA
D) 字节码文件
4) Scala 中 Any 是所有其他类的( )
A) 超类
B) 子类
C) 继承类
D) 以上都不正确
5) scala 中 import java.awt._ 是( )
A) 引入 java.awt 包内所有成员
B) 引入 java.awt 包内名为“_”的成员
C) 引入 java.awt 包内除了第一个成员以外的成员
D) 引入 java.awt 包内最后一个成员
6) scala 中多行字符用什么来表示( )
A) "
B) ""
C) """
D) """"
7) scala 中 val pa=(40,"Foo")如果要访问 40,正确的访问语句是( )
A) pa._0
B) pa._1
C) pa._2
D) pa._
8) SparkContext 不能读取哪个地方的数据( )
A) 本地磁盘
B) web
C) hdfs
D) 内存
9) 以下哪个不是 Spark 的组件( )
A) NodeManager
B) TaskScheduler
C) DAGScheduler
D) ClusterManager

10) 以下哪个不是 hadoop 的限制( )
A) 算法 pipeline 太长
B) hadoop 原生算法辅助工具少
C) 执行 python 效率低
D) 需要在 linux 运行
11) 以下哪个不是 Spark 的组件( )
A) Driver
B) SparkContext
C) ClusterManager
D) ResourceManager
12) ClusterManager 是( )
A) 主节点
B) 从节点
C) 执行器
D) 上下文
13) SparkContext 是( )
A) 主节点
B) 从节点
C) 执行器
D) 上下文
14) 以下哪个选项不属于 DAG 的应用( )
A) 任务调度
B) 谱关系计算
C) 引文网络计算
D) 语义计算
15) DAGScheduler 划分 stage 的依据是( )
A) Action 执行时
B) Transformer 执行时
C) Transformer 发生 shuffle 时
D) 按照 task 计数器的计数值
16) Hadoop 中有,Spark 中没有的调度策略是( )
A) FIFO
B) Capacity
C) Fair
D) Stack
17) 关于算子数量,以下叙述正确的是( )
A) Spark>SparkSQL>SparkStreaming
B) SparkSQL>Spark>SparkStreaming
C) Spark>SparkStreaming>SparkSQL
D) SparkSQL>SparkStreaming>Spark
18) SparkSQL 和 Spark 计算性能的差异来自于( )
A) DataFrame
B) RDD
C) Stage
D) 算子
19) 以下哪种不是 DataFrame 的数据源( )
A) jdbc
B) csv
C) orcfile
D) xml
20) 语句“select phone from students order by phone”的作用是( )
A) 求学生的年龄分布
B) 求平均年龄
C) 求学生中出现的所有姓氏
D) 按照同学们电话号码的大小排序
21) 语句“select distinct(substr(name,0,1)) from students”的作用是( )
A) 统计男生和女生的总人数
B) 求出生年月日最大值
C) 求学生中出现的所有姓氏
D) 求平均年龄

22) df.select(rand())的作用是( )
A) 生成均为正数的浮点随机数
B) 生成均为负数的浮点随机数
C) 生成有正负数的浮点随机数
D) 生成一列 0
23) 以下关于流式数据计算叙述不正确的是( )
A) 流式计算是实时的,批量计算是非实时的
B) 流式计算数据量是无限的,批量计算数据量有限
C) 流式计算数据时效性短,批量计算数据时效性长
D) 流式计算数据速率稳定,批量计算数据速率不稳定
24) SparkStreaming 的 Transformer 算子分为( )
A) 无状态和有状态
B) 长时间和短时间
C) map 和 reduce
D) 单独和窗口
25) DStream 是( )
A) 不间断 RDD
B) 随时间推移而收到的数据序列
C) 含有列信息的 RDD
D) 内存存储块
26) 以下哪个不是 mllib 含有的计算模型( )
A) 分类模型
B) 聚类模型
C) 特征抽取
D) 神经网络
27) 关于聚类和分类以下说法不正确的是( )
A) 聚类是从已知到未知
B) 分类是从未知到已知
C) 逻辑回归是聚类
D) Kmeans 是聚类
28) 以下关于 BOC 算法叙述不正确的是( )
A) BOC 全称是词袋算法
B) BOC 不考虑序列关系
C) BOC 的向量空间是浮点数空间
D) BOC 是非监督特征表述算法
29) 以下关于 Word2Vec 叙述正确的是( )
A) Word2Vec 是一种语言模型
B) Word2Vec 是一种主题模型
C) Word2Vec 和 TFIDF 目标一致
D) Word2Vec 的训练结果是词频矩阵
30) 关于 TFIDF 叙述不正确的是( )
A) TF 是词频
B) IDF 是逆文档频率
C) TFIDF 能够衡量文档和用户关键词之间的相似度
A) TFIDF 利用了序列关系
二、读程序写结果(共 35 分)
1、 请写出下面每段 scala 程序的执行结果(共 10 分,每个 2 分)



2、 已知数据 students.data 格式和内容如下,请写出每个 scala 程序的执行结果,(注意
是执行结果,不是程序的执行目的)(共 15 分,每个 3 分)


3、 使用上题的数据,请写出下面每个 spark 程序的运行结果(共 15 分,每个 3 分)


二、程序设计题(共 20 分)
1、 已知 students.csv 文件内容如下,请补全 sparkSQL 代码完成任务(共 15 分,每个 3
分)


2、 已知日志服务器发送日志的逻辑如下(共 15 分,每个 3 分)
请按要求填入合适的 sparkstreaming 代码完成任务:

四、算法认识(共 20 分)
任选下列某一个本学期所学的算法,谈谈算法的目的、原理和自己的认识:
1、 逻辑回归
2、 线性回归
3、 随机梯度下降
4、 TFIDF
5、 LDA
6、 Kmeans

-----------------------------------------------------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------------------------------------------------
参考答案(即评分标准)
一、选择题(共 30 分,每题 1 分) 
1 2 3 4 5 6 7 8 9 10
B A D A A C B B A D
11 12 13 14 15 16 17 18 19 20
D A D D C B B A D D
21 22 23 24 25 26 27 28 29 30
C A D A B D C C A D
二、简答题(共 40 分) 
1、 (每空 2 分)
a) 12
b) [0]=b,[1]=c,[2]=a,
c) 120
d) a:b
e) 9
2、 (每空 3 分)
a) (RB173,2)(RB172,2)(RB171,2)(RB174,2)
b) 19980302,19950528
c) 张冯姜何周罗宋马
d) 22
e) (23,2)(22,4)(21,1)(24,1)
3、 (每空 3 分)
a) (男,4)(女,4)
b) RB174-13596325874
c) 31254485
d) (何桦,1220)(冯成刚,1001)(周存富,0528)(宋立昌,0528)(罗鹏,0302)
e) (何桦,RB172)(罗鹏,RB173)(马彦,RB174)
三、程序设计题(共 20 分,每空 2 分)
[1] name STRING, no STRING, cls STRING, gender STRING, birthday STRING, 
phone STRING, loc STRING
[2] true
[3] groupBy("gender")
[4] select count(*) from students group by gender
[5] df("birthday")
[6] select max(birthday) from students
[7] (x(2), 1)
[8] x + y
[9] _.contains("error")
[10]_.filter(_.contains("error"))
四、算法认识(共 10 分)

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

JPG

发布了16 篇原创文章 · 获赞 10 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_43869290/article/details/96143156