MapReduce开发实战

1.Yarn每一个子模块的作用要记清楚
resource模块的作用
master

2.最后一个章节数据挖掘的流程
商业理解
数据理解 对应用的采集预处理’ 制表、记录、数据清洗
建模 AI选哪个模型
评估过程,对建模的结果
部署上线

3.单选多选判断简答

大数据
分布式架构
IBM自己的产品 sifuni中主节点叫做masternode
yarn的三个模块每个模块负责什么任务
contanner是哪个模块启动的?
大数据依赖的技术存储、处理、智能化
spark支持多种语言的API,java,scala,python,r
HDFS namendoe管理文件系统 存储文件系统的元数据来控制整个个
spark提交命令的命令
大数据平台部署软件unbairui模块组成 管理的最小单位是component mapreduce对他来说
unbairui用来部署各种haddop,spqrk,tez
cenfini与其它架构 资源调度 任务管理sum
sparkonyarn meisouse 与ego同属于一个层次 资源管理层 用于资源调度
mapreduce是计算引擎的一个框架
hadoop集群部署,改namenode,元数据:存储文件系统的架构的,后来还建一个data用于
google起源于三篇论文,google firsystem hbase mapreduce
介绍spark与yarn的不同 s支持流式计算 storm
安装hadoop更改配置文件,4个文件
yarn调度器的 先来先服务 深层回归模型 多种类型的调度
spark数据结构最初的数据结构RDD冗余数据 dataframe以RDD为基础的一种数据模式
应用场景区别hadoop大批量离线数据处理 不管实时性
hbase负责分布式存储的最小单元hregion
hadoop分布式处理的框架 提供了简单的编程模型 既有计算引擎

sefenni ego sume 主要的进程 lime进程最核心的进程 mkd
spark原生实现 scala jvm虚拟机运行
HDFS不同节点上能做数据冗余 设多个备份

Linux安装配置
Hadoop安装设置
spark

猜你喜欢

转载自blog.csdn.net/AthlenaA/article/details/84819619