Big Data 学习笔记 大数据框架
一、Big Data名字由来
- 20世纪九十年代,数据仓库之父Bill lnmon就经常提及Big Data。
- 2011年5月,在“云计算相遇大数据”为主题的会议中抛出了Big Data的概念,重点是如何管理PB级数据量,通过分析挖掘这些数据的价值,确保及时向相关人员提供信息。
二、Big Data定义
1.定义:
- 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据结合。
- 通俗来讲,就是数据存储,数据管理,数据计算与数据分析。
2.本质:
- 物理世界在数字世界的映像。
3.目标:
- 更多维度的数据,挖掘事务背后的因果关系。
三、大数据的四个微特征
1.数据量巨大 (Volume)
- 集中存储/集中计算已经无法处理巨大的数据量
2.种类和来源多样化 (Variety)
- 日志/图片/视频/文档/地理位置…
3.分析处理速度快(Velocity)
- 海量数据的及时有效分析。
4.价值密度低,商业价值高(Value)
- 大量的不相关信息进行复杂深度分析,深挖价值。
四、大数据的结构特征
1.结构化数据
例如关系型数据库中的二维表。这类数据最容易处理。
2.半结构化数据
例如HTML。
3.非结构化数据
例如视频、语音等。这类数据最多,但是最不容易处理。
五、数据处理技术分布式演进趋势
六、Hadoop大数据处理平台
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
七、华为大数据解决方案(Fusion Insight)
- Fusion Insight Miner:数据分析、数据挖掘
- Fusion Insight HD:数据存储和数据计算
- Fusion Insight Farmer:应用级开发
- Fusion Insight LibrA:数据存储(数据库)
八、电信级可靠性——系统可靠性
- 业务无单点
- 组件采用主备,负荷分担方式实现服务无单点故障
- 管理节点HA
- OMS节点及所有街舞组件中心管理节点实现HA
- HA就是高可用
- 跨DC容灾/备份
- HBase集群通过HLOG准实时复制,HDFS/Hive集群通过Backup Admin异步复制实现跨数据中心灾备
- 备份是数据,容灾是业务
- 第三方备份系统集成
- 数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成
九、电信级可靠性——数据可靠性
- OS层可靠性加固:
- RAID/OS写缓存保护实现掉电数据保护。
- Raid策略:
- OS,OMS,NameNode,ZK及HDFS数据节点采用不同硬盘分区及Raid策略,兼顾性能情况下保证数据可靠性。
- 快速故障检测:
- 结合华为存储产品经验,尽快发现故障硬盘,降低MTTR,提高数据可靠性。
- 硬盘热插拔:
- 支持在线集群硬盘更换不影响业务,降低MTTR。
- 第三方备份系统集成:
- 数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成。
- 跨数据中心数据备份:
- HBase 集群通过HLOG准实时复制,HDFS/Hive集群通过BackupAdmin异步复制实现跨数据中心备灾。