今晚听了一波赵强老师的《大数据的起源和核心思想》直播公开课,讲得挺好理解的,以下是课堂上提到的部分内容:
一、什么是大数据?
例子:
1、商品推荐
(1)大量的订单如何存储
(2)大量的订单如何计算
二、大数据的核心问题
1、数据的存储:分布式的文件系统
2、数据的计算:分布式计算
三、大数据的核心思想(Google的三篇论文)
(1)GFS:Google File System(Google的分布式文件系统)
---->HDFS:Hadoop Distributed File System
(*)HDFS的体系架构:
主节点:NameNode
从节点:DataNode
第二名称结点:Secondary
(*)全分布式环境,最少需要3台机器
分布式文件系统的基本原理
问题1:硬盘不够大
(*)多几个硬盘
问题2:硬盘不够安全
(*)数据冗余(同样的数据多存几份)
(*)HDFS:Hadoop Distributed File System(分布式文件系统)默认的数据块冗余度:3
(*)数据库默认:128M
比如:客户端要上传128M到服务器端,那么只有第一份是客户端上传的,另外两份是从硬盘赋值过来的,因为硬盘间有一个水平复制功能
(2)MapReduce(分布式计算模型):解决大数据的计算问题
核心思想:先拆分、再合并
MapReduce中,有一个默认的排序规则
完整的任务:job=map+reduce
MapReduce的输入和输出都是:HDFS
MR任务需要运行在容器中:Yarn
(3)BigTable(大表)——NoSQL非关系型数据库
四、大数据的整个学习路线
1、Java 基础:Java SE
2、Hadoop:HDFS、Yarn、MapReduce、HBase、Hive、ZooKeeper等
3、Spark
4、Storm:大数据实时计算引擎
5、Redis:内存NoSQL数据库
6、Spark:Spark Core、Spark SQL、Spark Streaming等
8、Apache Kafka