浅谈大数据的起源和核心思想

今晚听了一波赵强老师的《大数据的起源和核心思想》直播公开课，讲得挺好理解的，以下是课堂上提到的部分内容：

一、什么是大数据？
例子：
1、商品推荐
（1）大量的订单如何存储
（2）大量的订单如何计算

二、大数据的核心问题
1、数据的存储：分布式的文件系统
2、数据的计算：分布式计算

三、大数据的核心思想（Google的三篇论文）
（1）GFS：Google File System（Google的分布式文件系统）
---->HDFS：Hadoop Distributed File System
（*）HDFS的体系架构：
主节点：NameNode
从节点：DataNode
第二名称结点：Secondary
（*）全分布式环境，最少需要3台机器
分布式文件系统的基本原理
问题1：硬盘不够大
（*）多几个硬盘
问题2：硬盘不够安全
（*）数据冗余（同样的数据多存几份）
（*）HDFS：Hadoop Distributed File System（分布式文件系统）默认的数据块冗余度：3
（*）数据库默认：128M
比如：客户端要上传128M到服务器端，那么只有第一份是客户端上传的，另外两份是从硬盘赋值过来的，因为硬盘间有一个水平复制功能

（2）MapReduce（分布式计算模型）：解决大数据的计算问题
核心思想：先拆分、再合并
MapReduce中，有一个默认的排序规则
完整的任务：job=map+reduce
MapReduce的输入和输出都是：HDFS
MR任务需要运行在容器中：Yarn

（3）BigTable（大表）——NoSQL非关系型数据库

四、大数据的整个学习路线
1、Java 基础：Java SE
2、Hadoop：HDFS、Yarn、MapReduce、HBase、Hive、ZooKeeper等
3、Spark
4、Storm：大数据实时计算引擎
5、Redis：内存NoSQL数据库
6、Spark：Spark Core、Spark SQL、Spark Streaming等
8、Apache Kafka

浅谈大数据的起源和核心思想

猜你喜欢