浅谈大数据的起源和核心思想

今晚听了一波赵强老师的《大数据的起源和核心思想》直播公开课,讲得挺好理解的,以下是课堂上提到的部分内容:

一、什么是大数据?
例子:
1、商品推荐
(1)大量的订单如何存储
(2)大量的订单如何计算

二、大数据的核心问题
1、数据的存储:分布式的文件系统
2、数据的计算:分布式计算

三、大数据的核心思想(Google的三篇论文)
(1)GFS:Google File System(Google的分布式文件系统)
                 ---->HDFS:Hadoop Distributed File System
(*)HDFS的体系架构:
        主节点:NameNode
        从节点:DataNode
        第二名称结点:Secondary
(*)全分布式环境,最少需要3台机器
        分布式文件系统的基本原理
 问题1:硬盘不够大
(*)多几个硬盘
 问题2:硬盘不够安全
(*)数据冗余(同样的数据多存几份)
(*)HDFS:Hadoop Distributed File System(分布式文件系统)默认的数据块冗余度:3
(*)数据库默认:128M
       比如:客户端要上传128M到服务器端,那么只有第一份是客户端上传的,另外两份是从硬盘赋值过来的,因为硬盘间有一个水平复制功能

(2)MapReduce(分布式计算模型):解决大数据的计算问题
               核心思想:先拆分、再合并
               MapReduce中,有一个默认的排序规则
               完整的任务:job=map+reduce
                  MapReduce的输入和输出都是:HDFS
                  MR任务需要运行在容器中:Yarn

(3)BigTable(大表)——NoSQL非关系型数据库


四、大数据的整个学习路线
1、Java 基础:Java SE
2、Hadoop:HDFS、Yarn、MapReduce、HBase、Hive、ZooKeeper等
3、Spark
4、Storm:大数据实时计算引擎
5、Redis:内存NoSQL数据库
6、Spark:Spark Core、Spark SQL、Spark Streaming等
8、Apache Kafka
 

猜你喜欢

转载自blog.csdn.net/weixin_37590454/article/details/81210845