大数据:大量日常、工作等事务产生的数据量比以前有爆炸式增长,传统的数据处理技术无法满足数据处理任务,一套处理海量数据的工具应用而生。
大数据在实际中的使用:经营情况分析、各类推荐系统、精准广告营销等
处理海量数据和核心技术:分布式
分布式包括:1.分布式数据存储 2.分布式数据运算
其中流行的大数据存储框架:
1.HDFS——分布式文件存储系统(HADOOP中的存储框架)
2.Hbase——分布式数据库
3.Kafaka——分布式消息缓存系统
流行的运算框架:
1.MapReduce——离线批处理(Hadoop中的运算框架)
2.Spark——离线批处理/实时流式计算
3.Storm——实时流式计算
辅助类工具:
1.Hive——数据仓库(可以接收sql,翻译成mapreduce或者spark程序运行)
2.Flume——数据采集
3.Sqoop——数据迁移
4.ElasticSearch——分布式的搜索引擎