大数据技术——数据处理和分析 - 代码天地

大数据技术——数据处理和分析

企业开发 2018-08-13 01:36:13 阅读次数: 0

大数据技术——数据处理和分析

场景：数据清洗，数据规范化，统计分析等。

1. 实时处理

对于实时数据及时处理，并输出结果。

推荐技术：

SPARK STEAMING：一小段时间的批数据进行处理并产出。支持交互查询，

STROM：纯实时处理，来一条处理一条。低延时，高容错性。

对于这两个技术，也是针对于应用场景的，假如不能忍受高延时且不需要复杂的交互查询则用STROM，否则一般用SPARK STREAMING。

2. 离线处理

对于离线批数据的处理。

推荐技术：

HIVE：类SQL的语法，SQL ON MAPREDUCE，低开发成本。也可以用JAVA写UDF。

MAPREDUCE：JAVA编写MAP程序，REDUCE程序

SPARK：SCALA或者PYTHON开发，也支持SQL。

HIVE与MAPREDUCE的比较：

HIVE提交的SQL会转化成MAPREDUCE的任务去执行。

HIVE的开发成本不高，优先用SQL解决问题。否则需要写UDF或者选择MAPREDUCE来解决问题。

HIVE和SPARK的比较：

本质上，SPARK计算引擎比MAPREDUCE计算引擎高效得多。

但SPARK是基于内存的分布式计算，数据大小最好不超过集群资源内存总量太多。否则变得非常低效。

以上推荐的技术是行业内常用的技术。但不唯一。

猜你喜欢

转载自www.cnblogs.com/hzuCode/p/9465744.html

大数据技术——数据处理和分析

大数据处理技术的总结与分析

大数据处理和分析2003291314

征信大数据处理和征信大数据挖掘分析技术的介绍

干货：大数据处理技术的总结与分析

如何分析区块链技术的大数据处理模式？

如何提高大数据处理和分析的能力?

大数据处理技术如何学习?

大数据处理技术如何学习？

大数据处理框架技术概览

大数据处理技术与应用

大数据技术原理与应用第三篇大数据处理与分析（三）Spark

大数据技术原理与应用第三篇大数据处理与分析 (一) MapReduce

大数据处理

大数据入门环境搭建整理、大数据入门系列教程合集、大数据生态圈技术整理汇总、大数据常见错误合集、大数据的离线和实时数据处理流程分析

大数据战疫情｜讲述大数据处理和应用中相关算法设计与分析

PySpark和大数据处理初探

大数据处理技术，主要包括哪些基本技术？

大数据处理技术之数据清洗

大数据处理技术之数据集成

【全栈工程师】前端深度技术 + 后台大数据处理大分析

大数据技术原理与应用第三篇大数据处理与分析 (二) Hadoop再探讨

16-大数据处理技巧--数据分析

Python大数据分析之数据处理

数据处理与分析

【数据处理】大数据处理的四项关键技术

专注于Scala语言、Hadoop及Spark大数据处理技术

《Spark大数据处理技术》PDF版

大数据处理应用及核心技术解读

大数据处理的关键技术及应用

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)