大数据集群搭建方案对比

1.前言

回顾从前,已经在大数据领域混了5年了,经手了不少大数据集群搭建方案,自己也做过许多大数据平台的运维工作,在这里进行阶段性的总结。

2.大数据集群方案对比

简单直接,这里站在生产环境的角度考虑如何选择集群搭建方案,大致有如下几个维度:

对比项 原生Hadoop CDH HDP(Ambari)
是否开源 完全开源 收费/免费(可商用) 开源
安装方式 手动 工具 工具
适用集群规模 10个节点以内 n个节点 n个节点
搭建复杂度 困难 容易 容易
运维难度 困难 容易 中等
市场占有率
所属机构 Apache Cloudera Hortonwork

接下来进行一些扩展:

  • CDP

    CDP是 2018年 Cloudera与 Hortonworks以 52亿美元价格宣布合并之后,新公司所发布的首款新产品,也是一个基于云的大数据平台,需要付费使用。至此,CDH 6.x就是最后一个版本了,HDP也不会更新了,后面就只有 CDP了。

  • 国内商用大数据平台

    笔者接触的国内商用大数据平台有:

    ​ 华为 FusionInsight和 腾讯 TBDS两家,其中 华为FI落地是在上海,集群规模 100+,根据业务特点,单独部署了 Spark集群和 HBase集群;腾讯 TBDS落地在江苏,集群规模 50+,据说腾讯这个是基于 Ambari进行二次开发的,整体易用性和稳定性都很不错。

对于集群搭建方案的选择,这里笔者也给出一些自己的看法:

  • CDH ——国内公司首选

    节点数量不多,小于 50个节点,基本不会对组件进行修改,重点在于大数据应用的开发,选它。

  • HDP

    可能会对组件进行调整,不满于 CDH免费版的一些限制,选它。

  • 原生 Hadoop ——完全开源

    集群规模小,比如 内部开发环境;需要修改组件源码,做一些定制化,选它。

  • 商用大数据平台

    项目或者产品的预算够,选它。

3.总结

笔者上一家公司第一代大数据平台使用的是 CDH免费版,因为其中的不少限制,第二代大数据平台选择了开放性更好的 HDP(Ambari)。现公司,原生 Hadoop和 CDH并存,为什么呢?信创。由于信创机器的限制,CDH无法在上面部署,而原生的 Hadoop我们团队亦进行了部分源码修改才得以正常运行。

猜你喜欢

转载自blog.csdn.net/Daphnisz/article/details/129648964