背景：

很多人都知道，Cloudera和Hortonworks两大hadoop服务商在2018年国庆节期间合并了，当时的新闻：点击

我当时还转发了这个新闻，真的惊讶，这还让MapR怎么活？后面果然MapR也HPE收购了。。不得不说HPE这波操作真的迷，典型的抱团取暖，笔者曾就职于HP，见证了HP的拆、拆、拆分历史，不免有些唏嘘。

当时在hp的时候我们的项目还在使用HDP集群，那个年代，hive on tez 配合orc存储和SparkSQL，已经可以在大数据平台实现现在很多供应商所说的HTAP了，当时我们使用sqoop+pig+tez+hive+oozie+falcon跑批，用phoenix+hbase+kafka+spark跑流任务。那时候觉得orc+hive+hplsql真好用，比vertica好用太多太多，相信每个曾在HP做过的人都吐槽过vertica吧。。

后来在现在的公司接触CDH集群，第一次用到impala，任务量一上去，经常会爆内存，后来还专门了解了impala的优化。impala对于orc格式仅能做到只读，不过Cloudera也有kudu作为他们介于OLAP和OLTP之间的产物供使用，实际使用效果也不错。

两家合并后半年的时间 CDF就出现了，当时厂商来的时候我还挺纳闷，这么快就出新产品了，好牛！结果来介绍才发现，这不就是nifi吗。。。

果然这次CDP7的介绍，对我来说没有惊喜，不会像从CDH5升级CDH6一样令人开心，CDH6目前使用感受不错，偶尔有小BUG也还能忍受。 CDH5里很多组件版本太老，很多企业在线上使用CDH5好多年可能都不敢升级了，当然也可以自己安装高版本的应用，但不享受厂商的售后服务。CDP7相比于CDH6整体停下来就是想告诉我们一句话 "上云！"

思考：

整个会议，厂商一直在围绕"云" 大谈特谈，支持公有云，私有云，本地部署方式。

国外有AWS,Azure,Google，国内有阿里，腾讯，华为，很遗憾，CDP7目前只支持AWS和Azure，跟国内云厂商还没谈好合作，所以国内公有云短期内是没别惦记了。

厂商的人在介绍的时候balabala说了一堆存储计算分离和对象存储的好处，问一句Ozone什么时候支持，副本策略是什么，支不支持纠删码，接口兼容性怎么样了。其实大家都知道Ozone现在还不够好，我问这个也是不想听他一直吹，给我们画饼，果然他告诉我们Ozone要等到CDP7.2才能支持。

再来说说私有云，CDP7的私有云的前提是先部署CDP7的数据中心版本，也就是跟CDH6类似的安装部署方式，本地部署。数据存储方式还是HDFS，暂不支持Ozone对象存储。然后私有云部署方式相比于数据中心版有什么好处呢，是DevOps还是存储计算分离？消耗更大的网络带宽换来的优势是否值得还需要再好好思考一番。

最后就是数据中心版本CDP-DC，我们也可以叫他CDH7，本质上就是对CDH6进行了组件的升级，将部分CDH的组件替换成HDP的组件，比如sentry变成了ranger，navigator变成了atlas， hive2升级到hive3。其他的组件都大差不差，和CDH6.3相比区别不大。

升级的时候，sentry的权限如何同步到ranger，是否有风险？目前仅支持从CDH5升级到CDP7。。。还不支持CDH6升级CDP7。

HDFS的小文件问题被大家诟病，Ozone对象存储也是千呼万唤始出来，然而有点晚了。云厂商发展的太快，包装好的服务拿来直接就能用，CDH和HDP斗了那么久，各自都造了不少轮子，合并之后也开始把功能重叠的做替换，好想感叹一句"大数据的轮子咋就那么多呢？" DeltaLake、Hudi、Iceberg还没整明白呢，那边一下子冒出好多HTAP的数据库厂商。光是看我的专栏列表就知道，咋那么多功能重叠的组件呢，唉！愿hadoop生态越来越好越来越好纯净。

周末吐槽一下，该学的东西还是要学。。以前太懒，不更博客，最近受到杨秀璋老师的影响，更新变的勤快了，希望自己能坚持下去。

2020-05-16: 记一次Cloudera厂商来介绍CDP7有感

背景：

思考：

猜你喜欢