时间:2020-05-14
天气:阴
坐标:上海杨浦区
-----------------------------------------------------------------------
背景:
很多人都知道,Cloudera和Hortonworks两大hadoop服务商在2018年国庆节期间合并了,当时的新闻:点击
我当时还转发了这个新闻,真的惊讶,这还让MapR怎么活? 后面果然MapR也HPE收购了。。不得不说HPE这波操作真的迷,典型的抱团取暖,笔者曾就职于HP,见证了HP的拆、拆、拆分历史,不免有些唏嘘。
当时在hp的时候我们的项目还在使用HDP集群,那个年代,hive on tez 配合orc存储和SparkSQL,已经可以在大数据平台实现现在很多供应商所说的HTAP了,当时我们使用sqoop+pig+tez+hive+oozie+falcon跑批,用phoenix+hbase+kafka+spark跑流任务。那时候觉得orc+hive+hplsql真好用,比vertica好用太多太多,相信每个曾在HP做过的人都吐槽过vertica吧。。
后来在现在的公司接触CDH集群,第一次用到impala,任务量一上去,经常会爆内存,后来还专门了解了impala的优化。impala对于orc格式仅能做到只读,不过Cloudera也有kudu作为他们介于OLAP和OLTP之间的产物供使用,实际使用效果也不错。
两家合并后半年的时间 CDF就出现了,当时厂商来的时候我还挺纳闷,这么快就出新产品了,好牛!结果来介绍才发现,这不就是nifi吗。。。
果然这次CDP7的介绍,对我来说没有惊喜,不会像从CDH5升级CDH6一样令人开心,CDH6目前使用感受不错,偶尔有小BUG也还能忍受。 CDH5里很多组件版本太老,很多企业在线上使用CDH5好多年可能都不敢升级了,当然也可以自己安装高版本的应用,但不享受厂商的售后服务。CDP7相比于CDH6整体停下来就是想告诉我们一句话 "上云!"
思考:
整个会议,厂商一直在围绕"云" 大谈特谈,支持公有云,私有云,本地 部署方式。
国外有AWS,Azure,Google,国内有阿里,腾讯,华为,很遗憾,CDP7目前只支持AWS和Azure,跟国内云厂商还没谈好合作,所以国内公有云 短期内是没别惦记了。
厂商的人在介绍的时候balabala说了一堆存储计算分离和对象存储的好处,问一句Ozone什么时候支持,副本策略是什么,支不支持纠删码,接口兼容性怎么样了。 其实大家都知道Ozone现在还不够好,我问这个也是不想听他一直吹,给我们画饼,果然他告诉我们Ozone要等到CDP7.2才能支持。
再来说说私有云,CDP7的私有云的前提是先部署CDP7的数据中心版本,也就是跟CDH6类似的安装部署方式,本地部署。数据存储方式还是HDFS,暂不支持Ozone对象存储。然后私有云部署方式相比于数据中心版有什么好处呢,是DevOps还是存储计算分离? 消耗更大的网络带宽换来的优势是否值得还需要再好好思考一番。
最后就是数据中心版本CDP-DC, 我们也可以叫他CDH7,本质上就是对CDH6进行了组件的升级,将部分CDH的组件替换成HDP的组件,比如sentry变成了ranger,navigator变成了atlas, hive2升级到hive3。 其他的组件都大差不差,和CDH6.3相比区别不大。
升级的时候,sentry的权限如何同步到ranger,是否有风险? 目前仅支持从CDH5升级到CDP7。。。 还不支持CDH6升级CDP7。
HDFS的小文件问题被大家诟病,Ozone对象存储也是千呼万唤始出来,然而有点晚了。云厂商发展的太快,包装好的服务拿来直接就能用,CDH和HDP斗了那么久,各自都造了不少轮子,合并之后也开始把功能重叠的做替换,好想感叹一句"大数据的轮子咋就那么多呢?" DeltaLake、Hudi、Iceberg还没整明白呢,那边一下子冒出好多HTAP的数据库厂商。光是看我的专栏列表就知道,咋那么多功能重叠的组件呢,唉! 愿hadoop生态越来越好越来越好纯净。
周末吐槽一下,该学的东西还是要学。。以前太懒,不更博客,最近受到杨秀璋老师的影响,更新变的勤快了,希望自己能坚持下去。