版本环境
CDH 5.15.5
8台主机,每台机存储100GB,内存为8GB
问题
CDH页面报错,一些服务挂掉,无法使用。查看主机存储,发现有3-4台机器的存储即将满了。而namenode的存储空间即将满。
解决措施
- 登录namenode的后台,删除不必要的文件。因为是使用ansible进行批量的部署,所以本机依旧存储之前的安装包,总大小大概为8GB左右。删除该安装包,腾出8GB。
- CM管理控制台查看告警内容,很多都是日志空间不足。进入每个服务的配置页面,点击筛选“日志”,将每一个的
最大日志文件备份
从10
改为2
。全部修改完毕,暂时不重启;
- 在CM管理控制台,点击进去HDFS的配置页面,输入:
dfs.replication
,查看为3
,改为2
。并保存,暂时不重启;
- 登录集群的机器,输入命令
hadoop fs -setrep -R 2 /
。因为现在HDFS上面的原始文件总大小大概为120GB
,复制的文件大概为240GB
。执行完毕,复制文件变成了120GB
,减少了大概120GB
的大小。等待执行完毕之后,到CM管理控制台重启集群。 - 重启完毕,查看主机存储,发现有些不平衡。故登录CM管理控制台的HDFS界面,点击
操作
,选择重新平衡
。平衡完毕,各个主机的存储基本平衡。
总结
查看具体的报错原因,从CM管理控制台可以看到,很多问题都是日志的问题,也有HDFS的问题。从这两方面解决即可。