作者:焦振清
时间:2018-07-04
在做大数据运维后,从虚拟化重新回到了物理机时代,记录工作中遇到的问题
场景一:机器管理
- 有头无尾
- 机器硬件故障,处理耗时有时长达数周,修复后,忘记重新上线服务
- 机器借给别人后,就变成送给别人了
- 项目申请一批机器,项目结束后,没人归还,机器就闲置了
- 混部
- 对机房的要求,需要华南的资源,但是华南的资源都集中在某些业务上,虽然使用率低,你也用不上
- 对硬件的要求,需要SSD的机器,但SSD的资源都集中在某些业务上,虽然使用率低,你也用不上
- 业务划分太细,每个业务都有自己的集群,但是使用率都很低,都在抱怨资源不足
- 开发和测试,都觉得没有机器,同时又都有大量机器闲置或者异常
- ES集群内各节点磁盘大小不一致,很容易因分片数平衡而导致问题