对于服务器资源消耗,我们大多关注CPU,内存,网络等,往往会忽视IO(磁盘IO为主)瓶颈,下面通过分享一点经验:
什么样的服务容易出现IO瓶颈
1.IO密集型服务(例如数据库,文件存储服务dfs等)
2.含有大量读写的服务(服务日志写入庞大,文件读取频繁)
3.含有持久化功能的服务(Redis、MQ等)
问题思路导图流程(比较粗的划分,与IO流设计有关,但这里不详解啦)
IO->TPS降低
IO->MEM泄露-(数据量多)->TPS降低/内存溢出->宕机
IO->MEM泄露(线程堆积)->CPU升高->TPS降低->宕机
具体排查方法
1.top 看负载,负载高。
2.iostat -x 3 看IO情况 await 列IO响应时间,svctm 没次IO操作服务时间,不应高于5ms-10ms,理想值是await 与svctm接近表示磁盘IO性能很好,如果await 大于svctm表示有IO队列等待,IO读写可能存在瓶颈,util列表示统计时间内IO操作耗时百分比,值越高,IO越繁忙(要结合前两项指标,单纯的高不能断定为IO瓶颈)。
3.iotop查看IO高的进程,strace -p PID 或 lsof -p PID 查看具体进程操作。
补充说明
IO密集型在产生IO瓶颈的时候,负载会高,但CPU百分比未必一定会高,所以要通过iostat、iotop等工具去确认是否是IO瓶颈。