一.尽可能搞清楚问题的前因后果
1.故障是什么时候发现的?
2.故障的表现是什么?无响应?报错?
3.最后一次对整个平台进行更新的内容是什么(代码、服务器等)
二.当前有谁在,做过什么操作
1. w/who
2. last
3. history
三.现在运行的进程有什么
1. pstree -a //以树状图显示进程间的关系
2. ps -aux
四.监听的网络服务
1. netstat -nalp
2.netstat -ntlp
3.netstat -nulp
-n或--numeric 直接使用IP地址,而不通过域名服务器。
-a或--all 显示所有连线中的Socket。
-l或--listening 显示监控中的服务器的Socket。
-p或--programs 显示正在使用Socket的程序识别码和程序名称。
-t或--tcp 显示TCP传输协议的连线状况。
-u或--udp 显示UDP传输协议的连线状况。
五. 内存 CPU 磁盘空间
1.内存
(1) free -m
第一行 : 内存总数 已使用内存数 空闲内存数 废弃内存数 缓存内存数 缓存内存数
第二行: - buffers/cache: 已使用内存数 (指的第一行中的used – buffers – cached)
+ buffers/cache: 空闲内存数(指的第一行中的free + buffers + cached)
第三行: 指交换分区, Linux的Swap类似于Windows的虚拟内存,就是把一部分硬盘空间虚拟成内存使用,用来解决内存容量不足的问题。如果有使用到Swap,说明服务器该升级配置了。
2.CPU
(1)uptime
系统时间 系统运行时间 已登录用户的数量 系统的平均负载量: 过去一分钟 五分钟 十五分钟
注:有一种说法,当load avarage <3 系统良好,大于5 则有严重的性能问题
(2)top
第一行同uptime
第二行为进程的信息
总进程数 正在运行的进程数 睡眠进程数 停止进程数 僵尸进程数
第三行为CPU信息
us: 用户空间占用CPU百分比
sy 内核空间占用CPU百分比
ni 用户进程空间内改变过优先级的进程占用CPU百分比
id 空闲CPU百分比 //比较重要
wa 等待输入输出的CPU时间百分比
第四、五行为内存信息
Mem : 8169876 k total , 7686472 k used , 483404 k free , 35272 k buffers
物理内存总量 使用的物理内存总量 空闲内存总量 用作内核缓存的内存量
Swap : 4096532 k total , 160 k used , 4096372 k free , 2477532 k cached
交换分区总量 使用的交换区总量 空闲交换区总量 缓冲的交换区总量
3.磁盘空间
(1) df -h 显示目前在Linux系统上的文件系统的磁盘使用情况统计
文件系统的名称 总内存 使用中的内存 可使用的内存 使用的内存占总内存的百分比 挂载点
(2) du -sh * 查看当前文件夹下所有目录大小
六.io性能
1.iotop
读取速度 写入速度
2. dstat --top-mem --top-io --top-cpu 查看当前占用内存、io、CPU最高的进程信息