atop,调查服务器宕机事件的神器

之前服务器偶尔故障,SSH连不上,只能在IDC的后台去重启机器。这就使得调查导致问题的原因变得十分困难。

于是老蔡查阅“中外典籍”,找到了这个神器:atop atop不仅平时可以帮你自动高亮异常负载(CPU,内存,磁盘,网络),还能每隔15分钟存个档,重启后可以调出来看案发现场是哪个进程出了故障。

定时保存服务器资源负载数据

这是老蔡在刚刚不久前通过atop定期记录服务器负载这个功能定位到的一个很低概率发生的内存泄漏导致服务器死机的现场还原截图。

atop默认有个服务,启动服务后,每15分钟存档一次,以天为单位保存成文件。

真相永远只有一个,各位新一姬,还原犯罪现场,找出杀死服务器的真凶吧。

service atop restart

启动atop记录服务

atop -r /var/log/atop/atop_20181019

通过这条命令来查阅记录,进入后,t是下一页,T是上一页,每一页15分钟间隔。

atop还能自动高亮服务器性能瓶颈

拿一台磁盘IO基本已经快到顶的服务器举例,atop会自动标红DSK的busy程度。

以往我们排查问题的时候,可能会需要用各种工具查看,比如htop,iotop,iostat,nload,iftop,等等,最后过了半个小时说不定才可以找到问题(还看经验是否丰富),而用atop可以轻松察觉。

深入了解atop

atop磁盘的DSK后面的数字都代表什么