收到报警邮件,说一个服务器的僵尸进程数大于15个。
登录服务器查了一下,发现直接 kill -9 PID 无法杀死僵尸进程,后来查了下资料解决了问题。现总结如下:
1.查看僵尸进程命令 ps -ef | grep defunct
2.查看僵尸进程数量命令
ps -ef | grep -c defunct 或者使用top命令
3.杀死僵尸进程
我这里kill -9 PID无法杀死僵尸进程,但是使用kill -9 PID PPID(父进程ID)就可以。
一般僵尸进程很难直接kill掉,不过您可以kill僵尸的父进程。父进程死后,僵尸进程成为”孤儿进程”,过继给1号进程init,init始终会负责清理僵尸进程。它产生的所有僵尸进程也跟着消失。
# ps -ef | grep defunct | grep -v grep | awk '{print "kill -9 " $2,$3}'
执行上面获得的语句即可获得杀僵尸进程语句, 使用信号量9, 僵尸进程数会大大减少。
我使用上面方式可以解决问题,如果以上方式不成功,再次获得杀僵尸进程语句
# ps -ef | grep defunct | grep -v grep | awk '{print "kill -18 " $3}'
执行上面获得的语句即可获得杀僵尸进程语句, 这次使用信号量18杀其父进程, 僵尸进程应该会全部消失。
# kill -18 PPID PPID是其父进程, 这个信号是告诉父进程, 该子进程已经死亡了, 请收回分配给他的资源。
如果还不行则看先看其父进程又无其他子进程, 如果有, 可能需要先kill其他子进程, 也就是兄弟进程.
方法是:
# kill -15 PID1 PID2 (与直接执行 kill PID1 PID2 相同)
PID1,PID2是僵尸进程的父进程的其它子进程.
然后再kill父进程:
# kill -15 PPID
另外:kill $(ps -ef|grep "defunct"|awk '{print $2,$3}') 这个命令虽然可以一下杀掉所有僵尸,但个人觉得还是慎用。 |
|