服务器宕机又来?身为运维如何快速搞定?

2021-01-20 00:00:00 服务器 判断 故障 系统 原因



信息时代,服务器宕机事件频频发生,即使是各路大佬也难以避免,比如近发生的一些服务器宕机的现象。

1.12月14日晚,谷歌云服务器又一次全球宕机,多个国家及地区用户受到影响,后查明服务中断的原因是云服务器存储满了。
2.12月25日期间,有不少用户的iPhone出现激活故障和iCloud登录失败。甚至不仅是iPhone,就连Apple Watch、HomePod等产品的激活也受到了影响。苹果的客服在网上回应,是因为遭遇了流量高负载情况。
3.12月25日上午,广发证券交易软件出现宕机现象,易淘金APP一直无法登录和交易,此事一度登上微博热搜。
4.12月26日,任天堂 Switch eShop 遭遇宕机故障,任天堂方面发表声明,表示“目前我们的网络服务遇到了困难”。


……


此类事件层出不穷,相信运维都不陌生,所谓“故障有轮回,苍天饶过谁”,宕机让运维的工作处于被动式“救火”状态,运维就像一块砖,哪里需要往哪搬,这种模式也让IT部门疲惫不堪。



从理论上看,没有的安全、可用的资源、不出问题的服务器和应用程序,作为运维,需要充分了解到服务器宕机的原因及解决方法。

 

服务器出现宕机的原因

1.运行环境出现问题,机房断电导致的服务器断电(欠压,过载,波动)、机房温度过高,散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。


2.服务器不堪负重,常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。


3.由于主备数据不一致导致的复制问题。


4.性能问题,运维运行糟糕的SQL或Schema和索引设计等。



运维从哪些方面进行排查?

☛ 硬件


(1)检查硬件是否有冲突;


(2)对比服务器电源所负载的功率判断电源是否出现故障;


(3)扫描硬盘表面检查是否有坏道;


(4)通过错误报告和操作系统的报错信息来判断;


(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。

 

☛ 软件


(1)检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;


(2)在判断硬件没有故障后,考虑系统软件的BUG和漏洞原因;


(3)如果是因为软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力;


(4)电脑病毒。


了解了原因和排查的途径,运维需要从源头去预防宕机现象的发生,通常都是由于故障预警机制不完善,导致运维在宕机发生后才会进行处理,工作效率被大大降低。


相关文章