服务器宕机又来?身为运维如何快速搞定?
信息时代,服务器宕机事件频频发生,即使是各路大佬也难以避免,比如近发生的一些服务器宕机的现象。
……
此类事件层出不穷,相信运维都不陌生,所谓“故障有轮回,苍天饶过谁”,宕机让运维的工作处于被动式“救火”状态,运维就像一块砖,哪里需要往哪搬,这种模式也让IT部门疲惫不堪。
从理论上看,没有的安全、可用的资源、不出问题的服务器和应用程序,作为运维,需要充分了解到服务器宕机的原因及解决方法。
服务器出现宕机的原因
1.运行环境出现问题,机房断电导致的服务器断电(欠压,过载,波动)、机房温度过高,散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。
2.服务器不堪负重,常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。
3.由于主备数据不一致导致的复制问题。
4.性能问题,运维运行糟糕的SQL或Schema和索引设计等。
运维从哪些方面进行排查?
☛ 硬件
(1)检查硬件是否有冲突;
(2)对比服务器电源所负载的功率判断电源是否出现故障;
(3)扫描硬盘表面检查是否有坏道;
(4)通过错误报告和操作系统的报错信息来判断;
(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。
☛ 软件
(1)检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;
(2)在判断硬件没有故障后,考虑系统软件的BUG和漏洞原因;
(3)如果是因为软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力;
(4)电脑病毒。
了解了原因和排查的途径,运维需要从源头去预防宕机现象的发生,通常都是由于故障预警机制不完善,导致运维在宕机发生后才会进行处理,工作效率被大大降低。
相关文章