目录故障背景所有设备正常业务却在轮流死机客户环境12台ESXi主机75台虚拟机多品牌存储凌晨1点的求助电话3家厂商排查数小时无果远程初判问题在存储层凌晨3点赶往现场VMware性能分析Datastore延迟异常锁定故障一台10年老存储的坏道硬盘技术解析为什么一块盘能拖垮整个平台故障排除下线故障盘5分钟恢复故障后整改淘汰超龄设备建立监控体系经验总结最可怕的不是坏掉的设备而是带病运行的设备1. 故障背景所有设备正常业务却在轮流死机对于医院来说服务器宕机并不是最可怕的。真正可怕的是所有服务器都正常网络正常存储正常但整个业务系统却越来越慢甚至轮流死机。2024年4月我就遇到过这样一次故障。凌晨1点一家三甲医院的虚拟化平台几乎陷入瘫痪。驻场运维、集成商、存储厂家连续排查数小时都没有找到原因。最终故障根因竟然是一块已经告警一个多月的老旧硬盘。2. 客户环境12台ESXi主机75台虚拟机多品牌存储该医院为三甲等级日门诊量约6000人次开放床位1500张。核心业务系统包括HIS、LIS、PACS和集成平台全部运行在VMware虚拟化环境上。虚拟化平台规模ESXi主机12台虚拟机75台虚拟化平台VMware vSphere存储架构方面医院采用存储虚拟化网关统一管理后端存储资源网关下挂载了多个品牌的存储设备EMC、同友、浪潮、宏杉、信核、曙光、思科。其中部分设备已经运行超过10年。3. 凌晨1点的求助电话凌晨1点左右电话突然响起。对方焦急地说董工这么晚打扰你了现在整个虚拟化平台卡死了业务系统轮流死机。进一步了解情况后得知LIS访问缓慢合理用药响应异常集成平台频繁超时多台物理主机无规律重启4. 3家厂商排查数小时无果医院已经组织了驻场运维工程师、集成商工程师和存储厂家工程师联合排查。检查范围覆盖了网络交换机FC交换机FC链路VMware主机虚拟机状态均未发现明显异常。几个小时过去了问题还没找到。5. 远程初判问题在存储层通过电话和远程协助我让现场工程师重点查看Datastore性能、主机存储延迟和存储响应时间。很快发现一个共同现象所有业务都在等待存储返回数据。我当时就判断问题大概率不在应用层也不在虚拟化层而是在存储层。于是建议大家重点检查后端存储性能。6. 凌晨3点赶往现场原本以为已经找到了方向没想到凌晨3点电话再次响起董工方向有了但是问题还是没找到。于是我带着设备直接赶往医院。医院距离我大约15公里凌晨3点出发3点30分到达现场。到现场后首先逐项确认基础环境网络正常FC交换机正常光纤链路正常VMware主机正常CPU正常内存正常但业务依然很慢。于是开始重点分析VMware存储性能。7. VMware性能分析Datastore延迟异常通过VMware性能监控发现多个Datastore延迟明显升高大量虚拟机出现存储等待部分虚拟机因长时间无法访问存储而出现异常重启这说明问题一定还在后端存储。8. 锁定故障一台10年老存储的坏道硬盘继续检查存储虚拟化网关后面的各套存储终于发现异常——其中一台已经运行超过10年的老存储存在硬盘故障。进一步检查发现其中一块硬盘已经出现严重坏道更关键的是这块硬盘其实一个多月前就已经开始告警9. 技术解析为什么一块盘能拖垮整个平台很多人都问既然硬盘早就告警了为什么当天凌晨才把整个医院拖垮原因就在于存储虚拟化网关架构。医院所有存储资源都被统一整合到存储虚拟化网关中对于VMware来说后端所有存储都表现为一个统一资源池。故障初期虽然硬盘已经出现坏道但存储控制器还能通过重试机制维持运行。随着坏道不断增加硬盘响应越来越慢。而当晚医院正好进行数据库备份、影像归档和批量数据处理存储压力突然增大。故障盘开始出现大量I/O阻塞。由于存储虚拟化网关需要等待底层存储返回结果最终导致整个存储池响应时间被拉高。结果就是一块故障硬盘拖慢了整个虚拟化平台所有虚拟机同时受到影响。这本质上是存储虚拟化网关架构的一个潜在风险——它实现了资源的统一管理但同时也意味着底层任何一块存储的严重性能问题都可能通过网关扩散到整个资源池。10. 故障排除下线故障盘5分钟恢复确认故障盘后立即将故障硬盘下线。不到5分钟Datastore延迟明显下降虚拟机陆续恢复正常业务响应速度恢复经过持续观察到早上7点左右LIS、合理用药、集成平台全部恢复正常VMware平台恢复稳定。最终没有影响当天门诊业务。11. 故障后整改淘汰超龄设备建立监控体系故障结束后医院决定从三个方面进行整改一、淘汰超龄存储设备逐步下线运行超过8年的老旧设备避免老旧设备继续承担核心业务。二、建立存储生命周期管理机制明确各类存储设备的使用年限和淘汰标准从制度上杜绝超期服役。三、开展全面健康巡检与持续监控对ESXi主机、Datastore性能、FC链路和存储延迟进行全面评估建立持续监控体系提前发现坏盘、慢盘、延迟异常和容量风险避免类似故障再次发生。12. 经验总结最可怕的不是坏掉的设备而是带病运行的设备这次故障让我印象特别深刻。因为现场所有人都在关注VMware、网络、FC交换机、存储网关却忽略了一块已经告警一个多月的硬盘。很多时候真正危险的不是已经坏掉的设备而是已经发出告警却仍然带病运行的设备。对于医院来说故障并不可怕可怕的是风险已经存在而没人发现。如果这次故障发生在上午门诊高峰期后果将完全不同。所以信息科真正需要关注的不是故障发生后的抢修能力而是故障发生前发现风险的能力。本文为真实IT故障排查案例复盘。作者拥有20年企业IT基础架构实战经验专注VMware虚拟化、vSAN超融合、Oracle数据库故障排查与性能优化、企业容灾备份及应急恢复服务医疗、制造业、汽车集团等行业客户。