78故障RCA根因分析5Why、鱼骨图实操方法一、本课学习目标理解Fab EAP故障RCA根因分析核心价值区分表象故障与根本原因熟练掌握5Why逐层追问分析法适配通信断线、数据丢失、自动化中断各类EAP故障掌握鱼骨图人/机/料/法/环绘制实操用于复合型叠加批量故障拆解明确RCA报告标准撰写框架满足工厂复盘、绩效改善、项目追溯要求学会输出短期临时对策、长期根治改善方案杜绝同类故障重复发生二、RCA基础概念与工厂应用场景1. 什么是RCA根本原因分析仅处理故障表面恢复手段属于临时止损RCA深挖故障底层根源从配置、架构、流程、人员、环境维度制定长效改善避免故障反复复发。2. EAP强制要求做RCA的故障范围批量整区设备离线停机时长≥10分钟一级故障数据大面积丢失Trace/工单/报警造成工艺追溯缺失自动化率大幅下跌、WIP批次大量堆积同一故障月度重复发生3次及以上版本升级、配置变更引发的大规模产线异常3. RCA分析两大核心工具5Why适用于单一链式故障因果关系清晰的单机/简单批量故障鱼骨图人机料法环适用于多因素叠加复合型故障多维度并行排查根因三、工具一5Why逐层追问法完整实操1. 标准使用逻辑围绕故障现象连续追问5层“为什么”直到找到不可再拆解的底层根源人员流程缺陷、架构设计缺陷、设备固件BUG、标准缺失等禁止停留在表面操作问题。2. 5Why分析标准步骤精准描述故障现象时间、设备范围、异常表现、产能损失第一层Why故障为什么发生直接表象原因第二层Why第一层原因为什么会出现第三层Why第二层诱因背后的条件是什么第四层Why系统/配置/流程上为什么没有拦截该问题第五层Why管理制度、标准、架构上存在什么缺失依据最终根因输出短期临时对策长期根治方案3. EAP实操案例单台薄膜机每日随机断线3次现象薄膜机每日多次离线Trace数据频繁丢失Why1设备频繁断连 → EAP与设备HSMS会话超时断开Why2HSMS T3应答超时 → 设备大量Step Trace大报文回复延迟Why3Trace测点过多报文流量过大挤占带宽 → 无统一采集标准工艺无管控测点清单Why4新机导入时未区分高低负载机型直接套用光刻低负载采集模板 → 无分机型标准化配置规范Why5新项目新机上线无EAP负载校验流程上线前缺少服务器负载评估环节根本根因缺少分机型Trace标准化模板新机导入无负载校验流程短期对策临时删减薄膜机非必要DV测点上调本机T3参数长期改善建立四大工艺机型标准化Trace模板新机上线前增加负载模拟校验测试用例。4. 5Why使用避坑要点追问禁止归咎单一人员操作失误优先查找流程、标准、架构缺陷不可中途停止追问浅层原因只能临时缓解无法彻底杜绝复发每一层Why必须有日志、抓包、服务器监控数据作为事实依据不主观臆断四、工具二鱼骨图人机料法环实操绘制方法1. 五大核心维度释义EAP故障专用人运维操作、厂商调试、产线人员误操作、培训缺失、权限管控漏洞机EAP服务器硬件、交换机、机台控制器、网线、供电、磁盘、网卡料配置模板、点位表、EAP安装包版本、固件版本、IP规划台账法运维流程、变更审批流程、新机导入规范、巡检标准、应急处置流程环厂区电磁干扰、温湿度、网络VLAN隔离、生产流量压力、高负载工况2. 鱼骨图绘制标准步骤鱼头填写完整故障现象如整区刻蚀机批量随机离线主骨分出五大分支人、机、料、法、环分支细化每个维度延伸次级小骨列出所有潜在诱因结合日志、抓包、监控证据筛选关键诱因标记有数据支撑、重复出现的高风险因素定位核心根因从关键诱因中找到底层系统缺陷输出改善措施3. EAP复合型故障鱼骨图实操举例故障夜班整区设备批量Trace丢失人运维未按时巡检磁盘、版本升级未做灰度测试、变更无双人复核机EAP磁盘容量不足、交换机端口丢包、服务器内存泄漏、硬盘读写故障料Trace采集模板测点过多、EAP旧版本存在转发BUG、点位表配置错误法无磁盘使用率告警机制、无Trace负载管控标准、夜间无定时清理日志脚本环夜间批量Run生产报文流量峰值、多高负载设备共用单台EAP服务器筛选根因缺少磁盘自动告警脚本高负载设备未分布式拆分无Trace负载管控规范4. 鱼骨图适用场景多因素叠加、批量大范围故障、涉及多团队IT/设备/EAP/工艺协同分析场景。五、RCA改善分层标准临时对策VS长期根治方案1. 临时对策快速止损短期生效故障发生后立刻执行保障产线恢复自动化运行仅作为过渡手段临时删减Trace测点、上调HSMS超时参数手动清理磁盘、重启EAP服务、切换主备服务器手动过滤重复抖动报警、临时旁路非核心校验规则要求所有临时操作登记台账班次结束必须撤销恢复标准配置。2. 长期根治方案RCA核心输出永久消除故障从根因层面优化体系杜绝故障重复发生流程优化新增巡检项、完善变更审批、新增新机负载校验流程架构优化拆分EAP服务器、部署主备高可用、独立隔离高负载设备网段标准化优化分机型统一Trace模板、统一HSMS基线参数、标准化点位表监控优化新增磁盘/内存/断线自动告警脚本异常提前预警培训优化完善运维培训明确高低负载机型差异化运维规范六、标准RCA复盘报告必填框架故障基础信息发生时间、恢复时间、停机总时长、受影响设备、产能损失、故障等级故障完整现象现场表现、日志/抓包/监控佐证数据分析过程5Why链式推理 或 鱼骨图多维度诱因梳理直接原因表层 根本原因底层系统缺陷区分说明已执行临时应急处置措施记录长期根治改善方案明确责任人、完成时限、验收标准验证记录改善完成后连续观测周期确认故障零复发七、RCA分析高频踩坑点只处理表面问题不深挖系统根因同类故障反复发生拉低重复故障KPI无日志、抓包、监控数据支撑主观猜测故障原因报告无效无法落地改善改善方案仅停留在临时操作无长效标准化、架构优化措施批量故障仅使用5Why单一工具未用鱼骨图排查多维度叠加诱因报告完成后不跟进改善落地、不做后期验证RCA流于形式八、RCA运维硬性红线一级批量停机故障、重复频发故障必须24小时内完成RCA复盘报告禁止拖延RCA分析禁止单纯追责操作人员优先完善流程、架构、标准规避人为失误所有根因判断必须配套原始日志、抓包、服务器资源监控等客观证据仅依靠临时对策长期带故障生产不落地长期根治方案属于违规运维改善方案到期必须验证闭环无验证记录的RCA不计入有效复盘九、本课核心总结RCA根因分析分为5Why、鱼骨图两大工具单一链式故障用5Why多因素批量复合故障用鱼骨图人机料法环。5Why通过五层连续追问直达底层流程/架构缺陷避免停留在表面故障处置。鱼骨图从人、机、料、法、环五个维度完整拆解所有潜在故障诱因适合跨团队协同复盘。改善分为临时止损对策和长期根治方案RCA核心价值是输出长效优化手段降低重复故障KPI。重大批量故障必须按时输出完整标准化RCA报告并跟进改善落地与验证闭环。十、课后小作业EAP哪些故障场景强制要求完成RCA根因分析5Why分析法的核心逻辑是什么分析到哪一层才算根本原因鱼骨图五大分析维度人机料法环分别对应EAP哪些内容RCA改善措施分为哪两类两者区别是什么RCA复盘报告必须包含哪七项核心内容