CANN科学模型NPU迁移风险回滚
分册 6风险点与回滚策略【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills对应主流程§9。失败或未通过评测时必用成功归档后可选用作风险复核。留痕Mig_report§7排查细节见 part-09-examples-troubleshooting.md。9.1 何时触发回滚 / 回流触发典型现象优先回流part-04 smoke 失败无法 load 权重、前向报错、NaN/Infpart-03环境或 part-04代码part-05 未达标精度/延迟/吞吐超出允许范围part-04算子/dtype→ part-05 重测环境变更CANN/驱动升级后行为变化part-03 刷新environment.md训练 500 step 无改善loss 平盘见 part-05 §8.2part-04 代码/模型实现非继续加步数9.2 回滚类型与保留物类型保留用途代码回滚上一可运行 commit/分支 diff 摘要快速恢复 smoke权重回滚基线 checkpoint 路径 校验 hash排除权重损坏配置回滚上一版 YAML/ENVdevice、AMP、batch隔离配置引入问题环境回滚environment.md历史快照或 CANN 版本号版本不兼容排查要求 agent 给出回滚与迭代建议保留基线 checkpoint 与输入数据版本保留「可运行但未必最优」的中间分支或配置快照出现运行失败/精度显著下降时优先调整顺序环境 → device/框架插件 → 数据管线/dtype → 算子替换/CPU 回退 → 后处理算子不支持算子替换/回退 → 换精度或固定 shape → 无法代码级解决则 §7 阻塞训练iteration 加大仍无效且500 step→ part-05 §8.2 Mig_Readme§5.3 查代码/模型9.3 决策回滚到哪一层报错含 CANN/driver/version / npu-smi 不可见? └─ 是 → 暂停 NPU 自动化刷新 part-03MANUAL_STOP 清单 └─ 否 → 报错含 .cuda / unsupported op / HCCL? └─ 是 → part-04 reference-code-patterns └─ 否 → 能跑但精度/性能差? └─ 是 → Golden 预处理对齐 → part-05 口径 → Compare └─ 否 → 记录 §7保留日志小步重试9.4 §7 留痕模板复制到 Mig_report### 问题简短标题YYYY-MM-DD - **触发命令**完整命令行 - **现象**报错摘要 / 指标 - **复现步骤**1… 2… - **环境**CANN、torch_npu、设备链到 environment.md - **已尝试** | 序号 | 方案 | 结果 | |:--:|------|------| | 1 | | 失败/部分/成功 | - **根因**确认后填写 - **修复**文件/配置变更摘要 - **验证**smoke / 短测 / Compare 结论 - **回流**part-03 / 04 / 05每轮尝试单独一行避免重复试错修复后同步Compare.md、Summary.md并按 workflow.md「文档一致性校验矩阵」核对9.5 回滚最小交付对话末尾固定块回滚目标分支/配置/checkpoint 版本标识回滚命令可复制命令与路径回滚后验证smoke 或约定指标通过标准关联Mig_report§7 问题标题或日期日志Mig_report§8 路径关联索引触发part-05 未通过或 part-04 运行失败见 workflow.md 回流配合part-09-examples-troubleshooting.md、reference-code-patterns.md回流part-03环境、part-04代码、part-05评测落盘Mig_report§7、§8必要时更新Compare.md流程总览workflow.md 失败路径【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考