CANN/cannbot-skills NPU迁移报告模板
昇腾迁移报告Mig_report【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills用途记录本次 NPU 迁移过程中修改了哪些内容代码、配置、依赖、模型产物便于审计、回滚与交接。填写说明删除占位符!-- ... --与示例行按实际项目补全敏感信息脱敏。1. 元信息字段内容项目名称 / 仓库迁移单号 / Issue负责人完成日期目标硬件Ascend 型号目标精度FP16关联分支 / Tag2. 迁移目标与成功标准业务目标例如推理部署至昇腾、满足延迟/吞吐成功标准精度阈值、延迟 p95、吞吐等与基线对齐的判定规则基线说明优先引用项目内完整训练日志否则默认 GPU baseline见Compare.md§2.1、§42.1 数据集与测试用途必填须与Mig_Readme.md§3.1一致此处可摘要详细下载过程以同文件§3.2为准。交叉引用数据根目录与短测/冒烟路径约定见Mig_Readme.md§3.1、§3.2环境准备操作目标见docs/environment-setup-objectives.md命令模板见 part-07-commands.md本表数字在Compare.md§2.4展开。测试类型数据集名称与版本本地路径或约定变量短测冒烟推理 smokeGolden若单独全量精度/性能训练若适用推理验收口径下载与校验摘要入口类型、是否需登录、校验方式一句话2.2 代码级迁移可行性预判part-02改代码前填写本小节在part-03 门禁之前完成不替代environment.md与 4.0.3 判定。详见 part-02-feasibility.md。预判结论可继续 / 有条件继续 / 建议先解决阻塞项迁移链路PyTorchtorch_npu / MindSpore / 混合仅推理或含训练块摘要输入输出契约名称、顺序、shape、dtype、layout后处理边界算子/框架风险高/中/低分级CUDA 残留、自定义算子、动态 shape 等最小验证计划Phase 13 目标与成功条件风险项等级处置方向Phase 1 是否覆盖高/中/低替换 / CPU 回退 / 待实测是 / 否阻塞项 / 待确认项无则写「无」训练短测属代码迁移后 part-05 §8.1.1不在本阶段执行结果回填 §6 勾选与 Summary.md §4.23. 环境快照运行权威落盘完整机器事实、沙箱内/外检测与 4.0.3 判定见mig_docs/working/environment.md占位骨架见environment.md操作目标docs/environment-setup-objectives.md。下表为报告摘要须与environment.md互链且保持一致。项值npu-smi关键信息驱动/设备CANN / 框架 Ascend 插件版本PyTorchtorch_npu 或 MindSpore 等版本OS / 容器镜像如有4. 代码级迁移要点填写指引见 skill part-04-code-migration.md §5.0§5.7smoke 勾选见§6。类型路径或说明训练/推理入口脚本配置文件含 NPU device/AMPcheckpoint / 权重路径若适用4.1 启动命令可复制!-- 粘贴 NPU 训练/推理完整命令行一行或多行 --4.2 输入输出契约名称ShapeDtype备注输入输出5. 变更清单本次迁移修改的部分5.1 代码与脚本文件路径变更类型新增/修改/删除摘要5.2 配置文件路径摘要5.3 依赖requirements / conda / 系统包依赖项版本说明5.4 算子 / 后处理 / 图结构算子替换或回退无则写「无」后处理内/外置调整动态 shape / batch 策略变更6. 验证摘要代码级迁移完成脚本/依赖/device 已适配NPU 加载与单次前向通过代码级迁移适配推理 smoke固定输入、输出 shape/dtype 正常、无 NaN/InfGolden 样本数值一致性基线 vs NPU若迁移后仍训练代码级迁移适配训练 smoke单 batch 前向反向一步或极少 step、loss 有限、梯度无异常若迁移后仍训练训练短测part-05 §8.1.1loss稳定下降约 30%50%相对起点即通过并收口未重复多轮同配置短测若迁移后仍训练正式训练指标不明显时已尝试加大 iteration若500step或Mig_Readme§5.3 约定仍无效已执行代码/模型实现检查见 part-05 §8.2并留痕全量精度达标见 Compare.md性能延迟/吞吐达标见 Compare.md推荐先在 NPU 完成短测/性能并落数baseline优先项目训练日志否则经 Mig_Readme§2.6默认GPU由用户自测并回填未解决问题 / 遗留项7. 风险与回滚回滚方式上一版分支/checkpoint 启动命令已知风险7.1 问题与排查记录失败/回滚时填写日期问题标题触发命令/条件关键报错摘要已尝试方案根因修复与验证8. 附录运行日志路径相关文档Summary.md最终交付、Mig_Readme.md、Compare.md9. 归档最终交付不在本文件最终交付文档为mig_docs/Summary.md。步 6 归档时从本报告 §2§8、Compare.md、Mig_Readme.md、environment.md汇总写入 Summary勿在本文件重复维护与 Summary 同内容的归档章节。【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考