昇腾 NPU 迁移工作流WorkFlow【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills技能标识science-model-npu-migration。本文件与 SKILL.md、overview.md 及 references/ 分册对齐描述使用前准备、完整迁移与快速检查三条路径。文档导航文档用途overview.md快速开始、实战索引SKILL.md执行约定、分册索引workflow.md本文件流程、闭环、Mermaid、术语deliverables-index.md目标工程交付模板仓库结构science-model-npu-migration/ ├── SKILL.md ├── manifest.json └── references/ ├── overview.md # 快速开始 ├── workflow.md # 本文件 ├── docs-index.md ├── environment-setup-objectives.md ├── deliverables-index.md # 交付模板说明复制 index mig_docs/ 到目标工程 ├── part-0109 reference-code-patterns.md └── mig_docs/ # 目标工程交付模板复制到待迁移仓库 ├── .gitignore ├── Summary.md └── working/路径约定下文若写environment.md、Mig_report等短名均指mig_docs/working/下同名文件Summary.md始终在mig_docs/根目录。分册一览类型文件角色主线 16part-0105、part-08按执行步顺序失败路径part-06、part-09回滚 排障按需辅助part-07、reference-code-patterns.md命令模板、代码模式路径 0使用前准备步动作参考0.1在待迁移模型仓库复制mig_docs/模板含.gitignore、Summary.mdworking/及 deliverables-index.mddeliverables-index.md0.2可选复制 environment-setup-objectives.md 到目标工程docs/docs-index.md0.3调用/science-model-npu-migration [框架] [芯片] [精度]或说明迁移需求SKILL.mdSkill 仓库内的mig_docs/为模板迁移产出写在目标工程的mig_docs/。两条业务线迁移过程中线含义落盘主线基线 → 可行性预判 → 门禁 → 代码级迁移 → 评测 → 归档见「交付物映射」文档线与主线并行自步 1 起维护目标工程mig_docs/mig_docs/environment-setup-objectives.md模板入口deliverables-index.md ·环境目标docs-index.md主流程 § ↔ 分册主流程 §分册主题§1§2part-01信息收集、基线§3part-02可行性预判§4part-03门禁与环境§5part-04代码级迁移§7§8part-05性能与精度§9part-06风险与回滚失败路径—part-08Checklist、归档收口—part-07命令模板按需—part-09场景示例与排障按需—reference-code-patternsPyTorch/MindSpore 代码模式按需主流程无 §6skill 由 §5 直接进入 §7§8。Mig_report§6为交付模板「验证摘要」part-04 smoke part-05 短测/评测勾选不是主流程 §6。三套编号对照执行步 · part · 主流程 § · 落盘执行步part主流程 §关键落盘实战参考1part-01§1§2working/Compare§2.1working/Mig_Readme§3.1—2part-02§3working/Mig_report§2.2—3part-03§4§4.0 门禁working/environment.md、4.0.3working/Mig_report§3part-07 环境验证4part-04§5working/Mig_report§4**§6**working/Mig_Readme§4§5part-04 §5.0§5.7reference5part-05§7§8working/Compareworking/Mig_report§6 更新part-07 Golden/bench6part-08—mig_docs/Summary.md最终交付闭环检查 矩阵失败part-06 / part-09§9working/Mig_report§7、§8part-06 §9.4 模板按需part-07 / reference—命令与代码片段不阻塞主线part 文件名编号 ≠ 执行顺序执行步 6 part-08归档part-06 回滚。完整迁移执行顺序步分册做什么关键落盘通过标准1part-01信息、基线日志优先 / 否则 GPUworking/Compare§2.1working/Mig_Readme§3.1成功标准与数据集用途已书面化2part-02可行性预判不跑 NPUworking/Mig_report§2.2四块输出 预判结论3part-03§4.0 门禁 环境落实working/environment.md、4.0.3AUTO 或 MANUAL_STOP 已闭环4part-04代码级迁移 smokeworking/Mig_report§4§6working/Mig_Readme§4§5part-04§5.0 收口含 §5.6 smoke5part-05性能/精度、训练短测 §8.1.1working/Compareworking/Mig_Readme§2.6NPU 列先填baseline 来源明确6part-08矩阵校验、汇总、定稿、清理mig_docs/Summary.mdpart-08 Checklist 全勾辅助不阻塞主线分册何时用典型内容part-06步 4/5 失败或评测未通过回滚决策树、§7 模板、回流 part-03/04/05part-07步 35 需要可复制命令set_env、单卡/HCCL、Golden、benchmarkpart-09与 part-06 配合排障端到端场景 A/B/C、症状速查表reference步 4 PyTorch/MindSpore 改代码device 抽象、CUDA→NPU 表、训练 loop交付物映射闭环对照层级文件主要填写阶段核心章节 / 用途最终交付Summary.md步 6唯一对外交付汇总working/与矩阵 8 项过程working/environment.md步 3 起机器快照、沙箱内/外、4.0.3 判定过程working/Mig_report.md步 25§2.2 · §3 · §4§6 · §7 · §8过程working/Mig_Readme.md步 1、45§3 数据 · §4§5 NPU 入口 ·§2.6 GPU baseline过程working/Compare.md步 5NPU 列先填baseline 日志 / GPU / N/A测量顺序步 5NPU 落数 → baseline项目训练日志优先否则Mig_Readme§2.6 GPU 用户自测→ 定稿working/Compare→ 步 6 归档Summary.md。步 6 归档动作part-08矩阵校验第二次按下方「文档一致性校验矩阵」逐行核对working/与Summary.md。汇总定稿从working/Mig_report、Compare、Mig_Readme、environment摘录写入Summary.md勿在Mig_report重复维护与 Summary 同内容的归档章节。文首快照必填baseline 来源、选用原因、环境、数据集、结论摘要或失败勾选。收口清理删除冗余/临时文件保留Summary.mdworking/过程记录。Summary.md 章节 ↔ 矩阵快查Summary 章节矩阵校验项 / 数据来源文首快照baseline 来源 ←Compare§2.1§2 迁移操作总结代码变更与启动命令 ←Mig_report§4§5§3 迁移环境总结CANN / 驱动 / 框架 ←environment.md§4.1 门禁4.0.3 判定 ←environment.md§4.2 预判与验证可行性预判 ←Mig_report§2.2smoke / 训练短测 ←Mig_report§6§4.3 数据集数据集与测试用途 ←Mig_Readme§3.1§5 训练与推理效果精度/性能数字 ←Compare§3§4§6 问题与风险收口失败/回滚 ←Mig_report§7§8§7§8可选下一步计划、签署交接矩阵外扩展闭环逻辑[路径 0] 目标工程 mig_docs 模板 part-01 基线 → part-02 预判Mig_report §2.2 → part-03 门禁§4.0MANUAL_STOP 暂停 NPU 自动化 → part-04 迁移 smoke§5.0 收口含 §5.6 smokereference / part-07 按需 → part-05 评测 · smoke 已在 §6 勾选part-04 · 训练短测 loss↓30%50%§8.1.1达标即停 · Golden / 全量精度性能 → Compare → 文档一致性校验矩阵步 5 定稿 Compare 前 → part-08 同步 定稿 mig_docs/Summary.md · 文档一致性校验矩阵步 6 归档前第二次 ├─ 通过 → 收口清理 → 交付 Summary.md └─ 未通过 → part-06/09 → Mig_report §7 → 回流 part-03 / 04 / 05硬约束part-02怎么改与 part-03能不能跑不可互相替代不得跳过 part-03§4.0即建议 NPU 训练/推理smoke part-04训练短测 part-05 §8.1.1勿与 part-02 预判混淆沙箱内npu-smi失败时须沙箱外复检part-03 §4.0.1闭环检查任务结束前与 part-08 Checklist 对齐。阶段产物步 12working/Mig_report§2.2、基线规则与working/Compare§2.1 一致步 3working/environment.md含 4.0.3working/Mig_report§3 与快照互链步 4part-04§5.0 收口含§5.6 smokeworking/Mig_report§4§6、启动命令、smoke 已勾选步 5working/CompareNPU 列已填baseline 来源已注明训练短测若适用未重复多轮步 6mig_docs/Summary.md已定稿文首快照 矩阵 8 项已回填一致性Summary.mdworking/四份过程文档关键字段无冲突见下矩阵若曾失败/回滚working/Mig_report§7§8已更新且Summary.md§6 已摘要矩阵已在步 5定稿 Compare 前、步 6定稿 Summary 前各执行一次文档一致性校验矩阵短名environment.md、Mig_report等 mig_docs/working/下文件Summary.mdmig_docs/根目录。校验项权威来源须同步到的文档4.0.3 判定environment.mdMig_report§3、Summary.md§4.1CANN / 驱动 / 框架插件版本environment.mdMig_report§3、Compare§2.2、Summary.md§3数据集与测试用途Mig_Readme§3.1Mig_report§2.1、Compare§2.4、Summary.md§4.3baseline 来源Compare§2.1Summary.md文首快照代码变更与启动命令Mig_report§4§5Mig_Readme§4§5、Summary.md§2预判与验证Mig_report§2.2可行性预判、§6smoke / 训练短测Summary.md§4.2精度/性能数字与结论Compare§3§4Mig_report§6、Summary.md§5失败/回滚Mig_report§7§8Summary.md§6修复后回写Compare收口part-08 Checklist 已逐项核对冗余文档与临时缓存已清理part-08 收口说明对话输出含mig_docs/路径与本轮更新文件列表快速路径仅检查 NPU 适配项说明入口part-03 §4.0.04.0.3 必要时 §4.1产出working/environment.md AUTO / MANUAL_STOP / UNKNOWN 待补齐项不进入part-0405、完整Summary.md归档回复要求声明「本次为适配检查路径未执行完整迁移链路」完整迁移仍须从 part-01 起执行使用前准备见「路径 0」。工作流图Mermaid节点 ↔ 分册图中节点分册 / 说明L0目标工程mig_docsL1ABCpart-01 §1§2、part-02 §3L2D0DSpart-03 §4.04.2environment-setup-objectivesL3HHVpart-04 §5.0§5.7L4STJGDMMATpart-05MAT文档一致性矩阵SYNCARCCLNpart-08定稿mig_docs/Summary.mdN步 5 末评测是否达标Ppart-06、part-09DOC目标工程mig_docs/文档线P7part-07REFreference-code-patterns口径说明术语避免混用用语含义对应分册 / 落盘过程文档步 15 维护的记录mig_docs/working/下四份模板最终交付步 6 对外结论mig_docs/Summary.md唯一可行性预判改代码前评估不跑 NPUpart-02 →working/Mig_report§2.2门禁 / 适配判定机器与依赖能否跑 NPUpart-03 →working/environment.md4.0.3迁移后最小验证smoke改码后 NPU 首次跑通part-04 →working/Mig_report§6训练短测loss↓约 30%50%达标即停part-05 §8.1.1 →Summary.md§4.2 / §5全量精度/性能评测数据集级指标与延迟/吞吐part-05 →working/Compare.md归档「预判与验证」汇总 part-02 part-03 迁移后验证Summary.md§4§4.1§4.3约定主题约定Skill 标识science-model-npu-migration调用/science-model-npu-migration ...范围代码级迁移PyTorch / MindSpore 等原生路径不含ATC/OM 转换与 AIR 离线部署环境目标 environment-setup-objectives快照mig_docs/working/environment.md可行 vs 门禁预判「怎么改」part-02门禁「能不能跑」part-03 §4.0.3baseline项目完整训练日志优先否则GPUMig_Readme§2.6用户自测最终交付步 6 定稿mig_docs/Summary.md过程文档在working/失败留痕Mig_report§7.1 §8 日志路径相关文档主题路径快速开始overview.md最终交付模板mig_docs/Summary.md环境目标environment-setup-objectives.md代码迁移清单part-04代码模式reference-code-patterns命令模板part-07场景与排障part-09回滚part-06Checklistpart-08【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考