【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsskill_name: model-train-oom-analysis eval_mode: textCase 1: OOM 整体排查流程ConfigMax Tokens: 150000Timeout: 900Prompt我的 NPU 训练第 1 步就报 NPU out of memory 崩了整体按什么流程定位只讲方法不用写代码。Expected Output回复应给出 日志分类 → 静态估算 → snapshot 分析 → 优化建议 的流程先判定 OOM 类型与发生时机再决定方向Expectations[skill_activated] model-train-oom-analysisCase 2: 渐进型 OOM 方向判断ConfigMax Tokens: 150000Timeout: 900Prompt训练前几步都正常到 step 15 左右才 OOM这种该往哪个方向查只讲思路。Expected Output回复应指出训练后期才 OOM 多为内存泄漏而非配置不足建议用多 step snapshot 对比增长趋势并做代码审查定位泄漏类别Expectations[contains] snapshot[skill_activated] model-train-oom-analysisCase 3: Workspace/HCCL 临时内存 OOMConfigMax Tokens: 150000Timeout: 900Prompt报错里出现 workspace allocator 内存不足但我估算模型本身放得下怎么处理只讲方向。Expected Output回复应判断为 PTA 缓存分配器占用过多导致临时内存/通信缓冲不足建议通过内存水线如 torch_npu_memory_ratio限制 PTA 占用为 workspace/HCCL 预留空间Expectations[contains] torch_npu_memory_ratio[skill_activated] model-train-oom-analysisCase 4: 信息不足时主动确认ConfigMax Tokens: 150000Timeout: 900Prompt我的训练 OOM 了帮我解决。Expected Output回复应先索要 OOM 完整日志、训练配置、NPU 显存规格等必要信息再动手而不是缺证据直接给配置Expectations[skill_activated] model-train-oom-analysisCase 5: 正向看护-多 skill 环境下正确触发ConfigMax Tokens: 150000Timeout: 900Distractor skills: model-train-accuracy-debug;model-infer-kvcache;model-infer-runtime-debugPrompt大模型训练跑到一半因为显存不足崩了想做内存优化往哪个方向排查只说方向不用写代码。Expected Output回复应正确激活 model-train-oom-analysis给出 OOM 内存诊断与优化方向即使存在精度调试、KVCache 等相似 skill 也应选内存诊断专项Expectations[skill_activated] model-train-oom-analysisCase 6: 使用边界ConfigMax Tokens: 150000Timeout: 900Prompt我的训练 loss 偏离基线了帮我用 OOM 分析 skill 修一下精度。Expected Output回复应说明本 skill 只诊断 OOM/内存问题loss 偏离/NaN 等精度问题不在范围应建议改用 model-train-accuracy-debugExpectations[skill_activated] model-train-oom-analysis【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考