CANN/cannbot-skills模型训练OOM分析评估-尧图建网站

【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsskill_name: model-train-oom-analysis eval_mode: textCase 1: OOM 整体排查流程ConfigMax Tokens: 150000Timeout: 900Prompt我的 NPU 训练第 1 步就报 NPU out of memory 崩了整体按什么流程定位只讲方法不用写代码。Expected Output回复应给出日志分类 → 静态估算 → snapshot 分析 → 优化建议的流程先判定 OOM 类型与发生时机再决定方向Expectations[skill_activated] model-train-oom-analysisCase 2: 渐进型 OOM 方向判断ConfigMax Tokens: 150000Timeout: 900Prompt训练前几步都正常到 step 15 左右才 OOM这种该往哪个方向查只讲思路。Expected Output回复应指出训练后期才 OOM 多为内存泄漏而非配置不足建议用多 step snapshot 对比增长趋势并做代码审查定位泄漏类别Expectations[contains] snapshot[skill_activated] model-train-oom-analysisCase 3: Workspace/HCCL 临时内存 OOMConfigMax Tokens: 150000Timeout: 900Prompt报错里出现 workspace allocator 内存不足但我估算模型本身放得下怎么处理只讲方向。Expected Output回复应判断为 PTA 缓存分配器占用过多导致临时内存/通信缓冲不足建议通过内存水线如 torch_npu_memory_ratio限制 PTA 占用为 workspace/HCCL 预留空间Expectations[contains] torch_npu_memory_ratio[skill_activated] model-train-oom-analysisCase 4: 信息不足时主动确认ConfigMax Tokens: 150000Timeout: 900Prompt我的训练 OOM 了帮我解决。Expected Output回复应先索要 OOM 完整日志、训练配置、NPU 显存规格等必要信息再动手而不是缺证据直接给配置Expectations[skill_activated] model-train-oom-analysisCase 5: 正向看护-多 skill 环境下正确触发ConfigMax Tokens: 150000Timeout: 900Distractor skills: model-train-accuracy-debug;model-infer-kvcache;model-infer-runtime-debugPrompt大模型训练跑到一半因为显存不足崩了想做内存优化往哪个方向排查只说方向不用写代码。Expected Output回复应正确激活 model-train-oom-analysis给出 OOM 内存诊断与优化方向即使存在精度调试、KVCache 等相似 skill 也应选内存诊断专项Expectations[skill_activated] model-train-oom-analysisCase 6: 使用边界ConfigMax Tokens: 150000Timeout: 900Prompt我的训练 loss 偏离基线了帮我用 OOM 分析 skill 修一下精度。Expected Output回复应说明本 skill 只诊断 OOM/内存问题loss 偏离/NaN 等精度问题不在范围应建议改用 model-train-accuracy-debugExpectations[skill_activated] model-train-oom-analysis【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

相关新闻

rawpy多进程处理：如何避免OpenMP死锁问题的完整解决方案

Cargo-script 安装与配置教程：从零开始搭建 Rust 脚本环境

视觉组件库开发：Instatic组件设计与实现

最新新闻

Kronos金融预测模型：从新手到实战的完整指南

Android抓包与HTTPS中间人攻击原理：从证书信任到SSL Pinning绕过

OpenCore Legacy Patcher实战指南：让老旧Mac设备重获新生

Locust性能测试结果分析实战：从核心指标到瓶颈定位

GitHub-Dark-Script：让GitHub夜间编程成为一种享受

Mermaid Live Editor终极指南：零代码创建专业图表的免费神器

日新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！