作者付思瀚 刘西伦随着人工智能模型规模的不断扩大及应用场景的日益复杂在昇腾AI基础软硬件平台上进行训练和部署时面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此深度学习系统的性能提升不仅需要计算能力提升还需要对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化。模型执行过程过去MindStudio提供了性能调优工具msProf集群分析工具msprof-analyze精度调优工具msProbe内存调优工具msMemScope可视化工具msInsight等一系列工具来帮助客户提高算子性能、设备性能、集群性能同时MindStudio也沉淀了计算算子调优通信快慢卡下发Host下发慢IO瓶颈以及服务化等一系列的调试调优方法论。MindStudio工具链全景图依托成套工具链完成调优方法论的体系化沉淀能够支撑调优专家高效、精准定位大模型全链路系统问题。但大模型性能调优本身工程复杂度高、上手门槛高如何降低使用门槛、自动化挖掘最优调优路径是兼具技术挑战与业务价值的核心工程难题。而智能Agent技术的出现为破解这一痛点提供了关键抓手它可将高度专业化的专家调优经验封装标准化能力让零基础普通用户也能便捷开展大模型调优工作。基于这一思路我们将整套成熟调优方法论统一集成落地至MindStudio Agent。MindStudio Agent介绍MindStudio Agent是连接“大模型大脑”与“MindStudio工具生态”的桥梁不同于其他AgentMindStudio Agent深度集成了昇腾算力底座的能力将MindStudio的强大调试、分析与推理优化能力转化为大模型可以直接调用的“技能包”。核心设计理念可以用一句话概括“发现瓶颈 → 定位根因 → 给出建议”的证据驱动分析闭环。详细设计可见代码仓https://gitcode.com/Ascend/msagent。安装与使用方法参考msAgent安装指南https://gitcode.com/Ascend/msagent/blob/master/docs/zh/getting_started/install_guide.md完成安装。启动msAgentBashmsagent进入交互式会话后将提前采集好的性能Profiling数据路径和需要解决的问题发送给MindStudio Agent分析即可。更多安装方式和配置项可以参考项目README。内置Agent与能力分工msAgent内置六大专业领域SubAgent全面覆盖性能调优、精度调优、模型量化、仿真建模、算子调优、文档体验与代码审查全场景可按需选用对应Agent 完成昇腾NPU调试调优工作开源社区链接https://gitcode.com/Ascend/msagent实战案例为了更直观的演示MindStudio Agent的能力下面提供了真实调优过程中的一些案例包括性能诊断、开发效率提升等。案例 1集群快慢卡诊断场景集群训练出现性能抖动性能未达预期怀疑存在快慢卡问题。提示词Plain Text请分析 /path/to/cluster_profiling/ 中是否存在快慢卡问题定位异常 rank并给出可能原因。诊断报告如下MindStudio Agent做了什么自动识别为多卡/集群场景加载cluster-fast-slow-rank-detector Skill调用msprof-mcp进行全局诊断对比各Rank的计算和通信耗时定位出异常Rank分析是计算瓶颈还是通信瓶颈给出具体的优化建议和验证方法案例 2DB数据自定义导出场景需要从Profiling数据库中提取特定维度的数据。提示词Plain Text基于 ascend_pytorch_profiler_0.db帮我提取各个算子类型的总耗时并按降序输出到 csv。过程如下MindStudio Agent做了什么通过msprof-mcp连接 .db文件构造SQL查询按算子类型聚合耗时排序后导出为CSV文件输出结果摘要和文件路径案例 3Profiling数据完整性检查场景采集了一份性能数据不确定是否采集完整。提示词Plain Text请分析 /path/to/xxx_ascend_pt/ 数据是否采集正常。过程如下MindStudio Agent做了什么加载mindstudio_profiler_data_check Skill检查目录结构是否完整、关键文件是否存在验证profiler配置信息、采集级别给出数据完整性报告指出缺失项和可能原因案例 4MFU计算场景你有一份kernel_details.csv想快速计算matmul算子在昇腾910上的 MFU最大浮点利用率。提示词Plain Text请基于/path/to/kernel_details.csv 计算matmul 的MFU昇腾910并说明各项计算依据。过程如下MindStudio Agent做了什么自动识别场景加载op-mfu-calculator Skill通过工具读取CSV文件提取matmul算子的执行时间和shape信息从官网获取昇腾910的算力规格套用MFU公式逐步计算输出结果包含详细的计算过程和每一项数据来源不再需要手动翻文档查算力参数、手动写计算脚本——一句话搞定。案例 5工具使用咨询场景不熟悉msProf 的编译流程。提示词Plain TextmsProf 怎么编译出 run 包过程如下MindStudio Agent做了什么通过github-raw-fetch Skill从msProf的GitHub仓库获取相关文档整理出完整的编译步骤和注意事项直接给出可执行的命令序列案例 6文档上手体验审查场景根据某个仓库的README检查是否能跑通提示词Plain Text请帮我体验并审查这个仓库的文档上手体验https://gitcode.com/Ascend/msmonitor 。本机环境- Ubuntu 20.04- CANN 已安装环境脚本/usr/local/Ascend/ascend-toolkit/set_env.sh- conda 虚拟环境已准备好请优先使用msmonitor_ux_review请输出详细的中文 HTML 报告到 /home/msmonitor重点说明在上述环境下新用户能否按文档完成安装并进入可运行状态。结果如下MindStudio Agent做了什么自动识别任务属于“文档上手体验审查”场景加载document-ux-review Skill。从README开始自动识别直接关联的安装、快速开始和运行文档而不是只做静态阅读。结合用户提供的环境信息优先复用已有基础环境例如已准备好的conda环境和已安装的CANN而不是重复安装。按文档中的真实步骤逐步执行检查命令、依赖、路径、配置和启动流程是否真的能走通。如果遇到缺步骤、错误命令、隐含前提、平台差异或者必须额外去翻脚本、源码、CI、Dockerfile才能继续都会被记录为文档完整性问题。最后输出一份结构化报告说明哪些步骤成功、哪些步骤阻塞、问题出现在什么位置以及对应的改进建议示例文档里还说明可输出中文HTML报告并给出msmonitor-review-run.html作为参考产物。未来规划接下来我们的重点方向是更多内置 Tools例如精度内存等工具让调优的覆盖面更广数据来源更多调优定位更准扩展Agent的能力边界。集成更多专家 Skills覆盖更多典型调优场景例如内存分析、算子调优建议、训练吞吐优化等提升大家的开发效率。如果你对MindStudio Agent感兴趣欢迎来项目里看看Star一下一起让模型调优更高效。https://gitcode.com/Ascend/msagent