oam-tools AI运行时性能数据采集
采集AI任务运行性能数据【免费下载链接】oam-tools本项目为开发者提供故障定位工具包含故障信息收集软硬件信息展示AI core error报错分析等能力提升故障问题定位效率文档可在昇腾社区搜索“故障处理简介”选择社区版。项目地址: https://gitcode.com/cann/oam-tools功能说明msprof支持采集AI任务运行时相关的性能数据并且在采集后可以自动进行性能数据解析和文件落盘。命令格式登录运行环境可在任意目录下执行以下命令。msprof [options] appapp为必选相关参数说明请参见app参数说明options参数说明请参见参数说明。参数说明ascendcl--ascendclascendcl-value可选控制acl接口性能数据采集的开关可选on或off默认为on。可采集acl接口性能数据包括Host与Device之间、Device间的同步异步内存复制时延等。model-execution--model-executionmodel-execution-value可选控制ge model execution性能数据采集开关可选on或off默认为off。此开关后续版本会废弃请使用--task-time开关控制相关数据采集。runtime-api--runtime-apiruntime-api-value可选控制runtime API性能数据采集开关可选on或off默认为off。可采集runtime API性能数据包括Host与Device之间、Device间的同步异步内存复制时延等。hccl--hcclhccl-value可选控制通信数据采集开关可选on或off默认为off。该数据只在多卡、多节点或集群场景下生成。此开关后续版本会废弃请使用--task-time开关控制相关数据采集。task-time--task-timetask-time-value可选控制采集算子下发耗时和算子执行耗时的开关。涉及在task_time、op_summary、op_statistic等文件中输出相关耗时数据。配置值l0采集算子下发耗时、算子执行耗时数据。与l1相比由于不采集算子基本信息数据采集时性能开销较小可更精准统计相关耗时数据。l1采集算子下发耗时、算子执行耗时数据、算子基本信息数据提供更全面的性能分析数据。该参数支持采集集合通信算子数据。l2采集算子下发耗时、算子执行耗时数据、算子基本信息数据包括attr信息提供更全面的性能分析数据。该参数支持采集集合通信算子数据。l3采集PyPTO算子性能数据。该特性为试用特性后续版本可能会存在变更不支持应用于商用产品中。on开启默认值和配置为l1的效果一样。off关闭。aicpu--aicpuaicpu-value可选采集AICPU算子的详细信息如计算耗时、数据拷贝耗时等。可选on或off默认值为off。ai-core--ai-coreaicore-value可选AI Core数据采集开关。取值可选on或off--task-time配置为on、l1时默认为on--task-time配置为off、l0时默认为off。aic-mode--aic-modeaic-mode-value可选AI Core硬件的采集类型可选值task-based或sample-based。该参数配置前提是--ai-core参数设置为on。task-based是以task为粒度进行性能数据采集sample-based是以固定的时间周期进行性能数据采集。采集AI任务性能数据时建议使用task-based如果不配置默认为task-based。aic-freq--aic-freqaic-freq-value可选sample-based场景下的采样频率默认值100范围1~100单位Hz。该参数配置前提是--ai-core参数设置为on。aic-metricsaic-metricsaic-metrics-value可选AI Core性能指标采集项。该参数配置前提是--ai-core参数设置为on。取值包括ArithmeticUtilization计算类指令耗时占比PipeUtilization计算类和搬运类指令耗时和占比。Memory内存读写带宽速率MemoryL0L0读写带宽速率MemoryUBUB读写带宽速率ResourceConflictRatio资源冲突占比L2CacheL2 Cache命中率Atlas 推理系列产品不支持PipelineExecuteUtilization计算类和搬运类指令耗时和占比Atlas 推理系列产品不支持Atlas 训练系列产品不支持Atlas A2 训练系列产品/Atlas A2 推理系列产品不支持Atlas A3 训练系列产品/Atlas A3 推理系列产品不支持Ascend 950PR/Ascend 950DT不支持MemoryAccessAtlas 200I/500 A2 推理产品不支持Atlas 推理系列产品不支持Atlas 训练系列产品不支持Ascend 950PR/Ascend 950DT不支持默认值Atlas 200I/500 A2 推理产品PipelineExecuteUtilizationAtlas 推理系列产品PipeUtilizationAtlas 训练系列产品PipeUtilizationAtlas A2 训练系列产品/Atlas A2 推理系列产品PipeUtilizationAtlas A3 训练系列产品/Atlas A3 推理系列产品PipeUtilizationAscend 950PR/Ascend 950DTPipeUtilization支持自定义需要采集的寄存器例如--aic-metricsCustom:0x49,0x8,0x15,0x1b,0x64,0x10。Custom字段表示自定义类型配置为具体的寄存器值范围[0x1, 0x7FFFFFFF]。并非所有的可取值都有对应的PMU寄存器若配置的值无对应PMU寄存器则采集结果可能为0。配置的寄存器数最多不能超过8个寄存器通过“,”区分开。寄存器的值支持十六进制或十进制。sys-hardware-mem--sys-hardware-memsys-hardware-mem-value可选片上内存读写速率、QoS传输带宽、LLC三级缓存带宽、加速器带宽、SoC传输带宽、组件内存占用等的采集开关可选on或off默认为off。不同型号的采集内容略有差异请以实际结果为准。已知在安装有glibc2.34的环境上采集memory数据可能触发glibc的一个已知Bug 19329通过升级环境的glibc版本可解决此问题。sys-hardware-mem-freq--sys-hardware-mem-freqsys-hardware-mem-freq-value可选--sys-hardware-mem的采集频率范围[1,100]默认值为50单位Hz。Ascend 950PR/Ascend 950DTQoS和SoC支持的采集频率最大支持配置10000其他采集项支持的最大采集频率仍为100若配置超出范围其他采集项则按照最大采集频率100进行采集。设置该参数需要--sys-hardware-mem参数设置为on。对于以下型号采集任务结束后不建议用户增大采集频率否则可能导致SoC传输带宽数据丢失。Atlas 200I/500 A2 推理产品Atlas A2 训练系列产品/Atlas A2 推理系列产品Atlas A3 训练系列产品/Atlas A3 推理系列产品l2--l2l2-value可选采集L2 Cache、TLB页表缓存的命中率可选on或off默认为off。Atlas A2 训练系列产品/Atlas A2 推理系列产品分析AI Core命中L2次数推荐使用--aic-metricsL2Cache。Atlas A3 训练系列产品/Atlas A3 推理系列产品分析AI Core命中L2次数推荐使用--aic-metricsL2Cache。ge-api--ge-apige-api-value可选采集动态Shape算子在Host调度阶段的耗时数据。相关数据生成在msprof_*.json和api_statistic_*.csv文件中。取值off关闭默认off。l0采集动态Shape算子在Host调度主要阶段的耗时数据可更精准统计相关耗时数据。l1采集动态Shape算子在Host调度阶段更细粒度的耗时数据提供更全面的性能分析数据。task-memory--task-memorytask-memory-value可选CANN算子级内存占用情况采集开关用于优化内存使用。取值on开启off关闭默认为off图模式单算子场景下按照GE组件维度和算子维度采集算子内存大小及生命周期信息单算子API执行场景不采集GE组件内存静态图和静态子图场景下按照算子维度采集算子内存大小及生命周期信息。task-block--task-blocktask-block-value可选采集block级别的profiling数据。仅以下型号支持该参数Ascend 950PR/Ascend 950DT可选on或off默认值为off。使用示例登录运行环境在任意路径下执行以下命令msprof --output/home/projects/output --ascendclon --runtime-apion --task-timeon --aicpuon --ai-coreon /home/projects/MyApp/out/mainAscend EP场景下在--output指定的目录下生成PROF_XXX目录存放自动解析后的性能数据相关结果文件请参见性能数据文件参考。Ascend RC场景下在--output指定的目录下生成PROF_XXX目录该目录下的文件未经解析无法查看您需要将PROF_XXX目录上传到开发环境进行数据解析具体操作方法请参见使用msprof命令解析、查询与导出性能数据。【免费下载链接】oam-tools本项目为开发者提供故障定位工具包含故障信息收集软硬件信息展示AI core error报错分析等能力提升故障问题定位效率文档可在昇腾社区搜索“故障处理简介”选择社区版。项目地址: https://gitcode.com/cann/oam-tools创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考