sysSentry实战案例:AI加速卡慢IO检测与BMC RAS告警处理
sysSentry实战案例AI加速卡慢IO检测与BMC RAS告警处理【免费下载链接】sysSentrysysSentry is a system inspection framework used to manage system inspection tasks.项目地址: https://gitcode.com/openeuler/sysSentry前往项目官网免费下载https://ar.openeuler.org/ar/sysSentry是openEuler推出的系统巡检框架能够高效管理系统巡检任务尤其在AI加速卡慢IO检测与BMC RAS告警处理方面表现出色为系统稳定运行提供有力保障。一、sysSentry框架简介sysSentry框架通过插件化架构实现对系统多方面的监控与管理其核心结构包括配置中心、插件管理、通信模块、采集模块等能够与CPU、内存、磁盘等硬件以及BMC、BIOS等带外设备进行交互实现全面的系统状态监控。二、AI加速卡慢IO检测实战2.1 插件概述AI阈值慢盘检测插件可检出压力大、盘故障、IO栈异常和未知故障导致的四种慢盘情况上报告警日志中分别含有关键字io_press、driver_slow、kernel_slow和unknown。该插件运行时占用系统性能不超过整个运行环境的5%仅支持openEuler-20.03-LTS-SP4版本并使用4.19.90内核支持对nvme-ssd、sata-ssd、sata-hdd盘进行慢盘检测。2.2 安装与配置2.2.1 前置条件已安装sysSentry巡检插件sentryCollector采集服务已配置io相关采集项。2.2.2 安装软件包yum install -y ai_block_io pysentry_notify pysentry_collect python3-numpy2.2.3 将ai_block_io加入框架管理[rootopenEuler ~]# sentryctl reload ai_block_io2.2.4 配置文件说明ai_block_io插件配置文件路径/etc/sysSentry/plugins/ai_block_io.ini配置文件修改会在下一次启动巡检任务时生效。其中主要配置项包括日志等级、磁盘名称、监控阶段、IO类别、巡检周期、AI阈值算法参数等。2.3 使用步骤2.3.1 启动巡检sentryctl start ai_block_io2.3.2 查看巡检插件状态sentryctl status ai_block_io状态为RUNNING即为运行中状态为EXITED为退出。2.3.3 查看告警信息sentryctl get_alarm ai_block_io -s 1 -d示例输出结果中包含告警ID、类型、等级、时间戳以及详细的告警信息如告警来源、磁盘名称、IO类型、原因、异常阶段和详细的时延与iodump数据等。2.3.4 停止巡检sentryctl stop ai_block_io2.3.5 查看巡检结果信息在巡检停止后可查看巡检结果信息sentryctl get_result ai_block_io若配置不正确可能会出现类似以下的错误信息三、BMC RAS告警处理实战3.1 插件概述bmc ras告警上报插件可获取bmc上各种ras告警信息检测模式为定时轮询每次轮询会上报当前产生的告警不上报历史告警。该插件仅支持鲲鹏920新型号及之上且bmc版本要求5.13.00.0及以上。3.2 安装与配置3.2.1 前置条件已安装sysSentry框架和bmc ras告警上报插件并且启动sysSentry服务。硬盘raid场景下需要安装raid工具目前仅支持raid工具hiraidadm和storcli64。3.2.2 安装软件包yum install -y bmc_ras_sentry ipmitool libxalarm3.2.3 参数配置bmc ras告警上报插件参数配置保存在/etc/sysSentry/plugins/bmc_ras_sentry.ini主要配置项包括日志级别、采样周期和查询事件配置等。其中查询事件配置每个事件以四位数字标识前两位标识主体类型后两位标识告警事件00表示所有当前类型告警事件0000表示所有类型所有事件各个事件间以英文逗号隔开。3.3 使用步骤3.3.1 启动巡检sentryctl start bmc_ras_sentry3.3.2 查看巡检插件状态sentryctl status bmc_ras_sentry状态为RUNNING即为运行中状态为EXITED为退出。3.3.3 查看告警信息sentryctl get_alarm bmc_ras_sentry -s 1 -d输出结果包含告警ID、类型、等级、时间戳以及详细的告警信息如告警来源、事件ID、BMC ID、等级、产生时间和相关硬件信息硬盘、RAID卡、内存、CPU等。3.3.4 停止巡检sentryctl stop bmc_ras_sentry3.3.5 查看巡检结果在停止巡检后可查看巡检结果信息sentryctl get_result bmc_ras_sentry四、总结通过sysSentry框架的AI加速卡慢IO检测插件和BMC RAS告警上报插件能够实现对系统存储和硬件状态的全面监控与告警处理。AI加速卡慢IO检测插件利用先进的AI算法精准识别不同类型的慢盘故障BMC RAS告警上报插件则及时获取硬件相关的告警信息为系统维护和故障排查提供有力支持。在实际应用中用户可根据具体需求配置插件参数通过简单的命令操作启动、停止巡检查看巡检状态和结果及时发现并处理系统潜在问题保障系统的稳定运行。要使用sysSentry可通过以下命令克隆仓库git clone https://gitcode.com/openeuler/sysSentry更多详细信息可参考项目中的官方文档。【免费下载链接】sysSentrysysSentry is a system inspection framework used to manage system inspection tasks.项目地址: https://gitcode.com/openeuler/sysSentry创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考