HBM Predictor分层预测模型详解:从服务器级到bank级的全方位故障预测
HBM Predictor分层预测模型详解从服务器级到bank级的全方位故障预测【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor前往项目官网免费下载https://ar.openeuler.org/ar/HBM Predictor是一个分层级、全方位、非侵入式的高带宽内存HBM故障预测框架由厦门大学与华为2012庞加莱实验室合作开发。该项目基于从19个数据中心收集的真实故障数据构建了从服务器级到bank级的多层预测模型为HBM可靠性研究提供了完整的分析工具和开源数据集。 项目核心价值突破内存墙的关键一步HBM作为突破内存墙的关键技术其可靠性问题直接影响数据中心的稳定性。HBM Predictor通过数据驱动的分析方法揭示了HBM故障的内在规律并提供了精准的故障预测能力。项目成果已发表于USENIX ATC24学术会议论文标题为《Removing Obstacles before Breaking Through the Memory Wall: A Close Look at HBM Errors in the Field》。主要功能亮点多层级预测支持服务器级、bank级、行级row和列级col四个层级的故障预测非侵入式设计无需修改硬件或中断服务即可实现实时监测高预测精度采用优化阈值的随机森林算法F1分数最高可达0.819开源数据集包含脱敏的真实HBM故障数据促进学术界进一步研究 数据集解析来自19个数据中心的真实故障记录项目提供的数据集位于data目录下分为原始数据和处理后数据两个部分全面反映了HBM在实际应用中的故障特征。原始数据raw_data原始数据文件dataset(opensource).csv记录了错误发生的位置、时间和类型等详细信息包含以下关键字段DatacenterServerNameStackSIDPcIdBankGroupBankArrayColRowTimeEccTypeDatacenter80.108.38.22DSA30x30x00x10x20x10x540x3e2b1650690000UER处理后数据processed_data处理后的数据针对不同预测层级进行了特征工程生成四个CSV文件data_for_bank-level_prediction.csvbank级预测数据data_for_col-level_prediction.csv列级预测数据data_for_row-level_prediction.csv行级预测数据data_for_server-level_prediction.csv服务器级预测数据以bank级预测数据为例包含功率、温度、错误计数等特征Peak PowerAver PowerTempCE_RowCE_ColCE_CellUER_RowUER_ColUER_CellUEO_RowUEO_ColUEO_CellAll_RowAll_ColAll_CellSID_0SID_1label111111000000111100⚠️ 注意数据集中的敏感信息已进行脱敏处理确保数据安全与隐私保护。 分层预测模型架构从宏观到微观的全方位监测HBM Predictor采用分层设计思想针对HBM不同层级的故障特征构建专用预测模型实现从整体系统到局部存储单元的全面监测。预测层级划分服务器级预测最高层级的预测关注整台服务器的HBM健康状态bank级预测针对HBM内存bank的故障预测属于中层监测行级row预测对内存行单元的精细化预测列级col预测对内存列单元的精细化预测核心预测算法项目采用随机森林Random Forest算法作为基础预测模型并通过优化阈值提高预测性能。关键实现代码位于prediction/prediction_performance.py核心参数设置如下rf_classifier RandomForestClassifier( n_estimators200, max_depth50, class_weightbalanced, criterionentropy, min_samples_leaf100, min_samples_split100 )各层级预测性能通过调整不同阈值各层级模型实现了优异的预测效果行级预测优化阈值0.55时F1分数达0.779列级预测优化阈值0.6时F1分数达0.790bank级预测优化阈值0.55时F1分数达0.701服务器级预测优化阈值0.6时F1分数达0.419 提示由于机器学习模型的随机性每次运行结果可能会略有不同。 快速上手安装与使用指南环境准备确保系统已安装Python 3.6或更高版本然后克隆项目并安装依赖git clone https://gitcode.com/openeuler/hbm-predictor cd hbm-predictor pip3 install -r requirements.txt运行预测模型预测模块位于prediction目录下包含四个核心文件prediction_performance.py测试HBM预测器性能diff_model.py不同模型对比实验diff_observation_window.py观测窗口大小影响实验diff_prediction_window.py预测窗口大小影响实验以测试预测性能为例执行以下命令cd prediction python3 prediction_performance.py运行后将在控制台输出各层级预测结果并将详细数据保存至data/processed_data/result目录下的CSV文件中。 项目结构解析项目代码组织清晰主要分为分析和预测两大模块分析模块analysesanalyses目录包含9个分析不同错误特征的代码文件深入探索HBM故障模式avg_temp_distribution.py平均温度分布分析ce_storm_machine.pyCE错误风暴分析dataset_analyze.py数据集总体分析error_mode.py错误模式分析max_temp_distribution.py最高温度分布分析power_impact.py功率影响分析spatial_locality.py空间局部性分析structure_impact.py结构影响分析time_between_error.py错误间隔时间分析预测模块predictionprediction目录包含4个预测相关文件实现了分层预测功能prediction_performance.py预测性能测试diff_model.py不同模型比较diff_observation_window.py观测窗口差异实验diff_prediction_window.py预测窗口差异实验 引用与学术交流如果您在研究中使用了本项目的数据集或代码请引用我们的论文inproceedings {298591, author {Ronglong Wu and Shuyue Zhou and Jiahao Lu and Zhirong Shen and Zikang Xu and Jiwu Shu and Kunlin Yang and Feilong Lin and Yiming Zhang}, title {Removing Obstacles before Breaking Through the Memory Wall: A Close Look at {HBM} Errors in the Field}, booktitle {2024 USENIX Annual Technical Conference (USENIX ATC 24)}, year {2024}, isbn {978-1-939133-41-0}, address {Santa Clara, CA}, pages {851--867}, url {https://www.usenix.org/conference/atc24/presentation/wu-ronglong}, publisher {USENIX Association}, month jul }HBM Predictor项目为HBM可靠性研究提供了宝贵的实践经验和开源工具期待与学术界和工业界的同仁共同推动HBM技术的发展与应用【免费下载链接】hbm-predictorthis project is an in-depth>项目地址: https://gitcode.com/openeuler/hbm-predictor创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考