基于混合统计模型的长期电力负荷预测引言随着全球碳中和目标的推进区域能源系统District Energy System在大学校园、工业园区等场景中的低碳转型日益受到关注。然而准确预测未来10至50年的小时级电力负荷是优化配置光伏、储能等可再生能源资产的关键前提。现有优化工具如REopt、XENDEE大多缺乏多年度负荷增长建模能力而已有的长期负荷预测研究多基于年时间步长难以捕捉小时级峰谷波动及季节性特征。美国科罗拉多矿业学院Emily Royal等学者在Applied Energy期刊2025发表的研究中提出了一套基于经典统计方法的区域能源长期电力负荷预测框架。该框架以三个美国大学校区为案例系统对比了七种统计模型与LSTM深度学习方法的预测性能为区域能源系统规划提供了可解释、可推广的建模路径。本文将对该研究的方法框架与核心发现进行系统介绍。图1 GAMSARIMA混合模型开发与选择流程图研究方法框架数据预处理与外生变量选择研究的输入数据包括历史小时级电力负荷、气象数据温度与湿度、人员占用时间表及建筑总面积等。所有数据统一聚合为小时分辨率对零值进行相邻非零值替代并对历史负荷数据取对数变换以稳定方差。自相关函数ACF与偏自相关函数PACF分析确认了数据具有显著的24小时周期性特征。为筛选最具预测价值的外生变量研究采用LASSO最小绝对收缩与选择算子回归进行特征选择。LASSO通过L1正则化项将不显著变量的系数压缩至零从而避免过拟合并提升模型可解释性。以Mines校区为例LASSO最终保留的变量包括时间步Time-Step、人员占用率Occupancy、温度Temperature、日类别Day Category、上课日标记Class Binary、余弦项与正弦项捕捉24小时日周期。湿度、总建筑面积及能耗强度因与负荷相关性不显著而被剔除。外生变量建模从多元线性回归到广义加性模型图2 区域能源系统电力需求交互关系示意图在确定外生变量集后研究首先构建多元线性回归MLR模型。MLR假设各外生变量与电力负荷之间为线性关系通过最小化残差平方和估计各变量的回归系数。然而实际电力负荷与温度之间的关系往往呈现非线性特征——在极端高温下制冷负荷急剧上升而在温和温度区间变化平缓。为捕捉此类非线性效应研究引入了广义加性模型GAM。GAM将传统线性回归中的线性项β·x替换为平滑样条函数f(x)允许每个外生变量的影响以灵活的非线性形式表达。研究中定义了两种GAM变体GAM1仅对温度变量采用三次样条平滑其余变量保持线性GAM2则同时对温度和占用率采用三次样条平滑以捕获更多维度的非线性关系。时间序列建模SARIMA捕捉周期性除依赖外生变量的回归模型外研究还构建了季节性自回归积分滑动平均SARIMA模型。SARIMA利用负荷序列自身的历史值自回归项和历史预测误差滑动平均项进行递推预测并通过季节性差分消除24小时周期性趋势。模型阶数由Hyndman-Khandakar自动算法生成非季节性阶数的初始解再通过ACF/PACF图人工确定季节性分量阶数。SARIMA的优势在于无需外生变量即可捕捉纯时间序列中的周期性规律。混合模型外生变量与时间序列的融合单一模型往往难以同时捕捉外生变量驱动的趋势变化与时间序列内在的周期性。为此研究构建了混合模型将外生变量模型MLR或GAM的预测值作为趋势分量再对残差序列建立SARIMA模型以提取剩余的周期性信息。具体而言GAM1SARIMA混合模型首先通过GAM1拟合温度等外生变量与负荷的非线性关系随后对GAM1残差建立SARIMA(5,1,1)(1,0,0)₂₄模型非季节性AR5、差分1、MA1季节性AR1、周期24小时将两部分预测叠加得到最终结果。该研究共评估了七种混合模型配置覆盖MLRARIMA、MLRSARIMA、GAM1SARIMA、GAM2SARIMA等多种组合并针对每个案例筛选出最佳模型图1。模型的评估指标包括归一化均方根误差NRMSE、峰值负荷覆盖率、年度总能耗覆盖率以及峰荷发生时刻的准确性。图3 四种统计模型训练集拟合效果对比Mines前10天三个校园案例与核心结果图4 GAM1SARIMA模型一年期预测结果Mines案例Mines校区GAM1SARIMA最优科罗拉多矿业学院Mines校区拥有12年2006–2017完整小时级负荷数据峰值负荷6,989 kW年能耗39,059 MWh。在9年训练/1年测试的配置下GAM1SARIMA(5,1,1)(1,0,0)₂₄以NRMSE仅0.4349%的优异精度显著优于其他模型。其峰值覆盖率达104.1%略超实际峰值偏保守有利年能耗覆盖率为99.56%几乎完美还原实际用电总量。相比之下MLRARIMA虽然在训练集上调整R²最高0.9746但测试NRMSE为3.184%精度远逊于GAM1SARIMA图3、图4。在长期预测场景中研究进一步以仅1年数据训练、预测随后11年2007–2017。GAM1SARIMA的NRMSE为9.091%RMSE为346.0 kW年度峰值预测为实际的93.22%年能耗为实际的84.49%。虽然误差随预测时间延长而增加但模型成功保持了数据的季节性特征和年增长趋势。图5 Mines GAM1SARIMA长期11年预测与实际数据对比UCD校区MLR最优数据趋势驱动选择加州大学戴维斯分校UCD拥有7年2012–2018数据峰值负荷42,811 kW年能耗212,946 MWh。与Mines不同UCD校区的负荷数据呈现持续的线性增长趋势季节性波动相对较弱。在此特征下简单的多元线性回归MLR模型表现最佳6年训练/1年测试的NRMSE为8.949%峰值覆盖率93.56%年能耗覆盖率103.5%。混合模型GAM2SARIMA虽然NRMSE更低0.4319%但在长期预测中MLR因更贴合数据趋势而胜出。Clemson校区受限于数据长度克莱姆森大学仅有2.4年数据峰值25,072 kW训练集仅1.2年。在此限制下GAM2ARIMA(5,1,2)表现最优一年期测试NRMSE为6.765%但峰值覆盖率仅92.20%。由于数据长度不足该案例无法进行与Mines、UCD同等规模的长期预测验证也体现了高质量长周期数据对统计建模的关键价值。LSTM对比统计模型全面胜出为评估深度学习方法的表现研究对Mines数据训练了多个LSTM变体模型含1层LSTM200神经元Dropout 0.05ReLU激活。在相同的9年训练/1年测试配置下最优LSTM模型LSTM2,b的RMSE高达702.2 kW而GAM1SARIMA仅为18.1 kW——统计模型的精度高出约39倍。当扩展到3年测试时LSTM的RMSE为834.7 kWGAM1SARIMA仅为15.55 kW。在11年长期预测中LSTM的RMSE更是达到1,364 kW约为GAM1SARIMA346.0 kW的4倍图6。LSTM误差随预测年限快速放大的原因在于其自回归递推机制——预测值自身被用作后续时间步的输入误差逐级累积。此外LSTM作为黑箱模型其预测结果的物理可解释性远不如统计模型这在工程规划场景中尤为不利。图6 LSTM与GAM1SARIMA统计模型预测误差对比图7 三个校园案例最佳模型性能汇总框架价值与应用前景该研究的核心贡献不仅在于具体的预测精度数据更在于其所建立的系统化建模框架1LASSO变量选择→2线性/非线性回归建模→3SARIMA时间序列建模→4混合模型组合评估→5多时间尺度预测验证。这一框架可推广至任意区域能源系统只需替换输入数据和外生变量即可复用。研究明确的几条方法论启示具有普适价值第一外生变量的非线性建模GAM显著优于线性假设MLR尤其在负荷与温度的关系中第二SARIMA的残差建模能有效补充回归模型遗漏的周期性信息第三数据长度是建模精度的基础——Mines以12年数据获得最佳结果而Clemson因数据不足精度受限第四统计模型在可解释性和长期预测稳定性上优于LSTM深度学习方法。对于国内区域能源系统规划而言该框架为校园、工业园区、数据中心等场景的长期电力负荷预测提供了低成本、高可解释性的技术路径。研究者可在GitHub获取开源的PyMARLzoo工具包本研究虽侧重统计方法但同一团队亦在多智能体强化学习基准测试中开源了相关代码框架或基于scikit-learn、statsmodels等Python库复现该框架。研究局限与展望该研究也存在若干局限Clemson案例数据长度不足限制了模型验证的深度外生变量的未来值如30年后的温度、占用率需依赖气候模型的降尺度预测本身含有不确定性研究中的LSTM超参数搜索范围有限更精细的调参可能缩小其与统计模型的差距。未来工作可考虑将框架扩展至包含光伏发电预测的联合优化场景以及将Transformer等新型时序模型纳入对比评估。参考文献Royal E, Newman A, Tabares-Velasco P C, et al. A Statistical Framework for District Energy Long-term Electric Load Forecasting[J]. Applied Energy, 2025.