常见模型评价指标汇总:一篇搞懂回归、分类、预测与聚类核心指标
很多同学学习统计分析时会花大量时间研究如何建立模型却容易忽略另外一个更重要的问题模型建出来以后如何判断它好不好实际上无论是毕业论文、科研课题还是机器学习建模模型评价都是整个分析流程中不可缺少的一环。不同类型的模型其评价标准亦不相同。今天就系统整理一下论文统计分析中常见模型及对应的评价指标如下图接下来分别介绍回归模型、分类模型、分类预测模型、时序预测模型和聚类模型各自的评价指标。一、回归模型评价指标回归模型用于预测连续型变量。例如预测销售额、用户消费金额、产量等。回归模型评价的重点通常是预测值与真实值之间的差距有多大。常用评价指标如下拟合优度指标包括 R 方与调整后 R 方用于衡量模型对数据整体的解释能力。预测误差指标包括 MSE、RMSE、MAE 和 MAPE用于评估模型预测值与真实值之间的偏差程度。模型选择指标包括 AIC 和 BIC基于极大似然估计构建用于筛选模型并控制过拟合。1、R²决定系数R²用于衡量模型对因变量变异的解释程度取值通常在0到1之间。越接近1说明模型解释力越强越接近0说明模型解释力越弱。例如R²0.75可以理解为模型能够解释因变量75%的变异。不过R²并不是越高越好因为随着自变量数量增加R²往往会自然上升。R²计算公式如下2、调整后R²调整后R²是对R²的修正它考虑了自变量数量和样本量的影响。当加入的新变量确实有助于提升模型解释力时调整后R²会上升如果只是机械地增加无用变量调整后R²不一定上升甚至可能下降。因此在多元线性回归中调整后R²通常比R²更适合用于比较不同模型。调整后R方计算公式SPSSAU进行回归模型分析时输出对应的R²与调整后R²结果以多元线性回归为例3、MSE均方误差R方衡量的是模型对因变量变异的解释比例但有时我们更关心拟合值与真实值之间的偏差程度因此需要计算残差相关的指标。常用指标包括均方误差MSE、均方根误差RMSE和平均绝对误差MAE。MSE均方误差是预测误差平方后的平均值。由于误差被平方因此较大的误差会被进一步放大。MSE越接近0说明模型效果越好。MSE计算公式如下4、RMSE均方根误差RMSE均方根误差是在MSE的基础上再开平方因此恢复到了原始变量的单位比MSE更容易解释。RMSE值越接近0说明模型拟合越好。RMSE值计算公式5、MAE平均绝对误差MAE平均绝对误差是预测值与真实值之间误差绝对值的平均水平。MAE值越接近于0说明模型拟合越好模型预测准确率越高。MAE计算公式6、MAPE平均绝对百分误差MAPE平均绝对百分误差是衡量预测误差占真实值的百分比例如MAPE10%可以理解为模型平均预测误差约为真实值的10%。MAPE的值越小说明模型越好。MAPE计算公式除上述指标外回归模型评价还包含中位数绝对误差MAD、可解释方差EVS、均方根对数误差MSLE等其他指标但这些指标的实际应用频率远低于前文提及的4种误差指标。在使用SPSSAU进行分析时软件会自动输出上述评价指标。例如通过SPSSAU机器学习模块执行回归模型分析后即可得到对应的模型评估结果。7、AIC和BICAIC和BIC常用于模型比较尤其是在回归模型、广义线性模型、时间序列模型中比较常见。它们不仅考虑模型拟合效果也考虑模型复杂度。一般来说AIC或BIC越小模型越优。AIC相对更关注预测效果BIC对模型复杂度的惩罚更强因此更偏向选择简洁模型。SPSSAU结果展示在进行相应回归模型分析时如线性回归、logistic回归、负二项回归、Poisson回归等SPSSAU均会自动输出AIC值、BIC值供用户对比使用。如下表为二元logistic回归分析输出的AIC与BIC值二、分类模型评价指标分类模型主要解决样本属于哪一类的问题。例如预测用户是否流失、客户是否购买等。分类模型评价的核心问题是模型分类是否准确不同类型错误的代价是否可以接受1、混淆矩阵混淆矩阵是分类模型评估的基石它以表格形式展示模型预测结果与真实标签的对应关系。实际\预测正类负类正类TPFN负类FPTNTP真阳性真实为正例预测为正例的样本数TN真阴性真实为负例预测为负例的样本数FP假阳性真实为负例预测为正例的样本数FN假阴性真实为正例预测为负例的样本数理解这四个数值的含义后续所有分类指标就都能轻松掌握了。2、准确率、精确率、召回率、F1-score准确率、精确率、召回率、F1-score是模型评价中常见的指标以下表为例进行介绍说明预测为是0预测为否1合计是091True Positive9False Negative100否113False Positive87True Negative100合计104962001准确率准确率是指分类正确的样本占总样本个数的比例。即Accuracy(TPTN)/(TPFPFNTN)以上表为例该模型的准确率为Accuracy(9187)/2000.89准确率是分类模型中最简单也是最直观的评价指标但同时存在明显的缺陷这个评价指标很容易受到样本数量以及样本是否均衡带来的影响。2精确率精确率是指分类模型中正确的正样本个数占分类器判定为正样本的样本个数的比例。精确率容易与准确率混淆精确率只针对预测正确的正样本而不是所有预测正确的样本。即PrecisionTP/(TPFP)上表中该模型的精确率Precision91/(9113)0.8753召回率召回率是指分类正确的正样本个数占真正的正样本个数的比例。即RecallTP/(TPFN)上表中该模型的召回率Recall91/(919)0.914F1-scoreF1值是精确率和召回率的加权调和平均数精确率和召回率都是越高越好但两者往往是矛盾的。因此常用F1-score来综合评价分类器的效果它的取值范围为0到1越接近1效果越好。F12*Precision*Recall/(PrecisionRecall)那么上表该模型的F1-score2*0.875*0.91/(0.8750.91)0.892SPSSAU结果展示SPSSAU机器学习模块进行分类模型分析时输出评价指标展示如下3、Kappa系数Kappa系数用于衡量分类结果与真实结果的一致性并考虑随机一致的影响。相比准确率Kappa在类别不平衡场景下有时更稳健。Kappa越高说明模型分类结果与真实分类越一致。Kappa系数也属于一致性检验方法可点击查看下方文章一致性检验怎么选 Kappa、Kendall、ICC、rwg、Bland-Altman图一文理清三、分类预测模型评价指标在分类预测模型中除了准确率、精确率、召回率、F1值等基础指标外还常使用ROC曲线、校准曲线和DCA曲线进行综合评价。这类指标多见于二分类预测模型尤其是在疾病风险预测、违约风险预测、用户流失预测等场景中。1、ROC曲线ROC曲线主要用于评价模型的区分能力也就是模型能否把正类和负类有效区分开。在ROC曲线分析中曲线越接近左上角通常意味着模型的区分能力越强诊断效能越高。SPSSAU输出ROC曲线如下AUC是ROC曲线下的面积是ROC曲线的核心量化指标其取值范围为0.5至1越接近1越好。2、校准曲线校准曲线主要用于评价模型预测概率是否准确。比如模型预测某类人群发生事件的概率是30%那么实际发生比例是否也接近30%。如果预测概率与实际概率越接近说明模型校准效果越好。SPSSAU输出校准曲线如下校准曲线越靠近对角虚线模型的校准能力越强。如果在虚线下方代表模型高估了风险模型预言40%实际只有30%发病。如果在虚线上方代表模型低估了风险模型预言20%实际有30%发病。3、DCA曲线DCA曲线也叫决策曲线分析主要用于评价模型是否具有实际应用价值。它关注的是在不同风险阈值下使用模型进行决策能否带来更高的净获益。DCA曲线常用于医学预测模型和风险决策场景。SPSSAU输出DCA曲线如下在DCA决策曲线分析中模型曲线位于两条基准线之上、且整体越高、净获益区间越宽通常代表模型的临床应用价值越优。简单来说ROC看区分能力校准曲线看概率准不准DCA看决策有没有价值。关于ROC曲线、校准曲线、DCA曲线的详细教程可点击查看下方文章一文看懂临床预测模型四大图ROC、校准曲线、DCA曲线与列线图四、时序预测模型评价指标时间序列模型用于预测随时间变化的数据如销售额、客流量等。时间序列预测常用的误差指标包括MSE、RMSE、MAE、MAPE等与回归模型类似。但时间序列还需要特别关注趋势、季节性和预测区间。SPSSAU ARIMA预测结果如下五、聚类模型评价指标聚类模型常用于用户分群、样本分类、市场细分等场景。由于聚类模型通常没有明确的真实标签因此不能像分类模型一样直接计算准确率而是需要通过簇内紧密程度和簇间分离程度来评价聚类效果。常见的聚类模型评价指标包括SSE、轮廓系数。1、SSE误差平方和SSE计算的是所有样本点到其所属簇中心点的距离平方之和。它是衡量簇内紧密度的最直接指标——SSE越小说明每个簇内部的样本越集中聚类效果越好。SSE在实际应用中最经典的用法是肘部法则随着聚类数K的增加SSE会逐渐减小。当K值达到某个点后SSE的下降速度会突然变缓形成一个“肘部”这个拐点通常就是最佳的聚类数。因此SSE不仅用于评估聚类质量更是确定K值的核心依据。2、轮廓系数轮廓系数是聚类评估中最直观、最常用的综合指标。它同时考虑了簇内紧密度样本与同簇其他样本的平均距离和簇间分离度样本与最近邻簇的平均距离。取值范围一般为-1到1越接近1说明聚类效果越好接近0说明样本可能位于两个簇的边界小于0则说明样本可能被分到了不合适的簇。SPSSAU聚类分析会输出SSE和轮廓系数如下表