[机器学习]Machine learning algorithm recommendation chart
个人主页星柚程精选文章《MATLAB多目标优化》《Kaggle:CV、Public LB 》、《我的第一次 Kaggle》、《C构造传参》、《蛇形机械臂的模拟退火优化》️专栏建设|深度学习|、|Python量化|、|C学习|、|数据结构|流水不争先争得是涛涛不绝。这张图是 Scikit-learn 官方推荐的机器学习算法选择流程图可以帮你快速根据任务类型、数据规模和特点挑选合适的算法。流程图核心解读它把算法分成了四大类每一类都有清晰的选择逻辑1. 分类任务Classification左上粉色区域核心是预测类别标签选择逻辑- 先看数据规模样本数 100K 时优先用 LinearSVC 、 KNeighborsClassifier 等- 如果是文本数据优先用 Naive Bayes - 简单模型效果不好时再尝试 SVC 、集成分类器 Ensemble Classifiers 或 SGDClassifier 。2. 回归任务Regression右上蓝色区域核心是预测连续数值选择逻辑- 数据量 100K 时先判断特征重要性- 少数特征很重要 → 用 Lasso / ElasticNet - 不是 → 用 RidgeRegression / SVR(linear) - 简单模型效果不好时升级到 SVR(rbf) 或 EnsembleRegressors - 数据量很大时优先用 SGDRegressor 。3. 聚类任务Clustering左下紫色区域核心是无监督分组选择逻辑- 类别数已知样本数 10K → 用 KMeans - 类别数未知样本数 10K → 用 MeanShift / VBGMM - 数据量大或KMeans效果差 → 尝试 MiniBatchKMeans 、 Spectral Clustering 或 GMM 。4. 降维任务Dimensionality Reduction右下黄色区域核心是压缩数据维度选择逻辑- 数据量 10K 时优先用 Randomized PCA - PCA效果不好时尝试 Isomap / Spectral Embedding - 再不行就用 LLE 或 kernel approximation 。使用小贴士1. 先判断任务类型你要解决的是分类、回归、聚类还是降维2. 再看数据规模样本数、特征数会直接影响算法效率和效果3. 从简单到复杂尝试优先用线性模型如 LinearSVC 、 Ridge 效果不好再升级到非线性或集成模型4. 不要死记硬背这只是参考指南实际效果还要结合数据分布、调参来验证。用书指导《阿里云天池大赛赛题解析_机器学习篇》包含工业蒸汽量预测、天猫用户重复购买预测、O2O优惠券预测、阿里云安全恶意程序检测四个赛题。全书都按赛题理解、数据探索、特征工程、模型训练与验证、特征优化、模型融合这7步拆解。 The Kaggle Book这本被誉为“Kaggle圣经”的综合性指南旨在帮你建立竞赛的“全局观”与“方法论”硬核背书由30余位Kaggle大师Masters及特级大师Grandmasters 合作编写含金量极高。系统全面内容覆盖竞赛全流程验证、特征工程及多数据类型表格/图像/NLP/时序。