K 近邻(KNN)全面详解(一)
一、K 近邻(KNN)的定义与核心思想K 近邻(K-Nearest Neighbors,简称 KNN)是机器学习领域经典的监督学习算法,同时支持分类任务和回归任务,属于 ** 基于实例的惰性学习(Lazy Learning)** 算法。核心逻辑:遵循 “物以类聚” 的原则,一个未知样本的属性,由它距离最近的 K 个已知样本的属性共同决定。惰性学习特点:训练阶段不构建任何显式的数学模型,仅存储全部训练数据;只有收到预测请求时,才通过计算距离得到结果,因此训练速度快、预测速度慢。二、核心计算公式KNN 的计算分为两大核心:距离度量(量化样本间的相似程度)和预测规则(根据 K 个邻居输出最终结果)。1. 距离度量公式样本间的 “远近” 通过距离量化。设特征维度为n,两个样本 x=(x1,x2,...,xn) 和 y=(y1,y2,...,yn) 的常见距离计算方式如下:(1)欧氏距离(Euclidean Distance)最常用的距离度量,对应二维 / 三维空间中的直线距离,是闵可夫斯基距离在p=2时的特例。(2)曼哈顿距离(Manhattan Distance