一.概述 KNN(K-最近邻)算法是相对比较简单的机器学习算法之一,它主要用于对事物进行分类.用比较官方的话来说就是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例, 这K个实例的多数属于某个类,就把该输入实例分类到这个类中.为了更好地理解,通过一个简单的例子说明. 我们有一组自拟的关于电影中镜头的数据: 那么问题来了,如果有一部电影 X,它的打戏为 3,吻戏为 2.那么这部电影应该属于哪一类? 我们把所有数据通过图表显示出来(圆点代表的是自拟的数据,也称训练集: