机器学习实战1-K均值

【机器学习实战1-K均值】的更多相关文章

机器学习实战python3 K近邻（KNN）算法实现

台大机器技法跟基石都看完了,但是没有编程一直,现在打算结合周志华的<机器学习>,撸一遍机器学习实战, 原书是python2 的,但是本人感觉python3更好用一些,所以打算用python3 写一遍.python3 与python2 不同的地方会在程序中标出. 代码及数据:https://github.com/zle1992/MachineLearningInAction k-近邻算法优点:精度高.对异常值不敏感.无数据输入假定. 缺点:计算复杂度高.空间复杂度高.对K的取值敏感!!! 适用…

机器学习实战笔记-10-K均值聚类

K-均值聚类优点:易实现.缺点:可能收敛到局部最小值,大规模数据集上收敛较慢:适用于数值型数据. K-均值聚类(找到给定数据集的k个簇) 算法流程伪代码: 创建k个点作为起始质心(经常是随机选择) 当任意一个点的簇分配结果发生改变时对数据集中的每个数据点对每个质心计算质心到数据点的间距将数据点分配到距其最近的簇对每个簇,计算簇中所有点的均值并将均值作为质心评价指标:误差(实质上是数据点到簇质心的距离的平方值之和,SSE,Sum of Squared Error),以上K-均值算法…

《机器学习实战》-k近邻算法

目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python 解析文本文件分析数据:使用 Matplotlib 画二维散点图准备数据:归一化数值测试算法:验证分类器使用算法:构建完整可用系统手写识别系统准备数据测试算法使用算法:构建完整可用系统总结 K-近邻算法 k-近邻分类算法概述使用 k-近邻算法改进约会网站的配对效果手写识别系统…

02机器学习实战之K近邻算法

第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k 近邻算法的输入为实例的特征向量,对应于特征空间的点:输出为实例的类别,可以取多类.k 近邻算法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测.因此,k近邻算法不具有显式的学习过程. k 近邻算法实际上利用训练数据集对…

机器学习实战笔记--k近邻算法

#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as plt from os import listdir def makePhoto(returnMat,classLabelVector): #创建散点图 fig = plt.figure() ax = fig.add_subplot(111) #例如参数为349时,参数349的意思是:将画布分割成3行4…

《机器学习实战》——K近邻算法

三要素:距离度量.k值选择.分类决策原理: (1) 输入点A,输入已知分类的数据集data (2) 求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点 (3) K个点进行投票,票数最多的分类即为所求优点: 简单,可用于非线性分类缺点: 当样本不均衡时影响投票结果: 分类结果受K值影响: 时空复杂度高:需要保存全部数据O(N),每次取前k个都要与全部数据进行计算O(N),耗费内存大且计算量大改进: 样本均衡化太小的K值容易受噪音影响,大的K值减小噪音但会使分类边界模糊,最…

机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例

k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可): 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧氏距离:把每个实例都分配到距离最近的质心的那一类,用一个二维数组数据结构保存,第一列是最近质心序号,第二列是距离: 3 根据二维数组保存的数据,重新计算每个聚簇新的质心: 4 迭代2 和 3,直到收敛…

机器学习实战---K均值聚类算法

一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): dataSet = np.loadtxt(filename) return dataSet (二)计算两个向量之间的距离 def distEclud(vecA,vecB): #计算两个向量之间距离 return np.sqrt(np.sum(np.power(vecA-vecB,))) (三)随机初…

机器学习算法与Python实践之（五）k均值聚类（k-means）

机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 机器学习中有两类的大问题,一个是分类,一个是聚类.分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行分类.这属于supervised learning(监督学习).而聚类指事先并不知道任何样本的类别标号,…

机器学习算法与Python实践之（六）二分k均值聚类

http://blog.csdn.net/zouxy09/article/details/17590137 机器学习算法与Python实践之(六)二分k均值聚类 zouxy09@qq.com http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来…