《机器学习实战》学习笔记一K邻近算法

　一、　K邻近算法思想：存在一个样本数据集合，称为训练样本集，并且每个数据都存在标签，即我们知道样本集中每一数据（这里的数据是一组数据，可以是n维向量）与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征（向量的每个元素）与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似的的分类标签。由于样本集可以很大，我们选取前k个最相似数据，然后统计k个数据中出现频率最高的标签为新数据的标签。

　　K邻近算法的一般流程：

　　（1）收集数据：可以是本地数据，也可以从网页抓取。

　　（2）准备数据：将数据结构化，方便操作。

　　（3）分析数据：可以使用任何方法。

　　（4）训练算法：此步骤不适用于k邻近算法。

　　（5）测试算法：计算错误率；计算公式：错误率=测试出错次数/总测试次数

　　（6）使用算法：输入样本数据，输出结构化的结果，判断新数据属于哪个分类。

　　二、使用K近邻算法的一个例子

　　我使用的是spyder的开发环境，python的版本是3.5，spyder自带了numpy函数库。新建一个KNN.py文件，在本文件中完成本章实验。

　　在KNN中写一个数据生成函数：

 from numpy import *

 import operator

 def createDataset():

     group = array([[1.0,1.1],[1.0,1.0],[0.0,0.0],[0.0,0.1]])

     labels = ['A','A','B','B']

     return group,labels

　　在spyder中输入：

　　>>> import KNN

　　>>>group,labels = KNN.createDataSet()

　　>>>group

　　array([[ 1. , 1.1],
　　　　　[ 1. , 1. ],
　　　　　[ 0. , 0. ],
　　　　　[ 0. , 0.1]])

　　>>>labels

　　['A', 'A', 'B', 'B']

　　出现以上提示则说明函数正确。

　　三、K近邻算法函数

 def classify(inX,dataset,labels,k):

     dataSetSize = dataset.shape[0]

     diffMat = tile(inX,(dataSetSize,1))-dataset

     sqDiffMat = diffMat**2

     sqDistances = sqDiffMat.sum(axis=1)

     distances = sqDistances**0.5

     sortedDistIndicies = distances.argsort()

     classCount ={}

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel,0)+1

     sortedClassCount = sorted(classCount.items(),

                               key=operator.itemgetter(1),reverse=True)

     return sortedClassCount[0][0]

　　验证：在spyder中输入

　　>>> KNN.classify([0,0],group,labels,3)

　　输出结果应该为'B'。

　　四、例子：约会网站匹配改进

　　海伦收集约会数据已经有一段时间，她把这些数据放在文本文件datingdata.txt中，每个样本数据占据一行，共有1000行（她可能约会过1000个人，太可怕了^_^）,每个样本主要包括以下3中特征：

　　1、每年获得的飞行常客里程数

　　2、玩视频游戏所耗的时间百分数

　　3、每周消费的冰激凌公升数

　　上述数据保存在文本文件中，数据之间以空格间隔，在数据输入分类器之前，必须将待处理数据改变为分类器可以处理的数据，在KNN中创建名为file2matrix的函数，进行数据处理。

 def file2matrix(filename):

     fr = open(filename,'r')

     arrayOLines = fr.readlines()

     numberOfLines = len(arrayOLines)

     returnMat = zeros((numberOfLines,3))

     classLabelVector = []

     index = 0

     for line in arrayOLines:

         line = line.strip()

         listFromLine = line.split('\t')

         returnMat[index,:] = listFromLine[0:3]

         classLabelVector.append(int(listFromLine[-1]))

         index += 1

     return returnMat,classLabelVector

 retarnmat,classlabelvector = file2matrix('datingdata.txt')

　　在我运行这段程序，总是出现错误提示：could not convert string to float: '12 34 56',对于这个问题，我的改法是将文本中数据间的空格改为','并将

listFromLine = line.split('\t')改为

listFromLine = line.split(',')
这样就可以解决问题，但是不是最好的方法，还需要改进。

《机器学习实战》学习笔记一K邻近算法的更多相关文章

机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
【机器学习实战学习笔记(1-1)】k-近邻算法原理及python实现
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 ...
机器学习实战读书笔记(二)k-近邻算法
knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...
【机器学习实战学习笔记(2-2)】决策树python3.6实现及简单应用
文章目录 1.ID3及C4.5算法基础 1.1 计算香农熵 1.2 按照给定特征划分数据集 1.3 选择最优特征 1.4 多数表决实现 2.基于ID3.C4.5生成算法创建决策树 3.使用决策树进行分 ...
【机器学习实战学习笔记(1-2)】k-近邻算法应用实例python代码
文章目录 1.改进约会网站匹配效果 1.1 准备数据:从文本文件中解析数据 1.2 分析数据:使用Matplotlib创建散点图 1.3 准备数据:归一化特征 1.4 测试算法:作为完整程序验证分类器 ...
《机器学习实战》---第二章 k近邻算法 kNN
下面的代码是在python3中运行, # -*- coding: utf-8 -*- """ Created on Tue Jul 3 17:29:27 2018 @au ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...

随机推荐

linux cntlm代理的配置
在linux下需要配置代理上网,如yum, wget等.如果直接配置windows下的代理,如下: export http_proxy=http://<proxyIP>:<port& ...
iOS9 适配(杂七杂八)
1.iOS9 以后,table cell 在旋转的时候会自动调整视图内容的布局,设置以下的属性,课禁止该行为. if (runTimeOSVersion >= 9.0f) { _listTabl ...
node静态资源管理变迁之路
使用express自带的,express.static,如:app.use(express.static('hehe')),就可以用localhost/hua.png,访问项目根目录下,hehe文件夹 ...
Linq to Sql : 并发冲突及处理策略
原文:Linq to Sql : 并发冲突及处理策略 1. 通过覆盖数据库值解决并发冲突 try { db.SubmitChanges(ConflictMode.ContinueOnConflict) ...
chm转换为html
在Windows下chm转换为html的超简单方法(反编译CHM文件的方法) 通过调用Windows命令,将chm 文件转换为html 文件. 方法: 命令行(cmd),输入hh -decompile ...
Windows Live Writer体验
[安装] 首先下载安装包安装软件,没啥好说的,baidupan有记录: 顺便下载两个工具,备用: a)SourceCodePlugin_version_1.1.zip 将WindowsLiveWrit ...
使用JCIFS获取远程共享文件
package com.jadyer.util; import java.io.File; import java.io.FileOutputStream; import java.io.IOExc ...
python之路目录
目录 python python_基础总结1 python由来字符编码注释 pyc文件 python变量导入模块获取用户输入流程控制if while python 基础2 编码转换 pych ...
delphi 环境问题
这个编译时的警告该如何理解?[Warning] Unit 'Unit101' implicitly imported into package 'Package202'------解决方案------ ...
RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录
RDIFramework.NET — 基于.NET的快速信息化系统开发框架 — 系列目录 RDIFramework.NET,基于.NET的快速信息化系统开发.整合框架,给用户和开发者最佳的.Net框架 ...

《机器学习实战》学习笔记一K邻近算法

《机器学习实战》学习笔记一K邻近算法的更多相关文章

随机推荐

热门专题