机器学习系列算法1:KNN
思路:空间上距离相近的点具有相似的特征属性。
执行流程:
•1. 从训练集合中获取K个离待预测样本距离最近的样本数据;
•2. 根据获取得到的K个样本数据来预测当前待预测样本的目标属性值
三要素:K值选择/距离度量(欧式距离)/决策选择(平均值/加权平均)
Knn问题:数据量大,计算量较大;解决方案:kd-tree
kd-tree:计算方差,根据方差大的划分
伪代码实现:
import numpy as np
from collections import defaultdict class myknn: def fit(self, X, Y, k):
self.train_x = X
self.train_y = Y
self.k = k def predict(self, X):
predict_labels = []
for x in X:
# 1. 从训练数据中获取K个和当前待预测样本x最相似的样本
neighbors = self.fetch_k_neighbors(x)
# 2. 将这K个最相似的样本中出现次数最多的类别作为预测值
predict_label = self.calc_max_count_label(neighbors)
# 3. 将当前样本的预测值添加到临时的列表中
predict_labels.append(predict_label) return predict_labels def fetch_k_neighbors(self, x):
distances = []
for neighbor in self.train_x:
dis = np.sqrt(np.sum((np.array(x) - neighbor) ** 2))
distances.append(dis)
neighbors_y_distances = [[neighbor, y, dis] for neighbor, y, dis in zip(self.train_x, self.train_y, distances)] k_neighbors_y = sorted(neighbors_y_distances, key=lambda x: x[2])[:self.k]
return k_neighbors_y def calc_max_count_label(self, neighbors):
y_count = defaultdict(int)
for neighbor, y, _ in neighbors:
y_count[y] += 1
max_count_label = sorted(y_count.items(), key=lambda x: x[1], reverse=True)[0][0]
return max_count_label a = myknn()
X = [
[1, 2, 3],
[4, 5, 6],
[7, 8, 9],
[10, 11, 12],
[1, 2, 3],
[4, 5, 6],
[7, 8, 9],
]
Y = [1, 2, 3, 2, 1, 2, 3]
k = 3
a.fit(X, Y, k)
print(a.predict([[7, 8, 9], ]))
sklearn 实现:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import os if not os.path.exists('models'):
os.mkdir('models')
base_path = './models/' #模型保存路径 from sklearn.datasets import load_iris #load 鸢尾花数据
from sklearn.model_selection import train_test_split #数据分割
from sklearn.neighbors import KNeighborsClassifier #knn分类器
from sklearn.externals import joblib #持久化 data = pd.read_csv('iris.data', header=None) print(data.head())
X = data.loc[:, :3] #前4列为特征数据
Y = data[4] #最后一列为目标数据
print(X.head()) X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=22) '''
def __init__(self,
n_neighbors=5, #邻居数目
weights='uniform', #uniform 等权重/distance
algorithm='auto', #暴力计算和kd-tree
leaf_size=30, #构建kd-tree 允许的最大叶子节点
p=2, #距离公式
metric='minkowski', #默认欧式距离
metric_params=None,
n_jobs=None, #开启多少个线程计算
**kwargs):''' algo = KNeighborsClassifier(n_neighbors=3)
algo.fit(X_train, Y_train)
print('准确率:{}'.format(algo.score(X_train, Y_train))) # 持久化
joblib.dump(value=algo, filename=base_path + 'knn.pkl')
机器学习开发流程:
# 1. 数据加载 # 2. 数据的清洗、处理 # 3. 训练数据和测试数据的划分 # 4. 特征工程 # 5. 模型对象构建 # 6. 模型训练 # 7. 模型效果评估 # 8. 模型持久化 持久化的方式主要三种:
-1. 将模型持久化为二进制的磁盘文件。
-2. 将模型参数持久化到数据库中。
-3. 使用模型对所有数据进行预测,并将预测结果保存到数据库中。
机器学习系列算法1:KNN的更多相关文章
- 机器学习经典算法之KNN
一.前言 KNN 的英文叫 K-Nearest Neighbor,应该算是数据挖掘算法中最简单的一种. 先用一个例子体会下. /*请尊重作者劳动成果,转载请标明原文链接:*/ /* https://w ...
- Python3实现机器学习经典算法(一)KNN
一.KNN概述 K-(最)近邻算法KNN(k-Nearest Neighbor)是数据挖掘分类技术中最简单的方法之一.它具有精度高.对异常值不敏感的优点,适合用来处理离散的数值型数据,但是它具有 非常 ...
- 【机器学习】k近邻算法(kNN)
一.写在前面 本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
- 就是要你明白机器学习系列--决策树算法之悲观剪枝算法(PEP)
前言 在机器学习经典算法中,决策树算法的重要性想必大家都是知道的.不管是ID3算法还是比如C4.5算法等等,都面临一个问题,就是通过直接生成的完全决策树对于训练样本来说是“过度拟合”的,说白了是太精确 ...
- 机器学习十大算法之KNN(K最近邻,k-NearestNeighbor)算法
机器学习十大算法之KNN算法 前段时间一直在搞tkinter,机器学习荒废了一阵子.如今想重新写一个,发现遇到不少问题,不过最终还是解决了.希望与大家共同进步. 闲话少说,进入正题. KNN算法也称最 ...
- 机器学习十大算法 之 kNN(一)
机器学习十大算法 之 kNN(一) 最近在学习机器学习领域的十大经典算法,先从kNN开始吧. 简介 kNN是一种有监督学习方法,它的思想很简单,对于一个未分类的样本来说,通过距离它最近的k个" ...
- 机器学习之K近邻算法(KNN)
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习 苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
- 机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN)
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
- <转>机器学习系列(9)_机器学习算法一览(附Python和R代码)
转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更 ...
随机推荐
- VBA Excel对象(十九)
使用VBA进行编程时,用户将要处理的重要对象很少.下面是一些常见的对象 - 应用程序对象 工作簿对象 工作表对象 范围对象 应用程序对象 应用程序对象由以下部分组成 - 应用程序范围的设置和选项. 返 ...
- H5 - 简学
什么是HTML? HTML 是用来描述网页的一种语言. 0.HTML 指的是超文本标记语言 1.HTML 不是一种编程语言,而是一种标记语言 2.标记语言是一套标记标签 3.HTML 使用标记标签来描 ...
- 【转载】Response对象的作用以及常用方法属性
Response对象是Asp.Net应用程序中非常重要的一个内置对象,其作用为负责将服务器执行好的信息输出给客户端,即作用主要为响应客户端请求并将服务器的响应返回给用户,在页面的临时跳转中,也可使用R ...
- EntityFramework进阶(五)- 分页
本系列原创博客代码已在EntityFramework6.0.0测试通过,转载请标明出处 我们创建分页信息类CommonPagedList,包含了字段总条数,总页数,当前页码,页大小,当前页数据. us ...
- English-培训3-Please call me Beth
- SVN限制IP访问
转自:https://www.cnblogs.com/wjlkingwjl/p/4630764.html 需求 SVN是放在公网的,需要特别指定公司的IP才能获取操作. 操作 在安装完Visual S ...
- Android笔记(三十二) Android中线程之间的通信(四)主线程给子线程发送消息
之前的例子都是我们在子线程(WorkerThread)当中处理并发送消息,然后在主线程(UI线程)中获取消息并修改UI,那么可以不可以在由主线程发送消息,子线程接收呢?我们按照之前的思路写一下代码: ...
- Linux提供哪些功能
不只是Linux,任何一个OS几乎都具有如下功能. 1.文件IO:读写文件 初级文件IO 2.文件属性:获取文件信息 3.标准IO:读取文件系统函数 4.获取IS系统信息 5.进程环境 6.进程控制 ...
- ubuntu 启动图形界面 sudo init 5
Linux系统最早期的时候只有命令行界面,所有的工作都需要用Linux命令来完成. 随着系统的发展,以及图形界面系统的出现,Linux也出现了图形界面,使得Linux系统不再是只有计算机的专业人士才可 ...
- 创建虚拟目录 http://localhost:1001/ 失败,错误: 无法创建网站
使用vs2015打开一个vs2008项目报错了. 最后网上找到的解决方案, 1,打开编辑xxx.csproj文件: 2,找到节点ProjectExtensions注释掉: 3,重新加载就好了.