Python3入门机器学习

邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

数据预备，这里使用random函数生成10*2的矩阵作为两列特征值，1个10个元素数组作为类别值

import numpy as npimport matplotlib.pyplot as plt

x_train = np.random.rand(10,2)*8y_train = np.random.randint(0,2,10)

x = np.array([3,4])

k=3plt.scatter(x_train[y_train==1,0],x_train[y_train==1,1],color="red")

plt.scatter(x_train[y_train==0,0],x_train[y_train==0,1],color="green")

plt.scatter(x[0],x[1],marker='+',color="blue")

plt.show()

绿点为类别0，红点为类别1

X_train = np.array(x_train)

Y_train = np.array(y_train)

from math import sqrtdistances = []for x_train in X_train:

    d = sqrt(np.sum((x-x_train)**2))

    distances.append(d)

distances = [sqrt(np.sum((x-x_train)**2)) for x_train in X_train]

argindex = np.argsort(distances)

from collections import Counter

topK_Y = [Y_train[i] for i in argindex[:k]]

votes = Counter(topK_Y)

votes.most_common(1)[0][0]

执行结果为判断x点大概率为类别0（绿点）

使用sklearn中封装的knn算法

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier(n_neighbors=3)

knn_clf.fit(X_train,Y_train)

knn_clf.predict(x.reshape(1,-1))[0]

封装自己的knn算法

# _*_ encoding:utf-8 _*_import numpy as np

from math import sqrt

from collections import Counterclass KNNClassifier:

    def __init__(self,k):

        assert k>=1, "k must be valid"

        self.k = k        self._X_train = None        self._Y_train = None    def fit(self,X_train,Y_train):

        assert X_train.shape[0] == Y_train.shape[0],\                                                     "The size of X_train must be equals to the size of Y-Train"

        assert self.k <= X_train.shape[0]        self._X_train = X_train        self._Y_train = Y_train        return self

    def predict(self,x_predict):        return np.array([self._predict(x) for x in x_predict])    def _predict(self,x):

        distances = [ sqrt(np.sum((x_train-x)**2)) for x_train in self._X_train]

        nearest = np.argsort(distances)

        votes = [i for i in self._Y_train[nearest[:self.k]]]        return Counter(votes).most_common(1)[0][0]    def __repr__(self):        return "knn(k=%d)" %self.k

测试与训练数据集分类

为了能够确认模型的准确性，我们需要将已有数据集按一定比例分类为测试数据集和训练数据集

# _*_ encoding:utf-8 _*_import numpy as npdef train_test_split(X,y,test_radio=0.2,seed=None):

    assert X.shape[0]==y.shape[0],"The size of X and y must be equal"

    assert 0.0<=test_radio<=1.0,"test radio must be valid"

    if(seed):

        np.random.seed(seed)

    shuffled_indexes = np.random.permutation(len(X))

    test_size = int(X.shape[0]*test_radio)

    test_indexes = shuffled_indexes[:test_size]

    train_indexes = shuffled_indexes[test_size:]

    X_test = X[test_indexes]

    y_test = y[test_indexes]

    X_train = X[train_indexes]

    y_train = y[train_indexes]    return X_train,X_test,y_train,y_test

使用knn算法测试数据集digits

import numpy as npfrom sklearn import datasetsimport matplotlib.pyplot as pltimport matplotlib

%run MyScripts/KNN.py

%run MyScripts/metrics.py

%run MyScripts/model_selection.py

digits = datasets.load_digits()

X = digits.data

y = digits.target

some_digit = X[666]

some_digit_image = some_digit.reshape(8,8)

plt.imshow(some_digit_image,cmap=matplotlib.cm.binary)

画出第666个数据对应的数字图片

knn_clf = KNNClassifier(k=6)

X_train,X_test,y_train,y_test = train_test_split(X,y)

knn_clf.fit(X_train,y_train)

knn_clf.score(X_test,y_test)

超参数

超参数是模型运行前必须要决定的参数，例如k近邻算法中的k值和距离
确定超参数一般使用的方法：厦门叉车价格哪家便宜

领域知识
经验数值
实验探索

确定knn算法用于digits数据集的最佳超参数

//使用网格搜索法确定weights和k超参数

best_k = -1

best_score = -1

methods = ["uniform","distance"]

best_method = ""for method in methods:    for k in range(1,11):

        knn_clf = KNeighborsClassifier(n_neighbors=k,weights=method)

        knn_clf.fit(X_train,y_train)

        score = knn_clf.score(X_test,y_test)        if(score>best_score):

            best_k = k

            best_score = score

            best_method = methodprint("best_k = ",best_k)print("best_score = ",best_score)print("best_method = ",best_method)

best_k = 3
best_score = 0.9888888888888889
best_method = uniform

best_k = -1

best_score = -1

best_p=-1for p in range(1,6):    for k in range(1,11):

        knn_clf = KNeighborsClassifier(n_neighbors=k,weights="distance",p=p)

        knn_clf.fit(X_train,y_train)

        score = knn_clf.score(X_test,y_test)        if(score>best_score):

            best_k = k

            best_score = score

            best_p = pprint("best_k = ",best_k)print("best_score = ",best_score)print("best_p = ",best_p)

best_k = 3
best_score = 0.9888888888888889
best_p = 2

Python3入门机器学习 - k近邻算法的更多相关文章

[机器学习] k近邻算法
算是机器学习中最简单的算法了,顾名思义是看k个近邻的类别,测试点的类别判断为k近邻里某一类点最多的,少数服从多数,要点摘录: 1. 关键参数:k值 && 距离计算方式 &&am ...
机器学习（1）——K近邻算法
KNN的函数写法 import numpy as np from math import sqrt from collections import Counter def KNN_classify(k ...
1.K近邻算法
(一)K近邻算法基础 K近邻(KNN)算法优点思想极度简单应用数学知识少(近乎为0) 效果好可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程图解K近邻算法上图是以 ...
第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）
No.1. k-近邻算法的特点 No.2. 准备工作,导入类库,准备测试数据 No.3. 构建训练集 No.4. 简单查看一下训练数据集大概是什么样子,借助散点图 No.5. kNN算法的目的是,假如 ...
机器学习实战 - python3 学习笔记（一） - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...
Python3入门机器学习经典算法与应用
<Python3入门机器学习经典算法与应用> 章节第1章欢迎来到 Python3 玩转机器学习1-1 什么是机器学习1-2 课程涵盖的内容和理念1-3 课程所使用的主要技术栈第2章机器 ...
Python3入门机器学习经典算法与应用☝☝☝
Python3入门机器学习经典算法与应用 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 使用新版python3语言和流行的scikit-learn框架,算法与 ...
K近邻算法：机器学习萌新必学算法
摘要:K近邻(k-NearestNeighbor,K-NN)算法是一个有监督的机器学习算法,也被称为K-NN算法,由Cover和Hart于1968年提出,可以用于解决分类问题和回归问题. 1. 为什么 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

随机推荐

memcached/memcache安装
memcached安装查找memcached: yum search memcached安装 memcached yum -y install memca ...
L1-046. 整除光棍（模拟竖式计算除法）
L1-046. 整除光棍时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者翁恺这里所谓的“光棍”,并不是指单身汪啦~ 说的是全部由1 ...
Angular动态表单生成（七）
动态表单生成之拖拽生成表单(上) 这个功能就比较吊炸天了,之前的六篇,都是ng-dynamic-forms自带的功能,可能很多的说明官方的文档都已经写了,我只是个搬运工,而在这篇文章中,我将化身一个工 ...
Nginx与浏览器缓存
Nginx与浏览器缓存一.浏览器对缓存的处理:Internet选项 ★ 控制请求服务器策略:是忽略资源的缓存策略的情况下额外强制请求服务器的意思. ★ 检查存储的页面较新版本 1.每次访问网页时 ...
.NET分布式系统架构思路
分布式系统是由一组通过网络进行通信.为了完成共同的任务而协调工作的计算机节点组成的系统.分布式系统的出现是为了用廉价的.普通的机器完成单个计算机无法完成的计算.存储任务.其目的是利用更多的机器,处理更 ...
helpera64开发板下制作ubuntu rootfs镜像
下一篇路径:https://www.cnblogs.com/jizizh/p/10499448.html 环境: HelperA64开发板 Linux3.10内核时间:2019.02.14 目标:定 ...
实验吧web天网管理系统
直接查看源码 <!--$test=$_GET['username']>这一行源码的下面给了我们一些提示:我们输入的username经过md5加密后会赋值给test.当test为0时就会跳 ...
【commons】IO工具类——commons-io之IOUtils
本文转载自xingoo: https://www.cnblogs.com/xing901022/p/5978989.html 一.常用静态变量 public static final char DIR ...
mysql 导出表，导出数据命令
mysql mysqldump 只导出表结构不导出数据复制代码代码如下: mysqldump --opt -d 数据库名 -u root -p > xxx.sql 备份数据库复制代码代 ...
jQuery学习-页面就绪函数
1.开发工具HBuilder <!DOCTYPE html> <html> <head> <meta charset="utf-8" /& ...

Python3入门机器学习 - k近邻算法