前言

本篇我会使用scikit-learn这个开源机器学习库来对iris数据集进行分类练习。

我将分别使用两种不同的scikit-learn内置算法——Decision Tree（决策树）和kNN（邻近算法），随后我也会尝试自己实现kNN算法。目前为止，我还是在机器学习的入门阶段，文章中暂不详细解释算法原理，如果想了解细节信息可自行搜索。

代码分解

读取数据集

scikit-learn中预制了很多经典数据集，非常方便我们自己练习用。使用方式也很容易：

# 引入datasets

from sklearn import datasets

# 获取所需数据集

iris = datasets.load_iris()

load_iris返回的结果有如下属性：

feature_names - 分别为：sepal length (cm)， sepal width (cm)， petal length (cm)和 petal width (cm)
data - 每行的数据，一共四列，每一列映射为feature_names中对应的值
target - 每行数据对应的分类结果值（也就是每行数据的label值），其值为[0,1,2]
target_names - target的值对应的名称，其值为['setosa' 'versicolor' 'virginica']

分离数据

监督学习可以用一个简单的数学公式来代表：

y = f(X)

按上一篇中的相关术语描述就是已知X（features），通过方法f（classifier）求y（label）。

按照这个思路，我将iris数据分离为：

# X = features

X = iris.data

# y = label

y = iris.target

那如何来使用数据呢？因为只有150行数据，所以为了验证算法的正确性，需要将数据分成两部分：训练数据和测试数据，很幸运的是scikit-learn也提供了方便分离数据的方法train_test_split，我将数据分离成60%（即90条数据）用于训练，40%（即60条数据）用于测试，代码如下:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.6)

内置算法——Decision Tree（决策树）

上一篇中已经用过决策树，使用决策树的代码简单如下：

# Decision tree classifier

# 生成决策树

my_classification = tree.DecisionTreeClassifier()

# 训练

my_classification.fit(X_train, y_train)

# 预测

predictions = my_classification.predict(X_test)

通过决策树算法，最终得到的模型的准确率有多少呢？这个时候可以使用scikit-learn的accuracy_score方法：

# 获得预测准确率

print(accuracy_score(y_test, predictions))

由于train_test_split是随机切分数据，因此最终跑出来的准确率不是一个固定值

内置算法——kNN（邻近算法）

kNN算法就是选取k个最近邻居来归类样本值的方法，这是最简单的一种分类算法，当然缺点也很明显，必须循环计算测试样本值和所有的样本之间的距离，运行效率比较低。

在选用kNN算法的时候，k值最好是奇数，偶数值会造成无法归到唯一类的情况（属于不同分类的概率正好相等）。

只需在上述分离数据之后，将决策树算法的代码替换为：

# N neighbors classifier

# 生成kNN

my_classification2 = KNeighborsClassifier(n_neighbors=5)

# 训练

my_classification2.fit(X_train, y_train)

# 预测

predictions2 = my_classification2.predict(X_test)

# 获得预测准确率

print(accuracy_score(y_test, predictions2))

由于train_test_split是随机切分数据，因此最终跑出来的准确率不是一个固定值。而且由于算法不同，即便是相同的数据，跑出来的准确率也和决策树跑出来的不同。

自己实现kNN

基本思路是沿用上述内置kNN算法的代码，重新实现KNeighborsClassifier，称之为MyKNN好了。除了初始化函数之外，还需要fit和predict这两个方法，并且方法签名和原先的保持一致，所以MyKNN类的基本结构如下：

class MyKNN:

	def __init__(self, n_neighbors=5):

		pass

	def fit(self, X_train, y_train):

		pass

	def predict(self, X_test):

		pass

实现_init_

初始化方法仅需初始化几个参数以便后续使用：

    def __init__(self, n_neighbors=5):

        self.n_neighbors = n_neighbors

        self.X_train = None

        self.y_train = None

实现fit

在这里我简单处理该方法，由于原先fit方法包含了X和y两个参数，因此沿用该方法签名，这样就不需要改动其他代码了：

    def fit(self, X_train, y_train):

        self.X_train = X_train

        self.y_train = y_train

实现predict

我需要在该方法中遍历计算测试数据和训练数据之间的距离，两点之间的距离可以使用欧几里得公式，因此需要先定义一个外部方法my_euclidean：

def my_euclidean(a, b):

    return distance.euclidean(a, b)

我需要计算当前测试数据与K个最近距离的训练数据之间的值，然后看一下这K个数据中，最多的分类是哪种，则可认为测试数据也属于该种分类（概率最高）。因此先定义一个私有方法__closest：

    def __closest(self, row):

        all_labels = []

        for i in range(0, len(self.X_train)):

            dist = my_euclidean(row, self.X_train[i])

            # 获取k个最近距离的邻居，格式为(distance, index)的tuple集合

            all_labels = self.__append_neighbors(all_labels, (dist, i))

        # 将k个距离最近的邻居，映射为label的集合

        nearest_ones = np.array([self.y_train[idx] for val, idx in all_labels])

        # 使用numpy的unique方法，分组计算label的唯一值及其对应的值第一次出现的index和值的计数

        # 例： elements = [1, 2],  elements_index = [3,0], elements_count = [1, 4] 这个结合表示：

        #   elements = [1, 2] ： 出现了1和2两种类型的数据

        #   elements_index = [3,0] ： 1第一次出现的index是3， 2第一次出现的index是0

        #   elements_count = [1, 4] ： 1共出现了1次， 2共出现了4次

        elements, elements_index, elements_count = np.unique(nearest_ones, return_counts=True, return_index=True)

        # 返回最大可能性的那种类型的label值

        return elements[list(elements_count).index(max(elements_count))]

为了提升性能，我定义了__append_neighbors方法，该方法将当前距离-序号的tuple加入到数组中并按升序排序，最终只截取前k个值，可以用python的特性很容易实现该逻辑：

    def __append_neighbors(self, arr, item):

        if len(arr) <= self.n_neighbors:

            arr.append(item)

        return sorted(arr, key=lambda tup: tup[0])[:self.n_neighbors]

后记

短短几行代码就实现了自己的kNN算法，我本地跑下来的准确率在95%以上。

需要完整代码可以在我的GitHub上找到。

本文在我的博客园和我的个人博客上同步发布，作者保留版权，转载请注明来源。

机器学习笔记2 – sklearn之iris数据集的更多相关文章

Python机器学习笔记使用sklearn做特征工程和数据挖掘
特征处理是特征工程的核心部分,特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样式确定的步骤,更多的是工程上的经验和权衡,因此没有统一的方法,但是sklearn提供了较为完整的特征处 ...
Python机器学习笔记：sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档. 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常 ...
机器学习笔记(四)--sklearn数据集
sklearn数据集 (一)机器学习的一般数据集会划分为两个部分训练数据:用于训练,构建模型. 测试数据:在模型检验时使用,用于评估模型是否有效. 划分数据的API:sklearn.model_se ...
机器学习笔记5-Tensorflow高级API之tf.estimator
前言本文接着上一篇继续来聊Tensorflow的接口,上一篇中用较低层的接口实现了线性模型,本篇中将用更高级的API--tf.estimator来改写线性模型. 还记得之前的文章<机器学习笔记 ...
Python机器学习笔记：使用Keras进行回归预测
Keras是一个深度学习库,包含高效的数字库Theano和TensorFlow.是一个高度模块化的神经网络库,支持CPU和GPU. 本文学习的目的是学习如何加载CSV文件并使其可供Keras使用,如何 ...
从Iris数据集开始---机器学习入门
代码多来自<Introduction to Machine Learning with Python>. 该文集主要是自己的一个阅读笔记以及一些小思考,小总结. 前言在开始进行模型训练之 ...
Google机器学习笔记 4-5-6 分类器
转载请注明作者:梦里风林 Google Machine Learning Recipes 4 官方中文博客 - 视频地址 Github工程地址 https://github.com/ahangchen ...
Python机器学习笔记：利用Keras进行分类预测
Keras是一个用于深度学习的Python库,它包含高效的数值库Theano和TensorFlow. 本文的目的是学习如何从csv中加载数据并使其可供Keras使用,如何用神经网络建立多类分类的数据进 ...
【转】机器学习笔记之（3）——Logistic回归（逻辑斯蒂回归）
原文链接:https://blog.csdn.net/gwplovekimi/article/details/80288964 本博文为逻辑斯特回归的学习笔记.由于仅仅是学习笔记,水平有限,还望广大读 ...

随机推荐

深入理解java虚拟机_第二章_读书笔记
1.本章内容目录: 概述运行时数据区域程序计数器 java虚拟机栈本地方法栈 java堆方法区运行时常量池直接内存 HotSpot虚拟机对象探秘对象的创建对象的内存布局对象的访问定位 ...
PHP和java比较
这样从几个方面来看:一.运行机制:Java代码被编译成字节码后,会在虚拟机里由JIT进行二次编译成为本地码,据传言其执行速度可以和C++相媲美,经过我自己测试,用Java实现一个简单的Memcache ...
asp.net web api 版本控制
版本控制版本控制的方法有很多,这里提供一种将Odata与普通web api版本控制机制统一的方法,但也可以单独控制,整合控制与单独控制主要的不同是:整合控制通过VersionController ...
java多线程创建-Thread,Runnable,callable和threadpool
java创建多线程的方式有许多种,这里简要做个梳理 1. 继承Thread类继承java.lang.Thread类,创建本地多线程的类,重载run()方法,调用Thread的方法启动线程.示例代码如 ...
TCollector
TCollector tcollector is a client-side process that gathers data from local collectors and pushes th ...
基础拾遗----RabbitMQ（含封装类库源码）
基础拾遗基础拾遗------特性详解基础拾遗------webservice详解基础拾遗------redis详解基础拾遗------反射详解基础拾遗------委托详解基础拾遗----- ...
部分小程序无法获取UnionId原因
问题背景通过观察数据,发现有一部分用户是无法获取到UnionId的也就是接口返回的参数中不包含UnionId参数看了微信文档的解释,只要小程序在开放平台绑定,就一定会分配UnionId 网上也有 ...
Xshell显示图形化界面
前言很久没用过图形化界面了,都忘记怎么使用了.... 依据以往的经验都是由环境变量DISPLAY设置,然后就能连接了,每天也是匆匆忙忙的就过了一天,都不知道干了啥,分配的时间也少,但是一直纠结,进行 ...
DIV居中的经典方法
1. 实现DIV水平居中设置DIV的宽高,使用margin设置边距0 auto,CSS自动算出左右边距,使得DIV居中. 1 div{ 2 width: 100px; 3 height: 100px ...
Linux下OpenSSL的安装全过程(CentOS6.3 x86 + Openssl 1.1.0e)
写在前面:安装前先查看下老的openssl版本 (使用 openssl version -a 命令查看来版本),和服务器操作系统版本(uname -a),升级的原因是,老版的openssl已经 ...

机器学习笔记2 – sklearn之iris数据集

前言