机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法

一、scikit-learn库中的kNN算法

scikit-learn库中，所有机器学习算法都是以面向对象的形式进行包装的；
所有scikit-learn库中机器学习算法的使用过程：调用、实例化、fit、预测；

　1）使用scikit-learn库中的kNN算法解决分来问题：

代码实现过程：

import numpy as np

import matplotlib.pyplot as plt

raw_data_x = [[3.3935, 2.3312],

              [3.1101, 1.7815],

              [1.3438, 3.3684],

              [3.5823, 4.6792],

              [2.2804, 2.8670],

              [7.4234, 4.6965],

              [5.7451, 3.5340],

              [9.1722, 2.5111],

              [7.7928, 3.4241],

              [7.9398, 0.7916]]

raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

X_train = np.array(raw_data_x)

y_train = np.array(raw_data_y)

x = np.array([8.0936, 3.3657]).reshape(1, -1)

# 1）调用

# 从KNeighborsClassifier类中调用kNN算法

from sklearn.neighbors import KNeighborsClassifier

# 2）实例化

# 创建一个KNeighborsClassifier相应的实例

# n_neighbors为kNN中的k值

KNN_classifier = KNeighborsClassifier(n_neighbors = 6)

# 3）fit过程

# 对实例对象做拟合过程，返回机器学习对象自身，也就是训练的模型

# 对scikit-learn库中每一个机器学习算法的使用，都要先进行拟合

# fit的过程，传入训练数据集（特征值X_train、样本标签向量y_train）

KNN_classifier.fit(X_train, y_train)

# 4）预测

# 使用模型进行预测，返回一个array，array中的每一个数据表示预测对象的输出结果

# 预测的对象必须是一个矩阵，一个矩阵中包含多个新样本

KNN_classifier.predict(x)

代码实现过程中的主义事项：

对scikit-learn库中每一个机器学习算法的使用，都要先进行拟合；
拟合的过程，传入训练数据集（特征值X_train、样本标签向量y_train）；
预测的对象必须是一个矩阵，一个矩阵中包含多个新样本；

二、将自己所写的kNN算法封装成scikit-learn库中的kNN算法一样的模式

封装算法：

import numpy as np

from math import sqrt

from collections import Counter

class KNNClassifier:

    def __int__(self, k):

        """初始化kNN分类器"""

        assert k >= 1, "k must be walid"

        self.k = k

        """变量前加_，表示该变量为类私有，其它类不能随便操作"""

        self._X_train = None

        self._y_train = None

    def fit(self, X_train, y_train):

        """根据训练集X_train和y_train训练kNN分类器"""

        assert X_train.shape[0] == y_train.shape[0], \

            "the size of X_train must be equal to the size of y_train"

        assert self.k <= X_train.shape[0], \

            "the size of X_train must be at least k."

        self._X_train = X_train

        self._y_train = y_train

        """

        为了和scikit-learn库的规则一样，此处一般返回模型本身，

        可使封装好的算法与scikit-learn中其它方法更好结合

        """

        return self

    def predict(self, X_predict):

        """给定待预测数据集X_predict，返回表示X_predict的结果向量"""

        assert self._X_train is not None and self._y_train is not None, \

            "must fit before predict!"

        assert X_predict.shape[1] == self._X_train.shape[1], \

            "the feature number of X_predict must be equal to X_train"

        y_predict = [self._predict(x) for x in X_predict]

        return np.array(y_predict)

    def _predict(self, x):

        """给定单个待预测数据，返回x的预测结果"""

        assert x.shape[0] == self._X_train.shape[1], \

            "the feature number of x must be equal to X_train"

        distances = [sqrt(np.sum((x - x_train) ** 2)) for x_train in self._X_train]

        nearest = np.argsort(distances)

        topK_y = [self._y_train[i] for i in nearest[:self.k]]

        votes = Counter(topK_y)

        return votes.most_common(1)[0][0]

    def __repr__(self):

        """kNN算法的显示名称"""

        return "KNN(k = %d)" % self.k

测试算法：调用、实例化、fit、预测；（操作过程与scikit-learn中的算法应用一样）

import numpy as np

import matplotlib.pyplot as plt

raw_data_x = [[3.3935, 2.3312],

              [3.1101, 1.7815],

              [1.3438, 3.3684],

              [3.5823, 4.6792],

              [2.2804, 2.8670],

              [7.4234, 4.6965],

              [5.7451, 3.5340],

              [9.1722, 2.5111],

              [7.7928, 3.4241],

              [7.9398, 0.7916]]

raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

X_train = np.array(raw_data_x)

y_train = np.array(raw_data_y)

x = np.array([8.0936, 3.3657]).reshape(1, -1)

# 1）导入kNN.py模块

%run kNN.py

# 2）初始化

knn_clf = KNNClassifier(k=6)

# 3）fit

knn_clf.fit(X_train, y_train)

# 4）预测

y_predict = knn_clf.predict(X_predict)

print(y_predict)

scikit-learn库内部的底层实现更加复杂，因为kNN算法在预测的过程中非常耗时（也是kNN算法的缺点）；
字Jupyter NoteBook中运行py文件：%run + dir_path，如%run E:/pythonwj/ALG/matries.py

机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法的更多相关文章

机器学习-scikit learn学习笔记
scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
在C#代码中应用Log4Net（五）将Log4Net正确地封装在自己的类库中并进行调用
前面的几篇文章已经比较完整地解释了怎么使用Log4Net,但是我们可能需要将Log4Net的日志类封装在自己的类库中,以便C/S或B/S程序进行调用.下面的示例程序简单地分为两层,一个是应用程序层We ...
FPGA机器学习之机器学习的n中算法总结1
机器学习是AI领域的重要一门学科.前面我描写叙述过.我计划从事的方向是视觉相关的机器学习分类识别,所以可能在每一个算法的分析中,仅仅增加在视频.视觉领域的作用. 我毛华望QQ849886241.技术博 ...
FlowPortal BPM流程中调用封装好的API如何调试
遇到复杂一点的业务,我们常常都会将业务逻辑封装到一个dll中,在流程中调用封装好的API. 业务逻辑库封装到企业库后,是可以在Visual Studio中调试库的哦. [附加到进程] [流程中调用AP ...
控制算法的划分（自适应控制、预测控制、模糊控制等，PID等；蚁群算法、神经网络，还有机器学习、人工智能中的很多方法）
一般来说,控制器的设计,分为控制框架的选取,跟参数的优化.自适应控制.预测控制.模糊控制等,跟PID一样,是控制算法(我习惯称为控制框架). 而粒子群.遗传算法(类似的还有蚁群算法.神经网络,还有机器 ...
文本分类学习（十）构造机器学习Libsvm 的C# wrapper（调用c/c++动态链接库）
前言: 对于SVM的了解,看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解,比如线性分类器,和求凸二次规划中用到的高等数学知识.然而SVM最核心的地方应该在于核函数和求关于α函数的极值的方法: ...

随机推荐

Java基础 - 标识符
标识符就是用来给包,类,方法变量等起名字的符号组成规则: A:unicode字符数字字符,英文大小写字母,汉字(不建议使用汉字) B:下划线 _ C:美元符 $ 注意事项: A:不能以数字开头 B ...
Java语言实现简单FTP软件------>源码放送(十三)
Java语言实现简单FTP软件------>FTP协议分析(一) Java语言实现简单FTP软件------>FTP软件效果图预览之下载功能(二) Java语言实现简单FTP软件----- ...
flask初次搭建rest服务笔记
官网中有用的记录一下,太多只是记录了最简单的官网docs:http://flask.pocoo.org/docs/0.12/ 跑起来一个程序 $ export FLASK_APP=hello.py $ ...
[原创]java WEB学习笔记14：JSP的9 个隐含对象及 JSP 的基本语法
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...
20145229吴姗珊《Java程序设计》两天小总结
20145229吴姗珊 <Java程序设计>两天小总结教材学习内容总结第十章输入\输出 1.java将输入\输出抽象化为串流,数据有来源及目的地,衔接两者的是串流对象 2.从应用程序 ...
[算法]String to Integer（atoi）
Implement atoi to convert a string to an integer. Hint: Carefully consider all possible input cases. ...
[算法]旋转矩阵问题（Spiral Matrix）
题目一: Given a matrix of m x n elements (m rows, n columns), return all elements of the matrix in spir ...
poj 3083 Children of the Candy Corn 【条件约束dfs搜索 + bfs搜索】【复习搜索题目一定要看这道题目】
题目地址:http://poj.org/problem?id=3083 Sample Input 2 8 8 ######## #......# #.####.# #.####.# #.####.# ...
RabbitMQ事务确认机制（生产者）
消息确认机制生产者消费者消费者如何确保消息一定消费成功队列和消费者建立长连接,推送或者拉取形式. 消费者通过自动应答或者手动应答,队列服务器等待应答结果,如果没有应答结果那么保留给下一个消费者 ...
linux raid技术
一.概念磁盘阵列(Redundant Arrays of Independent Disks,RAID),有“独立磁盘构成的具有冗余能力的阵列”之意.是为了提高文件在磁盘上的读写速度而研究出来的. ...

机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法

一、scikit-learn库中的kNN算法

1）使用scikit-learn库中的kNN算法解决分来问题：

二、将自己所写的kNN算法封装成scikit-learn库中的kNN算法一样的模式

机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法的更多相关文章

随机推荐

热门专题

　1）使用scikit-learn库中的kNN算法解决分来问题：