机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法

一、scikit-learn库中的kNN算法

scikit-learn库中，所有机器学习算法都是以面向对象的形式进行包装的；
所有scikit-learn库中机器学习算法的使用过程：调用、实例化、fit、预测；

　1）使用scikit-learn库中的kNN算法解决分来问题：

代码实现过程：

import numpy as np

import matplotlib.pyplot as plt

raw_data_x = [[3.3935, 2.3312],

              [3.1101, 1.7815],

              [1.3438, 3.3684],

              [3.5823, 4.6792],

              [2.2804, 2.8670],

              [7.4234, 4.6965],

              [5.7451, 3.5340],

              [9.1722, 2.5111],

              [7.7928, 3.4241],

              [7.9398, 0.7916]]

raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

X_train = np.array(raw_data_x)

y_train = np.array(raw_data_y)

x = np.array([8.0936, 3.3657]).reshape(1, -1)

# 1）调用

# 从KNeighborsClassifier类中调用kNN算法

from sklearn.neighbors import KNeighborsClassifier

# 2）实例化

# 创建一个KNeighborsClassifier相应的实例

# n_neighbors为kNN中的k值

KNN_classifier = KNeighborsClassifier(n_neighbors = 6)

# 3）fit过程

# 对实例对象做拟合过程，返回机器学习对象自身，也就是训练的模型

# 对scikit-learn库中每一个机器学习算法的使用，都要先进行拟合

# fit的过程，传入训练数据集（特征值X_train、样本标签向量y_train）

KNN_classifier.fit(X_train, y_train)

# 4）预测

# 使用模型进行预测，返回一个array，array中的每一个数据表示预测对象的输出结果

# 预测的对象必须是一个矩阵，一个矩阵中包含多个新样本

KNN_classifier.predict(x)

代码实现过程中的主义事项：

对scikit-learn库中每一个机器学习算法的使用，都要先进行拟合；
拟合的过程，传入训练数据集（特征值X_train、样本标签向量y_train）；
预测的对象必须是一个矩阵，一个矩阵中包含多个新样本；

二、将自己所写的kNN算法封装成scikit-learn库中的kNN算法一样的模式

封装算法：

import numpy as np

from math import sqrt

from collections import Counter

class KNNClassifier:

    def __int__(self, k):

        """初始化kNN分类器"""

        assert k >= 1, "k must be walid"

        self.k = k

        """变量前加_，表示该变量为类私有，其它类不能随便操作"""

        self._X_train = None

        self._y_train = None

    def fit(self, X_train, y_train):

        """根据训练集X_train和y_train训练kNN分类器"""

        assert X_train.shape[0] == y_train.shape[0], \

            "the size of X_train must be equal to the size of y_train"

        assert self.k <= X_train.shape[0], \

            "the size of X_train must be at least k."

        self._X_train = X_train

        self._y_train = y_train

        """

        为了和scikit-learn库的规则一样，此处一般返回模型本身，

        可使封装好的算法与scikit-learn中其它方法更好结合

        """

        return self

    def predict(self, X_predict):

        """给定待预测数据集X_predict，返回表示X_predict的结果向量"""

        assert self._X_train is not None and self._y_train is not None, \

            "must fit before predict!"

        assert X_predict.shape[1] == self._X_train.shape[1], \

            "the feature number of X_predict must be equal to X_train"

        y_predict = [self._predict(x) for x in X_predict]

        return np.array(y_predict)

    def _predict(self, x):

        """给定单个待预测数据，返回x的预测结果"""

        assert x.shape[0] == self._X_train.shape[1], \

            "the feature number of x must be equal to X_train"

        distances = [sqrt(np.sum((x - x_train) ** 2)) for x_train in self._X_train]

        nearest = np.argsort(distances)

        topK_y = [self._y_train[i] for i in nearest[:self.k]]

        votes = Counter(topK_y)

        return votes.most_common(1)[0][0]

    def __repr__(self):

        """kNN算法的显示名称"""

        return "KNN(k = %d)" % self.k

测试算法：调用、实例化、fit、预测；（操作过程与scikit-learn中的算法应用一样）

import numpy as np

import matplotlib.pyplot as plt

raw_data_x = [[3.3935, 2.3312],

              [3.1101, 1.7815],

              [1.3438, 3.3684],

              [3.5823, 4.6792],

              [2.2804, 2.8670],

              [7.4234, 4.6965],

              [5.7451, 3.5340],

              [9.1722, 2.5111],

              [7.7928, 3.4241],

              [7.9398, 0.7916]]

raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]

X_train = np.array(raw_data_x)

y_train = np.array(raw_data_y)

x = np.array([8.0936, 3.3657]).reshape(1, -1)

# 1）导入kNN.py模块

%run kNN.py

# 2）初始化

knn_clf = KNNClassifier(k=6)

# 3）fit

knn_clf.fit(X_train, y_train)

# 4）预测

y_predict = knn_clf.predict(X_predict)

print(y_predict)

scikit-learn库内部的底层实现更加复杂，因为kNN算法在预测的过程中非常耗时（也是kNN算法的缺点）；
字Jupyter NoteBook中运行py文件：%run + dir_path，如%run E:/pythonwj/ALG/matries.py

机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法的更多相关文章

机器学习-scikit learn学习笔记
scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
在C#代码中应用Log4Net（五）将Log4Net正确地封装在自己的类库中并进行调用
前面的几篇文章已经比较完整地解释了怎么使用Log4Net,但是我们可能需要将Log4Net的日志类封装在自己的类库中,以便C/S或B/S程序进行调用.下面的示例程序简单地分为两层,一个是应用程序层We ...
FPGA机器学习之机器学习的n中算法总结1
机器学习是AI领域的重要一门学科.前面我描写叙述过.我计划从事的方向是视觉相关的机器学习分类识别,所以可能在每一个算法的分析中,仅仅增加在视频.视觉领域的作用. 我毛华望QQ849886241.技术博 ...
FlowPortal BPM流程中调用封装好的API如何调试
遇到复杂一点的业务,我们常常都会将业务逻辑封装到一个dll中,在流程中调用封装好的API. 业务逻辑库封装到企业库后,是可以在Visual Studio中调试库的哦. [附加到进程] [流程中调用AP ...
控制算法的划分（自适应控制、预测控制、模糊控制等，PID等；蚁群算法、神经网络，还有机器学习、人工智能中的很多方法）
一般来说,控制器的设计,分为控制框架的选取,跟参数的优化.自适应控制.预测控制.模糊控制等,跟PID一样,是控制算法(我习惯称为控制框架). 而粒子群.遗传算法(类似的还有蚁群算法.神经网络,还有机器 ...
文本分类学习（十）构造机器学习Libsvm 的C# wrapper（调用c/c++动态链接库）
前言: 对于SVM的了解,看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解,比如线性分类器,和求凸二次规划中用到的高等数学知识.然而SVM最核心的地方应该在于核函数和求关于α函数的极值的方法: ...

随机推荐

iOS 推送跳转到相关页面
哈哈哈我又来窃取别人的劳动成果了写的很好呦 http://www.jianshu.com/p/c0eb32443915
Bootstrap学习-导航条-分页导航
1.导航条基础导航条(navbar)和上一节介绍的导航(nav),就相差一个字,多了一个“条”字.其实在Bootstrap框架中他们还是明显的区别.在导航条(navbar)中有一个背景色.而且导航条 ...
ASP-AJAX-分页格式
HTML: <html> <head> <title>Mazey</title> <meta name="description&quo ...
6.让ORM映射执行的时候打印SQL语句
配置Django日志:\hello_django\hello_django\settings.py 文件中的 LOGGING 加入如下配置: LOGGING = { 'version': 1, 'di ...
django 异步任务实现及Celery beat实现定时/轮询任务
Celery定时任务 requirements celery==3.1.25 异步任务 django-celery==3.2.2 定时任务管理包 redis==2.10.6 django-redis- ...
牛客小白月赛1 H 写真がとどいています【循环】
题目链接 https://www.nowcoder.com/acm/contest/85/H 思路如果熟悉五线谱才能做啊... 然后先竖着遍历再横着遍历就可以了 AC代码 #inclu ...
pandas to_datetime()
>>> import pandas as pd >>> i = pd.date_range() >>> df = pd.DataFrame(dic ...
MD5文件
我从某网站下载了一个iso系统镜像,我担心下载下来之后,被我电脑上的病毒感染了.我要确定这个文件还是“原汁原味”,就可以用软件再次生成该文件的md5码,然后和网站上的md5码对比一下就可以了.我用的是 ...
[原创]java WEB学习笔记43：jstl 介绍，core库详解：表达式操作，流程控制，迭代操作，url操作
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...
maven命令创建项目
1)创建一个Project mvn archetype:generate -DgroupId=com.mycompany.app -DartifactId=my-app -DarchetypeArti ...

机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法

一、scikit-learn库中的kNN算法

1）使用scikit-learn库中的kNN算法解决分来问题：

二、将自己所写的kNN算法封装成scikit-learn库中的kNN算法一样的模式

机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法的更多相关文章

随机推荐

热门专题

　1）使用scikit-learn库中的kNN算法解决分来问题：