引言：深入理解机器学习并全然看懂sklearn文档，须要较深厚的理论基础。可是。要将sklearn应用于实际的项目中，仅仅须要对机器学习理论有一个主要的掌握，就能够直接调用其API来完毕各种机器学习问题。

本文选自《全栈数据之门》。将向你介绍通过三个步骤来解决详细的机器学习问题。

sklearn介绍

　　scikit-learn是Python语言开发的机器学习库。一般简称为sklearn。眼下算是通用机器学习算法库中实现得比較完好的库了。

其完好之处不仅在于实现的算法多。还包含大量详尽的文档和演示样例。其文档写得通俗易懂，全然能够当成机器学习的教程来学习。

　　假设要说sklearn文档的重要性，个人认为，应该能够与佛经中的《金刚经》相比。假设能将其当成《金刚经》一样来阅读，你的机器学习水平一定会有质的提升。

　　一般初阅佛经。肯定会被当中的一些名词弄糊涂，就像初次阅读sklearn的文档一样，会被诸如training data、testing data、model select、cross validation等这种词汇弄糊涂。但实际上，仅仅要肯用心读，把这些基础概念弄明确，兴许学习就比較easy了。sklearn必需要结合机器学习的一些基础理论来理解，就像佛经必需要结合一些佛法基础理论来理解一样。

　　既然是通用的机器学习库。sklearn中包括了大量经常使用的算法。正如其介绍一样。基本功能主要分为6个部分：分类、回归、聚类、数据降维、模型选择与数据预处理。例如以下图所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYnJvYWR2aWV3MjAwNg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" target="_blank" style="color:rgb(0,193,222); text-decoration:none; background:0px 0px">

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYnJvYWR2aWV3MjAwNg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="【图1】" title="【图1】" style="border:0px; vertical-align:middle; max-width:100%">

　　要深入理解机器学习，而且全然看懂sklearn的文档，须要较深厚的理论基础。可是。要将sklearn应用于实际的项目中，却并不须要特别多的理论知识，仅仅须要对机器学习理论有一个主要的掌握，就能够直接调用其API来完毕各种机器学习问题。

对于详细的机器学习问题，通常能够分为三个步骤：

数据准备与预处理
模型选择与训练
模型验证与參数调优

以下就通过一个详细的演示样例来介绍这三个步骤。

数据预处理

　　在这个演示样例中，使用sklearn自带的Iris数据来做演示。而算法使用kNN来进行分类，要了解kNN算法的具体信息，请參考“近朱者赤。相亲kNN”一节。

　　使用load_iris方法，载入Iris数据。Iris是一个很有名的公共数据集。描写叙述了鸢尾花的三种不同的子类别，共同拥有4个特征，分别为花萼的长度与宽度，花瓣的长度与宽度。能够不用关注详细分哪三类，仅仅须要知道在数据中类标签分别用0、1、2表示就可以。

　　载入数据的代码例如以下：

%pyspark

from sklearn.datasets import load_iris

from sklearn.cross_validation import train_test_split

# 载入数据

iris = load_iris()

data_X = iris.data

data_y = iris.target

# 数据维度、特征与目标值的前3项

print('data:', data_X.shape, data_y.shape)

print('features:', data_X[:3, :])

print('target:', data_y[:3])

# 数据切分

train_X, test_X, train_y, test_y = train_test_split(data_X,

data_y, test_size=0.2)

# 训练数据与測试数据的维度

print('train:', train_X.shape, train_y.shape)

print('test: ', test_X.shape, test_y.shape)

　　将数据的特征载入为data_X。将类别标签载入为data_y，一般的命名习惯是，使用大写的X表示特征是多维的，而用小写的y表示目标值为1维。

不同的命名习惯。比較符合人类以貌取人的特点，程序猿不仅是人。更是聪明的人，因此也有这种习惯。

　　载入完数据，使用sklearn自带的train_test_split方法将数据按0.8与0.2的比例进行划分。切分为训练数据train与測试数据test，并将特征与目标值分别命名为train_X、train_y与test_X、test_y。

　　其运行结果例如以下图所看到的。

建模与预測

　　准备好数据后，就能够从neighbors近邻类中导入kNN分类算法了，其代码例如以下所看到的：

%pyspark

from sklearn.neighbors import KNeighborsClassifier

# 构建knn模型

knn = KNeighborsClassifier(n_neighbors=3, n_jobs=-1)

# 拟合数据

knn.fit(train_X, train_y)

# 预測

preds = knn.predict(test_X)

print('knn model:', knn)

print('First 3 pred:',preds[:3])

　　通过使用两个自己定义參数n_neighbors（參考的近邻数）与n_jobs（使用的CPU核数）来导入KNeighborsClassifier模型。这样就生成了一个knn的模型。n_neighbors是knn中最重要的參数，能够通过交叉验证来设置一个合理的值。而n_jobs是sklearn中所有支持并行的算法都会支持的參数。sklearn中有非常多算法都能够将单台机器的所有CPU进行并行运算，设置为-1即是使用机器的所有CPU核，也能够设置成详细的数字值。

　　接着使用fit方法在训练数据上进行拟合。kNN是一个有监督的学习算法，因此在拟合数据的时候，须要将已知的类别标签train_y与特征train_X一起输入到模型中进行数据拟合。

　　模型在训练数据上完毕了拟合，便能够对測试数据进行预測了，使用predict方法来对測试的特征进行预測。由于是使用特征来预測其类别。此处自然不能传入測试数据的类别标签数据test_y。这个数据是在后面对模型进行评估时使用的。打印knn模型，会输出其用于构建的參数。也能够打印出预測的前三个值。例如以下图所看到的。

　　在上面的建模与预測过程中，sklearn的这样的简洁API方式已经成为现代机器学习库争相模仿的对象，就连Spark的ML库。也在学习这样的简洁的方式。能够说差点儿已经成为大众接受的标准方式了。

模型评估

　　评估一个模型的好坏是机器学习中很重要的任务。

否则，无法评价模型的好坏，也就无法更好地优化模型。归根究竟，全部的机器学习算法都是一堆数学运算，其预測的值与标准的值是能够进行数学上的对照的。在这一点上，与教育中所用的考试分数来评估一个人的能力不一样，也与公司中所用的KPI来考核一个人对公司的贡献是不一样的。

　　在分类算法中，通常的评价指标有精确率、召回率与F1-Score等几种。

　　前面构建的knn模型。本身也有一个score方法，能够对模型的好坏做一个初步评估。其使用的指标为F1-Score。当然，也能够使用sklearn中提供的很多其它的评价指标来评估模型。其代码例如以下所看到的：

%pyspark

from pprint import pprint

# 使用測试的特征与測试的目标值

print(knn.score(test_X, test_y))

from sklearn.metrics import precision_recall_fscore_support

# 打印出三个指标

scores = precision_recall_fscore_support(test_y, preds)

pprint(scores)

　　对每一个类别的数据都进行了精确率、召回率与F-beta Score的评估，其结果例如以下图所看到的。

模型持久化

　　辛辛苦苦训练好一个模型后，总希望后面能够直接使用。此时就必需要对模型进行持久化操作了。模型本身就是一个Python的对象。能够使用pickle的方式将模型转储到文件。但sklearn推荐使用其joblib接口，保存与载入模型都很easy：

import joblib

# 保存模型

joblib.dump(model, '/tmp/model.pkl')

# 载入模型

model = joblib.load('/tmp/model.pkl')

三个层次

　　前面已经演示了一个完整的使用sklearn来解决实际问题的样例，能够发现。假设仅仅是调用sklearn的API，确实不须要太复杂的理论知识。在学完上面的演示样例后，你也许都并不清楚kNN算法是怎样工作的。但学习是分层次的。

　　或许有的人觉得。仅仅会调用API来实现。并非真正会用机器学习了。确实。不理解kNN算法，就不清楚怎样进行算法的參数调优。但个人觉得，从sklearn入门机器学习是最好的途径。虽然你曾经全然没有接触过机器学习。

　　我所理解的。学习机器学习算法的三个层次例如以下所述。

调用：知道算法的基本思想，能应用现有的库来做測试。简单说，就是了解kNN是做什么的，会调用sklearn中的kNN算法。
调參：知道算法的主要影响參数，能进行參数调节优化。
嚼透：理解算法的实现细节，而且能用代码实现出来。

上面三个层次是不是非常押韵呢，但不幸的是，有的人一上来就想达到第三个层次。于是刚開始就被怎样实现kNN算法吓到了，过不了三天就从入门到放弃了。

　　作为应用型的机器学习，能达到第三阶段固然好，但在实际应用中。建议能调用现有的库就直接调用好了。不理解的地方，能看懂源代码最好。不太建议自己从头实现，除非能力确实够了，否则写出来的代码并不能保证性能与准确性。

　　当然，从另外一个角度来说，尤其是在分布式环境下，机器学习还有另外三个层次，想知道的话，请见《全栈数据之门》一书。

　　本文选自《全栈数据之门》，点此链接可在博文视点官网查看此书。

　　　　　　　　　　　　　　　　　　　　

　　想及时获得很多其它精彩文章。可在微信中搜索“博文视点”或者扫描下方二维码并关注。

　　　　　　　　　　　　　　　　　　　　　　　

sklearn：Python语言开发的通用机器学习库的更多相关文章

用Python语言开发VTK程序的步骤
在Windows环境下用Python语言开发VTK程序 1.安装Python集成开发环境IDLE:下载地址:https://www.python.org/downloads/ 2.然后到VTK官网下载 ...
python语言开发环境配置
原作者:龙行天下-super 地址:https://www.cnblogs.com/longxingtianxia/p/10181901.html 要点:IDLE是一个轻量级python语言开发环境, ...
appium自动化环境搭建（python语言开发）
简述 1.安装jdk,配置环境变量 2.安装AndroidSDK,配置环境变量 3.安装Python 4.安装Python集成开发环境PyCharm 5.安装node 6.安装appium服务端 7. ...
python语言基础语法笔记<note1库安装和工具安装>
Python是一门入门简单的编程语言,它的安装和搭建也非常简单.在大部分的发行Linux版本上都预装了python2,部分也预装了python3,需要查看Linux上是否安装Python,只需要在命 ...
Python语言开发的一些问题
1.Python是如何进行内存管理的? Python引用了一个内存池(memory pool)机制,即Pymalloc机制(malloc:n.分配内存),用于管理对小块内存的申请和释放内存池(memo ...
Python机器学习库scikit-learn实践
原文:http://blog.csdn.net/zouxy09/article/details/48903179 一.概述机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得 ...
【Python基础学习一】在OSX系统下搭建Python语言集成开发环境附激活码
Python是一门简单易学,功能强大的编程语言.它具有高效的高级数据结构和简单而有效的面向对象编程方法.Python优雅的语法和动态类型以及其解释性的性质,使它在许多领域和大多数平台成为编写脚本和快速 ...
Python语言学习之Python入门到进阶
人们常说Python语言简单,编写简单程序时好像也确实如此.但实际上Python绝不简单,它也是一种很复杂的语言,其功能特征非常丰富,能支持多种编程风格,在几乎所有方面都能深度定制.要想用好Pytho ...
python语言概述
python语言的发展 python语言诞生于1990年,由Guide van Rossum设计并领导开发. python语言是开源项目的优秀代表,其解释器的全部代码都是开源的. 编写Hello程序 ...

随机推荐

使用asp.net 2.0中的SqlBulkCopy类批量复制数据
介绍:在软件开发中,把数据从一个地方复制到另一个地方是一个普遍的应用. 在很多不同的场合都会执行这个操作,包括旧系统到新系统的移植,从不同的数据库备份数据和收集数据. ASP.NET 2.0有一个Sq ...
009 使用servlet API作为参数
1.哪些可以使用 MVC中的Handler方法可以接受ServletAPI类型的参数. 2.controller package com.spring.it; import java.io.IOExc ...
096实战在windows下新建maven项目
1.拷贝settings到.m2文件下 2.修改文件 3.新建Project项目 4.转换为maven项目 config下转换 5.拷贝pom文件 <project xmlns="ht ...
C#连接数据库MD5数据库加密
创建StringHelper类首先数据库里的资料是加密了的. 创建将指定的字符串加密为MD5密文方法 public static string ToMD5(string source){ Strin ...
各种浏览器下的页面元素xpath获取方法
参考链接: http://blog.sina.com.cn/s/blog_654c6ec70100v1i2.html
HDU 2602 Bone Collector 骨头收集者【01背包】
题目链接:https://vjudge.net/contest/103424#problem/A 题目大意: 第一行输入几组数据,第二行第一个数字代表物体个数,第二个数代表总体积.需要注意的是,第三排 ...
python网络编程基础(线程与进程、并行与并发、同步与异步、阻塞与非阻塞、CPU密集型与IO密集型)
python网络编程基础(线程与进程.并行与并发.同步与异步.阻塞与非阻塞.CPU密集型与IO密集型) 目录线程与进程并行与并发同步与异步阻塞与非阻塞 CPU密集型与IO密集型线程与进程进 ...
Python开发之日志记录模块：logging
1 引言最近在开发一个应用软件,为方便调试和后期维护,在代码中添加了日志,用的是Python内置的logging模块,看了许多博主的博文,颇有所得.不得不说,有许多博主大牛总结得确实很好.似乎我再写 ...
几个文本处理工具的简单使用（wc，cut，sort，uniq，diff和patch）
wc wc命令用于报告文本文件的一些统计计数,例如行数.单词数.字节数等. 语法如下. wc [OPTION]... [FILE]... wc [OPTION]... --files0-from=F ...
程序猿（媛）的葵花宝典-- 必备idea 插件plugins 提高编码效率
最近发现了几个非常好用提高编码效率的idea 插件跟大家分享一下,,,不用谢我!!!!!!!!!!!!! 因为idea自带的插件下载可能连接不上服务器而导致插件下载失败,所以这里推荐使用引入 ...

sklearn：Python语言开发的通用机器学习库