Python中常用包——sklearn主要模块和基本使用方法

在从事数据科学的人中，最常用的工具就是R和Python了，每个工具都有其利弊，但是Python在各方面都相对胜出一些，这是因为scikit-learn库实现了很多机器学习算法。
加载数据(Data Loading)

我们假设输入时一个特征矩阵或者csv文件。
首先，数据应该被载入内存中。
scikit-learn的实现使用了NumPy中的arrays，所以，我们要使用NumPy来载入csv文件。
以下是从UCI机器学习数据仓库中下载的数据。
样例：

1 import numpy as np

 2 import urllib

 3 # url with dataset

 4 url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"

 5 # download the file

 6 raw_data = urllib.urlopen(url)

 7 # load the CSV file as a numpy matrix

 8 dataset = np.loadtxt(raw_data, delimiter=",")

 9 # separate the data from the target attributes

10 X = dataset[:,0:7]

11 y = dataset[:,8]

我们要使用该数据集作为例子，将特征矩阵作为X，目标变量作为y。

注意事项：
（1）可以用浏览器打开那个url，把数据文件保存在本地，然后直接用 np.loadtxt(‘data.txt’, delemiter=”,”) 就可以加载数据了；
（2）X = dataset[:, 0:7]的意思是：把dataset中的所有行，所有1-7列的数据都保存在X中；

数据归一化(Data Normalization)
大多数机器学习算法中的梯度方法对于数据的缩放和尺度都是很敏感的，在开始跑算法之前，我们应该进行归一化或者标准化的过程，这使得特征数据缩放到0-1范围中。scikit-learn提供了归一化的方法，具体解释参考http://scikit-learn.org/stable/modules/preprocessing.html：
样例：

1 from sklearn import preprocessing

2 #scale the data attributes

3 scaled_X = preprocessing.scale(X)

4

5 # normalize the data attributes

6 normalized_X = preprocessing.normalize(X)

7

8 # standardize the data attributes

9 standardized_X = preprocessing.scale(X)

特征选择(Feature Selection)

在解决一个实际问题的过程中，选择合适的特征或者构建特征的能力特别重要。这成为特征选择或者特征工程。
特征选择时一个很需要创造力的过程，更多的依赖于直觉和专业知识，并且有很多现成的算法来进行特征的选择。
下面的树算法(Tree algorithms)计算特征的信息量：

样例：

1 from sklearn import metrics

2 from sklearn.ensemble import ExtraTreesClassifier

3 model = ExtraTreesClassifier()

4 model.fit(X, y)

5 # display the relative importance of each attribute

6 print(model.feature_importances_)

输出每个特征的重要程度：

[ 0.13784722  0.15383598  0.25451389  0.17476852  0.02847222  0.12314815  0.12741402]

算法的使用
scikit-learn实现了机器学习的大部分基础算法，让我们快速了解一下。

逻辑回归（官方文档）

大多数问题都可以归结为二元分类问题。这个算法的优点是可以给出数据所在类别的概率。
样例：

 1 from sklearn import metrics

 2 from sklearn.linear_model import LogisticRegression

 3 model = LogisticRegression()

 4 model.fit(X, y)

 5 print('MODEL')

 6 print(model)

 7 # make predictions

 8 expected = y

 9 predicted = model.predict(X)

10 # summarize the fit of the model

11 print('RESULT')

12 print(metrics.classification_report(expected, predicted))

13 print('CONFUSION MATRIX')

14 print(metrics.confusion_matrix(expected, predicted))

结果：

1 MODEL

 2 LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,

 3           intercept_scaling=1, max_iter=100, multi_class='ovr',

 4           penalty='l2', random_state=None, solver='liblinear', tol=0.0001,

 5           verbose=0)

 6 RESULT

 7              precision    recall  f1-score   support

 8

 9         0.0       1.00      1.00      1.00         4

10         1.0       1.00      1.00      1.00         6

11

12 avg / total       1.00      1.00      1.00        10

13

14 CONFUSION MATRIX

15 [[4 0]

16  [0 6]]

输出结果中的各个参数信息，可以参考官方文档。

朴素贝叶斯（官方文档）

这也是著名的机器学习算法，该方法的任务是还原训练样本数据的分布密度，其在多类别分类中有很好的效果。
样例：

 1 from sklearn import metrics

 2 from sklearn.naive_bayes import GaussianNB

 3 model = GaussianNB()

 4 model.fit(X, y)

 5 print('MODEL')

 6 print(model)

 7 # make predictions

 8 expected = y

 9 predicted = model.predict(X)

10 # summarize the fit of the model

11 print('RESULT')

12 print(metrics.classification_report(expected, predicted))

13 print('CONFUSION MATRIX')

14 print(metrics.confusion_matrix(expected, predicted))

结果：

MODEL

GaussianNB()

RESULT

             precision    recall  f1-score   support

        0.0       0.80      1.00      0.89         4

        1.0       1.00      0.83      0.91         6

avg / total       0.92      0.90      0.90        10

CONFUSION MATRIX

[[4 0]

 [1 5]]

k近邻（官方文档）

k近邻算法常常被用作是分类算法一部分，比如可以用它来评估特征，在特征选择上我们可以用到它。
样例：

 1 from sklearn import metrics

 2 from sklearn.neighbors import KNeighborsClassifier

 3 # fit a k-nearest neighbor model to the data

 4 model = KNeighborsClassifier()

 5 model.fit(X, y)

 6 print(model)

 7 # make predictions

 8 expected = y

 9 predicted = model.predict(X)

10 # summarize the fit of the model

11 print(metrics.classification_report(expected, predicted))

12 print(metrics.confusion_matrix(expected, predicted))

结果：

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

           metric_params=None, n_neighbors=5, p=2, weights='uniform')

             precision    recall  f1-score   support

        0.0       0.75      0.75      0.75         4

        1.0       0.83      0.83      0.83         6

avg / total       0.80      0.80      0.80        10

[[3 1]

 [1 5]]

决策树（官方文档）

分类与回归树(Classification and Regression Trees ,CART)算法常用于特征含有类别信息的分类或者回归问题，这种方法非常适用于多分类情况。
样例：

1 from sklearn import metrics

 2 from sklearn.tree import DecisionTreeClassifier

 3 # fit a CART model to the data

 4 model = DecisionTreeClassifier()

 5 model.fit(X, y)

 6 print(model)

 7 # make predictions

 8 expected = y

 9 predicted = model.predict(X)

10 # summarize the fit of the model

11 print(metrics.classification_report(expected, predicted))

12 print(metrics.confusion_matrix(expected, predicted))

样例：

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,

            max_features=None, max_leaf_nodes=None, min_samples_leaf=1,

            min_samples_split=2, min_weight_fraction_leaf=0.0,

            random_state=None, splitter='best')

             precision    recall  f1-score   support

        0.0       1.00      1.00      1.00         4

        1.0       1.00      1.00      1.00         6

avg / total       1.00      1.00      1.00        10

[[4 0]

 [0 6]]

支持向量机（官方文档）

SVM是非常流行的机器学习算法，主要用于分类问题，如同逻辑回归问题，它可以使用一对多的方法进行多类别的分类。
样例：

1 from sklearn import metrics

 2 from sklearn.svm import SVC

 3 # fit a SVM model to the data

 4 model = SVC()

 5 model.fit(X, y)

 6 print(model)

 7 # make predictions

 8 expected = y

 9 predicted = model.predict(X)

10 # summarize the fit of the model

11 print(metrics.classification_report(expected, predicted))

12 print(metrics.confusion_matrix(expected, predicted))

结果

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,

  kernel='rbf', max_iter=-1, probability=False, random_state=None,

  shrinking=True, tol=0.001, verbose=False)

             precision    recall  f1-score   support

        0.0       1.00      1.00      1.00         4

        1.0       1.00      1.00      1.00         6

avg / total       1.00      1.00      1.00        10

[[4 0]

 [0 6]]

除了分类和回归算法外，scikit-learn提供了更加复杂的算法，比如聚类算法，还实现了算法组合的技术，如Bagging和Boosting算法。

如何优化算法参数
一项更加困难的任务是构建一个有效的方法用于选择正确的参数，我们需要用搜索的方法来确定参数。scikit-learn提供了实现这一目标的函数。
下面的例子是一个进行正则参数选择的程序：
GridSearchCV官方文档1（模块使用）官方文档2（原理详解）
样例：

1 import numpy as np

 2 from sklearn.linear_model import Ridge

 3 from sklearn.grid_search import GridSearchCV

 4 # prepare a range of alpha values to test

 5 alphas = np.array([1,0.1,0.01,0.001,0.0001,0])

 6 # create and fit a ridge regression model, testing each alpha

 7 model = Ridge()

 8 grid = GridSearchCV(estimator=model, param_grid=dict(alpha=alphas))

 9 grid.fit(X, y)

10 print(grid)

11 # summarize the results of the grid search

12 print(grid.best_score_)

13 print(grid.best_estimator_.alpha)

结果：

GridSearchCV(cv=None, error_score='raise',

       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,

   normalize=False, solver='auto', tol=0.001),

       fit_params={}, iid=True, loss_func=None, n_jobs=1,

       param_grid={'alpha': array([  1.00000e+00,   1.00000e-01,   1.00000e-02,   1.00000e-03,

         1.00000e-04,   0.00000e+00])},

       pre_dispatch='2*n_jobs', refit=True, score_func=None, scoring=None,

       verbose=0)

-5.59572064238

0.0

有时随机从给定区间中选择参数是很有效的方法，然后根据这些参数来评估算法的效果进而选择最佳的那个。

RandomizedSearchCV官方文档（模块使用）官方文档2 （原理详解）
样例：

 1 import numpy as np

 2 from scipy.stats import uniform as sp_rand

 3 from sklearn.linear_model import Ridge

 4 from sklearn.grid_search import RandomizedSearchCV

 5 # prepare a uniform distribution to sample for the alpha parameter

 6 param_grid = {'alpha': sp_rand()}

 7 # create and fit a ridge regression model, testing random alpha values

 8 model = Ridge()

 9 rsearch = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100)

10 rsearch.fit(X, y)

11 print(rsearch)

12 # summarize the results of the random parameter search

13 print(rsearch.best_score_)

14 print(rsearch.best_estimator_.alpha)

参考文献：http://www.jianshu.com/p/1c6efdbce226
http://www.cnblogs.com/CheeseZH/p/5250997.html

Python中常用包——sklearn主要模块和基本使用方法的更多相关文章

python中常用的内建模块
[datetime] datetime是python处理日期和时间的标准库获取当前日期和时间我们先看如何获取当前日期和时间: 注意到datetime是模块,datetime模块还包含一个datet ...
python中常用的导包的方法和常用的库
python中常用的导包的方法导入包和包名的方法:1.import package.module 2.from package.module import * 例一: ...
python中常用的模块二
一.序列化指:在我们存储数据的时候,需要对我们的对象进行处理,把对象处理成方便存储和传输的数据格式,这个就是序列化, 不同的序列化结果不同,但目的是一样的,都是为了存储和传输. 一,pickle.可 ...
python中常用的九种数据预处理方法分享
Spyder Ctrl + 4/5: 块注释/块反注释本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(St ...
python中常用的九种预处理方法
本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(Standardization or Mean Removal ...
【转】python 历险记（四）— python 中常用的 json 操作
[转]python 历险记(四)— python 中常用的 json 操作目录引言基础知识什么是 JSON? JSON 的语法 JSON 对象有哪些特点? JSON 数组有哪些特点? 什么是编 ...
Python中的包ImportError
前言 Python中的包给我提供了很好的代码组织,相似的功能模块放在同一个包内,不仅代码结构清晰,而且调用起来也比较方便(可以用*导入) 但是,我们在刚开始使用Python包的时候总是会遇到导入错误& ...
python中常用的时间操作
python中常用的时间模块有time和datetime,以下是这两个模块中常用的方法: #先引入模块 import timefrom datetime import datetiem, timezo ...
Python中操作mysql的pymysql模块详解
Python中操作mysql的pymysql模块详解前言 pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同.但目前pymysql支持python3.x而后者不支持 ...

随机推荐

pycharm pro版本激活
这几天行激活pycharm pro版会遇到问题,license server的网址都不可用了.包括各个网站的百度云的破解资源链接都被和谐了,发现最近jetbrains对盗版管得严. 首次安装在注册界面 ...
EhCache初体验
一.简介 EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点.Ehcache是一种广泛使用的开源Java分布式缓存.主要面向通用缓存,Java EE和轻量级容器.它具有内存和磁盘存 ...
Python 编程技巧
Python 生成器 Python 处理文件 Python 异常处理 Python 处理输入输出 Python 处理命令行参数 Python 对文件做校验 Python 对目录做遍历 Python 调 ...
OSG添加回调更新
class CB : public osg::NodeCallback { virtual void operator()(osg::Node* node, osg::NodeVisitor* nv) ...
[JS] 如何自定义字符串格式化输出
在其他语言中十分常见的字符串格式化输出,居然在 Javascript 中不见踪影,于是决定自己实现该方法,以下就是个人编写的最简洁实现: String.prototype.format = funct ...
socket 中文man页面函数
Linux 套接字的用户接口. 这个 BSD 兼容套接字是介于用户进程与内核网络协议栈之间的统一接口, 各协议模块属于不同的协议族 ,如 PF_INET, PF_IPX, PF_PACKET 和套 ...
linux文件和目錄管理的基本命令命令
ls命令作用:顯示目標列表或目錄的內容語法:ls［選項］［目錄或文件］ -a:顯示指定目錄下所有子目錄與文件,包括隱藏文件 -l:顯示文件的詳細信息 -d: 顯示目錄例:ls -dl cd命令 ...
阿里云CentOS7挂载SSD云盘的方法
https://bbs.aliyun.com/read/151152.html 阿里云购买的第2块云盘默认是不自动挂载的,需要手动配置挂载上. 1.查看SSD云盘 sudo fdisk -l Disk ...
pgAdmin III 单表数据的导出导入
看了好几种方法也试验了几次都没成功,终于找到一种比较简单的试验成功的方法,记录下来留作备份. 将表testTable_1里的数据导入到表testTable_2里,如图: 两表的结构相同.表testTa ...
poj_1042 贪心算法
poj 1042 gone fishing 题目要求: 由有n个湖, 按照顺序排列,一个人从第一个湖向最后一个湖行进(方向只能从湖0到湖n-1),途中可以在湖中钓鱼.在每个湖中钓鱼时,开始的5分钟内可 ...

Python中常用包——sklearn主要模块和基本使用方法

Python中常用包——sklearn主要模块和基本使用方法的更多相关文章

随机推荐

热门专题