二、【Python】机器学习-监督学习

关键词

分类(Classification)

回归(Regression)

泛化（Generalize）

过拟合（Overfitting）

欠拟合（Underfitting）

2.1 分类与回归

监督机器学习问题分为两类：分类（Classification）与回归（Regression）

分类：目的是预测类别标签，这些标签来自预定义的可选列表。分类问题一般分为二分类(Binary Classification)和多分类(Multiclass classfication)。

在二分类问题中，将其中的一个类别称为正类（Positive Class）。另一个称之为反类（Negative Class）。

回归：目的是预测一个连续值。区分分类和回归的方法就是看问题的输出是否具有一定的连续性。

2.2 泛化、过拟合与欠拟合

泛化（Generalize）：我理解为是一种拓展。如果一个模型能够对新数据做出准确的预测，那么我们就说该模型能够从训练集泛化到测试集。

过拟合（Overfitting）：在创建并测试模型时，得到一个在训练集表现很好的模型，但是不可以泛化到新数据的模型，则该模型存在过拟合。

欠拟合（Underfitting）：与过拟合相反，模型在训练集表现很差，更不能泛化到预测新数据，则称之为欠拟合。

模型复杂度和数据集大小的关系：数据点的变化范围越大在不发生过拟合的前提下，模型就可以越复杂。

2.3 监督学习算法

知识点

解释这些算法如何预测

模型复杂度如何变化

概述每个算法如何构建模型

算法的优缺点

最适应用于哪类数据

解释其中最重要参数的意义

分类数据集

下面的例子使用内置的forge数据集，说明二分类。

import mglearn

import matplotlib as plt

import numpy as np

# 生成内置的forge数据集，并将其两个特征赋给X和y。

X,y = mglearn.datasets.make_forge()

mglearn.discrete_scatter(X[:,0],X[:,1],y)

print("X shape:{}".format(X.shape))

plt.pyplot.xlabel("First Feature")

plt.pyplot.ylabel("Second Feature")

X shape:(26, 2)

c:\users\helli\appdata\local\programs\python\python37\lib\site-packages\sklearn\utils\deprecation.py:85: DeprecationWarning: Function make_blobs is deprecated; Please import make_blobs directly from scikit-learn

  warnings.warn(msg, category=DeprecationWarning)

Text(0, 0.5, 'Second Feature')

上面的数据点可以看出，X_shape带有26个数据点和两个特征。

回归算法

模拟wave数据集来说明，wave是只有一个输入特征和一个连续的目标变量(或响应)，后者是模型想要预测的对象。

import matplotlib as plt

X,y = mglearn.datasets.make_wave(n_samples=40)

plt.pyplot(X,y,'o')

plt.ylim(-3,3)[]f

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

<ipython-input-16-510b6bbfd369> in <module>

      1 import matplotlib as plt

      2 X,y = mglearn.datasets.make_wave(n_samples=40)

----> 3 plt.pyplot(X,y,'o')

      4 plt.ylim(-3,3)

TypeError: 'module' object is not callable

import matplotlib as plt

print("{}".format(.__version__))

3.0.2

2.3.1 K近邻算法

k-NN算法是最简单的，构建模型只需要保存训练数据集即可。

最简单，最易理解的就是我们只考虑一个最近邻情况，即我们想要预测的点最近的训练数据点。预测结果就是这个训练数据点的已知输出。

# n_neighbors的参数是相邻近的点

mglearn.plots.plot_knn_classification(n_neighbors=4)

c:\users\helli\appdata\local\programs\python\python37\lib\site-packages\sklearn\utils\deprecation.py:85: DeprecationWarning: Function make_blobs is deprecated; Please import make_blobs directly from scikit-learn

  warnings.warn(msg, category=DeprecationWarning)

除了最近邻，还可以考虑任意个（k个）邻居。这也是k近邻算法名字的来历。在多个邻居时，用"投票法"（Voting）指定标签。对于每个测试点，我们数一数多少个邻居属于类别0，多少个邻居属于类别1。然后将出现次数更多的类别作为预测结果。

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

# 从mglearn获取数据

# 将数据3：1分为训练和测试

X,y = mglearn.datasets.make_forge()

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

# 调用方法，设定三个邻居个数

clf = KNeighborsClassifier(n_neighbors=3)

# 利用训练集对这个分类器进行拟合，对于KNeighborsClassifier来说就是保存数据集，以便在预测时计算与邻居的距离

clf.fit(X_train,y_train)

# 调用predict方法来对测试数据进行预测。对于测试集中的每个数据点，都要计算它在训练集的最近邻然后找出其中出现次数最多的类别。

print("Test set prediction:{}".format(clf.predict(X_test)))

# 数据泛化能力

print("Test set accuracy:{:.2f}".format(clf.score(X_test,y_test)))

Test set prediction:[1 0 1 0 1 0 0]

Test set accuracy:0.86

c:\users\helli\appdata\local\programs\python\python37\lib\site-packages\sklearn\utils\deprecation.py:85: DeprecationWarning: Function make_blobs is deprecated; Please import make_blobs directly from scikit-learn

  warnings.warn(msg, category=DeprecationWarning)

2.3.2 分析KNeighborsClassifier

对于二维数据集，可以在xy平面画出所有可能的测试点的预测结果。根据每个点所属的类别进行着色，这个可以查看决策边界（decision boundary）

# 对1，3，9个邻居三种情况进行决策边界的可视化。

fig, axes = plt.pyplot.subplots(1,3,figsize=(10,3))

for n_neighbors, ax in zip([1,3,9], axes):

    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X,y)

    mglearn.plots.plot_2d_separator(clf,X,fill=True,eps=0.5,ax=ax,alpha=.4)

    mglearn.discrete_scatter(X[:,0],X[:,1],y,ax=ax)

    ax.set_title("{} neighbor(s)".format(n_neighbors))

    ax.set_xlabel("feature 0")

    ax.set_ylabel("feature 1")

从上图可以看出，neighbor越大，决策边界越平滑，相邻值小，对应更高的模型复杂度；相邻值大，对应更低的模型复杂度。

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target,stratify=cancer.target,random_state=66)

training_accuracy = []

test_accuracy=[]

n_s = range(1,11)

for n_neighbors in n_s:

    clf = KNeighborsClassifier(n_neighbors=n_neighbors)

    clf.fit(X_train,y_train)

    training_accuracy.append(clf.score(X_train,y_train))

    test_accuracy.append(clf.score(X_test,y_test))

plt.pyplot.plot(n_s, training_accuracy,label="training")

plt.pyplot.plot(n_s,test_accuracy,label="test",linestyle='--',color='g')

plt.pyplot.xlabel("n_s")

plt.pyplot.ylabel("Accuracy")

plt.pyplot.legend()

<matplotlib.legend.Legend at 0x1f8b6f68d68>

2.3.3 K近邻回归

使用wave数据集

mglearn.plots.plot_knn_regression(n_neighbors=3)

from sklearn.neighbors import KNeighborsRegressor

X,y = mglearn.datasets.make_wave(n_samples=40)

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

reg = KNeighborsRegressor(n_neighbors=3)

reg.fit(X_train,y_train)

print("pre:{}".format(reg.predict(X_test)))

print("score:{:.2f}".format(reg.score(X_test,y_test)))

pre:[-0.05396539  0.35686046  1.13671923 -1.89415682 -1.13881398 -1.63113382

  0.35686046  0.91241374 -0.44680446 -1.13881398]

score:0.83

fig, axes = plt.pyplot.subplots(1,3,figsize=(10,3))

# 创建1000个数据点，在-3，3之间均匀分布

line = np.linspace(-3,3,1000).reshape(-1,1)

for n_neighbors, ax in zip([1,3,9], axes):

    clf = KNeighborsRegressor(n_neighbors=n_neighbors).fit(X_train,y_train)

    ax.plot(line,clf.predict(line))

    ax.plot(X_train,y_train,'^',c=mglearn.cm2(0),markersize=8)

    ax.plot(X_test,y_test,marker='v',c=mglearn.cm2(1),markersize=8)

    ax.set_title("{} neighbor(s)\n{:.2f}train score.{:.2f}testscore".format(n_neighbors,clf.score(X_train,y_train),clf.score(X_test,y_test)))

    ax.set_xlabel("feature 0")

    ax.set_ylabel("feature 1")

2.3.4 优缺点

KNeighbors分类器有两个重要参数：邻居个数和数据点之间距离的度量方法，一般3-5个邻居数都会得到比较好的结果。

K-NN有点之一就是模型很容易理解。不需要过多的调节，就可以得到不错的效果。这是最大的有点。简单易学好上手。

但是对于很多特征的数据集，该算法就会无能为力了，而且速度较慢，因此一般不会应用到实践中。

二、【Python】机器学习-监督学习的更多相关文章

python机器学习实战（二）
python机器学习实战(二) 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7159775.html 前言这篇noteboo ...
Python机器学习基础教程-第2章-监督学习之决策树
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
Python 机器学习实战 —— 监督学习（上）
前言近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是 ...
Python 机器学习实战 —— 监督学习（下）
前言近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是 ...
Python 机器学习实战 —— 无监督学习（上）
前言在上篇<Python 机器学习实战 -- 监督学习>介绍了支持向量机.k近邻.朴素贝叶斯分类 .决策树.决策树集成等多种模型,这篇文章将为大家介绍一下无监督学习的使用.无监督学习顾 ...
Python 机器学习实战 —— 无监督学习（下）
前言在上篇< Python 机器学习实战 -- 无监督学习(上)>介绍了数据集变换中最常见的 PCA 主成分分析.NMF 非负矩阵分解等无监督模型,举例说明使用使用非监督模型对多维度特征 ...
python机器学习-sklearn挖掘乳腺癌细胞（二）
python机器学习-sklearn挖掘乳腺癌细胞( 博主亲自录制) 网易云观看地址 https://study.163.com/course/introduction.htm?courseId=10 ...
Python机器学习基础教程-第2章-监督学习之决策树集成
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
Python机器学习基础教程-第2章-监督学习之线性模型
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
Python机器学习基础教程-第2章-监督学习之K近邻
前言本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

随机推荐

Django model重写save方法及update踩坑记录
一个非常实用的小方法试想一下,Django中如果我们想对保存进数据库的数据做校验,有哪些实现的方法? 我们可以在view中去处理,每当view接收请求,就对提交的数据做校验,校验不通过直接返回错误, ...
自定义View实战
PS:上一篇从0开始学自定义View有博友给我留言说要看实战,今天我特意写了几个例子,供大家参考,所画的图案加上动画看着确实让人舒服,喜欢的博友可以直接拿到自己的项目中去使用,由于我这个写的是demo ...
Spring mvc的基本配置及工作原理
1.spring mvc框架搭建需求:在浏览器输入一个请求login.do,跳转到登录成功界面. 第一步,创建web项目,导入jar包注意: 第二步,在web.xml中配置spring的核心监听器 ...
leetCode刷题 | 两数相加
给出两个非空的链表用来表示两个非负的整数.其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字. 如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和 ...
自己动手写RPC
接下来2个月给自己定个目标年前自己动手做个RPC 框架暂时技术选型是 dotcore + netty + zookeeper/Consul
redis crackit入侵事件总结
今天发现服务器有异常进程/opt/yam/yam,上网搜了搜,是由于redis未授权引起的入侵,查了些资料,这里做下总结. 1. 现象有以下其一现象就要注意是否被入侵 crontab -l 可以看到 ...
DNSlog注入学习
之前一直有看到过DNSlog这个字眼,但一直没有好好去了解一下,最近又接触到了刚好来深入学习下 0x01 什么是DNSlog 我们都知道DNS就是将域名解析为ip,用户在浏览器上输入一个域名A.com ...
关于tez-ui的"All DAGs"和"Hive Queries"页面信息为空的问题解决过程
近段时间发现公司的HDP大数据平台的tez-ui页面不能用了,页面显示为空,导致通过hive提交的sql不能方便地查找到Yarn上对应的applicationId,只能通过beeline的屏幕输出信息 ...
vue $refs的静态绑定使用与动态绑定使用
以下实例实现的同一个操作静态使用 this.$refs.tbhead.clearSelection(); 动态使用 area="tbhead" //可以是函数传入的参数 this ...
「雕爷学编程」Arduino动手做（40）——旋转编码器模块
37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的.鉴于本人手头积累了一些传感器和模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里 ...