机器学习：SVM（scikit-learn 中的 RBF、RBF 中的超参数 γ）

一、高斯核函数、高斯函数

μ：期望值，均值，样本平均数；（决定告诉函数中心轴的位置：x = μ）
σ²：方差；（度量随机样本和平均值之间的偏离程度：，为总体方差，为变量，为总体均值，为总体例数）

实际工作中，总体均数难以得到时，应用样本统计量代替总体参数，经校正后，样本方差计算公式：S^2= ∑(X- ) ^2 / (n-1)，S^2为样本方差，X为变量，为样本均值，n为样本例数。

σ：标准差；（反应样本数据分布的情况：σ 越小高斯分布越窄，样本分布越集中；σ 越大高斯分布越宽，样本分布越分散）
γ = 1 / (2σ²)：γ 越大高斯分布越窄，样本分布越集中；γ 越小高斯分布越宽，样本分布越密集；

二、scikit-learn 中的 RBF 核

　1）格式

from sklearn.svm import SVC

svc = SVC(kernel='rbf', gamma=1.0)

# 直接设定参数 γ = 1.0；

　2）模拟数据集、导入绘图函数、设计管道

此处不做考察泛化能力，只查看对训练数据集的分类的决策边界，不需要进行 train_test_split；

模拟数据集

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

X, y = datasets.make_moons(noise=0.15, random_state=666)

plt.scatter(X[y==0, 0], X[y==0, 1])

plt.scatter(X[y==1, 0], X[y==1, 1])

plt.show()

导入绘图函数

def plot_decision_boundary(model, axis):

    x0, x1 = np.meshgrid(

        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1,1),

        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1,1)

    )

    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)

    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap

    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])

    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

设计管道

from sklearn.preprocessing import StandardScaler

from sklearn.svm import SVC

from sklearn.pipeline import Pipeline

def RBFKernelSVC(gamma=1.0):

    return Pipeline([

        ('std_scaler', StandardScaler()),

        ('svc', SVC(kernel='rbf', gamma=gamma))

    ])

　3）调整参数 γ，得到不同的决策边界

γ == 0.1

svc_gamma_01 = RBFKernelSVC(gamma=0.1)

svc_gamma_01.fit(X, y)

plot_decision_boundary(svc_gamma_01, axis=[-1.5, 2.5, -1.0, 1.5])

plt.scatter(X[y==0, 0], X[y==0, 1])

plt.scatter(X[y==1, 0], X[y==1, 1])

plt.show()

γ == 0.5

svc_gamma_05 = RBFKernelSVC(gamma=0.5)

svc_gamma_05.fit(X, y)

plot_decision_boundary(svc_gamma_05, axis=[-1.5, 2.5, -1.0, 1.5])

plt.scatter(X[y==0, 0], X[y==0, 1])

plt.scatter(X[y==1, 0], X[y==1, 1])

plt.show()

γ == 1

svc_gamma_1 = RBFKernelSVC(gamma=1.0)

svc_gamma_1.fit(X, y)

plot_decision_boundary(svc_gamma_1, axis=[-1.5, 2.5, -1.0, 1.5])

plt.scatter(X[y==0, 0], X[y==0, 1])

plt.scatter(X[y==1, 0], X[y==1, 1])

plt.show()

γ == 10

svc_gamma_10 = RBFKernelSVC(gamma=10)

svc_gamma_10.fit(X, y)

plot_decision_boundary(svc_gamma_10, axis=[-1.5, 2.5, -1.0, 1.5])

plt.scatter(X[y==0, 0], X[y==0, 1])

plt.scatter(X[y==1, 0], X[y==1, 1])

plt.show()

γ == 100

svc_gamma_100 = RBFKernelSVC(gamma=100)

svc_gamma_100.fit(X, y)

plot_decision_boundary(svc_gamma_100, axis=[-1.5, 2.5, -1.0, 1.5])

plt.scatter(X[y==0, 0], X[y==0, 1])

plt.scatter(X[y==1, 0], X[y==1, 1])

plt.show()

　4）分析

随着参数 γ 从小到大变化，模型经历：欠拟合——优——欠拟合；

γ == 100 时：

现象：每一个蓝色的样本周围都形成了一个“钟形”的图案，蓝色的样本点是“钟形”图案的顶部；
原因：γ 的取值过大，样本分布形成的“钟形”图案比较窄，模型过拟合；
决策边界几何意义：只有在“钟形”图案内分布的样本，才被判定为蓝色类型；否则都判定为黄山类型；

γ == 10 时，γ 值减小，样本分布规律的“钟形”图案变宽，不同样本的“钟形”图案区域交叉一起，形成蓝色类型的样本的分布区域；

超参数 γ 值越小模型复杂度越低，γ 值越大模型复杂度越高；

机器学习：SVM（scikit-learn 中的 RBF、RBF 中的超参数 γ）的更多相关文章

【深度学习篇】--神经网络中的调优一，超参数调优和Early_Stopping
一.前述调优对于模型训练速度,准确率方面至关重要,所以本文对神经网络中的调优做一个总结. 二.神经网络超参数调优 1.适当调整隐藏层数对于许多问题,你可以开始只用一个隐藏层,就可以获得不错的结果,比 ...
机器学习框架Scikit Learn的学习
一安装安装pip 代码如下:# wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=83 ...
机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size
机器学习算法中如何选取超参数:学习速率.正则项系数.minibatch size 本文是<Neural networks and deep learning>概览中第三章的一部分,讲机器 ...
机器学习-kNN-寻找最好的超参数
一 .超参数和模型参数超参数:在算法运行前需要决定的参数模型参数:算法运行过程中学习的参数 - kNN算法没有模型参数- kNN算法中的k是典型的超参数寻找好的超参数领域知识经验数值实验搜 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
机器学习：SVM（核函数、高斯核函数RBF）
一.核函数(Kernel Function) 1)格式 K(x, y):表示样本 x 和 y,添加多项式特征得到新的样本 x'.y',K(x, y) 就是返回新的样本经过计算得到的值: 在 SVM 类 ...
高斯RBF核函数中Sigma取值和SVM分离面的影响
1:高斯RBF核函数的定义 k(x) = exp(-x^2/(2×sigma)) 在MATLAB中输入一下代码:ezsurf('exp(-x^2/(2*sigma^2))'); 在GOOGLE中输入“ ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

随机推荐

pd.read_csv的header用法
默认Header = 0: In [3]: import pandas as pd In [4]: t_user = pd.read_csv(r'C:\Users\Song\Desktop\jdd_d ...
mongodb count 导致不正确的数量（mongodb count 一个坑）
在mongodb 集群中,if 存在orphaned documents 和chunk migration, count查询可能会导致一个不正确的查询结果,例如我就是踩的这个坑,先不说话,看结果: ...
tomcat 正常启动但不能访问
Eclipse中的Tomcat可以正常启动,不过发布项目之后,无法访问,包括http://localhost:8080/的小猫页面也无法访问到,报404错误.这是因为Eclipse所指定的Server ...
Zabbix3.2 客户端安装
查看客户端环境: # cat /etc/redhat-release CentOS Linux release (Core) # uname -r -.el7.x86_64 Centos7 客户端: ...
Java线程池ExecutorService和CountDownLatch的小例子
import java.util.concurrent.CountDownLatch; import java.util.concurrent.ExecutorService; import java ...
深入剖析JDK动态代理源码实现
动态代理.静态代理优缺点优点:业务类只需要关注业务逻辑本身,保证了业务类的重用性.这是代理的共有优点.动态代理只有在用到被代理对象的时候才会对被代理类进行类加载. 而静态代理在编译器就已经开始占内存了 ...
【P1582】倒水（数论？？暴力！！）
这个题我很无语,一开始看绿题,还是数论,应该不会特别简单,应该要动笔写上好一会,过了一会旁边 #祝神说这原来是个蓝题,我顿时觉得十分迷茫... 结果看了这个题看了一会,仔细一想,woc,这题怕不是可 ...
让外界可以访问电脑上的网站的几种方式——花生壳，域名，IIS（待）
前话: 每次“养大“一个网站,都有种骄傲地想秀给朋友们看的冲动. 之前可能是困于电脑,实在不方便. 现在,不用克制了! 该秀就秀,能装逼就装逼. 养大孩子就该拉出来秀秀,见见世面. 正题:这次实习,我 ...
简学Python第五章__模块介绍，常用内置模块
Python第五章__模块介绍,常用内置模块欢迎加入Linux_Python学习群群号:478616847 目录: 模块与导入介绍包的介绍 time &datetime模块 rando ...
JavaWeb -- Jsp 自定义标签的使用
Jsp中不要有一行Java代码, 需要的Java代码都要封到自定义标签中. 自定义标签的作用: a. 自定义标签除了可以移除jsp页面java代码外,它也可以实现以上功能. b. 控制jsp页面某 ...

机器学习：SVM（scikit-learn 中的 RBF、RBF 中的超参数 γ）

一、高斯核函数、高斯函数

二、scikit-learn 中的 RBF 核

1）格式

2）模拟数据集、导入绘图函数、设计管道

模拟数据集

导入绘图函数

设计管道

3）调整参数 γ，得到不同的决策边界

γ == 0.5

γ == 1

γ == 10

γ == 100

4）分析

机器学习：SVM（scikit-learn 中的 RBF、RBF 中的超参数 γ）的更多相关文章

随机推荐

热门专题

　1）格式

　2）模拟数据集、导入绘图函数、设计管道

　3）调整参数 γ，得到不同的决策边界

　4）分析