【笔记】scikit-learn中的Scaler（归一化）

scikit-learn中的数据归一化

在机器学习使用数据归一化的时候有一个重要的注意事项

我们对训练数据进行均值和方差的处理，得到mean_train以及std_train，但是在对测试数据进行归一化的时候，是不能直接用测试数据的均值和方差来进行归一化的，应该使用训练数据的均值和方差对测试数据进行均值方差归一化

为什么要这样做呢，我们训练这个模型是为了在真实的环境中去使用的，测试数据是模拟真实的环境，但是真实环境很有可能是没法得到所有的测试数据的均值和方差的，是很难得到这种统计数据的，另外，对数据的归一化也是算法的一部分，我们针对后面来的数据，应该也对其进行这样的处理

那么我们就必须要保存训练数据集得到的均值和方差

整体流程

实际操作（以鸢尾花为例）

x前十行的内容（并未进行归一化处理）

scikit-learn中的standardscaler

想调用，只需要

  from sklearn.preprocessing import StandardScaler

创建一个实例

  standardScaler = StandardScaler()

进行fit操作，其包含了很多的信息

  standardScaler.fit(X_train)

数组的均值（对应的四个特征的均值）

对于mean_的_，对于是由用户传进去的变量计算得到的，用户可以随时在外围进行查询的，在后面要有_才行

方差

  standardScaler.std_

这个我的版本已经弃用了，使用的话会报错

标准差

  standardScaler.scale_

现在可以正式使用transform进行数据归一化处理

注意：这样处理以后，X_train实际上没有进行变化

使用

  X_train = standardScaler.transform(X_train)

就可以使X_train保存下归一化以后的矩阵了

在对训练矩阵进行归一化

  X_test_standard = standardScaler.transform(X_test)

使用knn算法进行预测分析准确率

值得注意的是，当我们用归一化以后的训练集来训练机器算法之后，我们在预测的时候，测试数据集必须同样进行归一化，不然的话准确率会相当的低

在pc中手动写出可以实现的归一化

  import numpy as np

  class StandardScaler:

      def __init__(self):

          self.mean_ = None

          self.scale_ = None;

      def fit(self, X):

          assert X.ndim == 2, "The dimension of X must be 2"

          self.mean_ = np.array([np.mean(X[:, i]) for i in range(X.shape[1])])

          self.scale_ = np.array([np.std(X[:, i]) for i in range(X.shape[1])])

          return self

      def tranform(self, X):

          assert X.ndim == 2, "The dimension of X must be 2"

          assert self.mean_ is not None and self.scale_ is not None, \

              "must fit before transform!"

          assert X.shape[1] == len(self.mean_), \

              "the feature number of X must be equal to mean_ and std_"

          resX = np.empty(shape=X.shape, dtype=float)

          for col in range(X.shape[1]):

              resX[:, col] = (X[:, col] - self.mean_[col]) / self.scale_[col]

          return resX

【笔记】scikit-learn中的Scaler（归一化）的更多相关文章

(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
从头开始学JavaScript 笔记(一)——基础中的基础
原文:从头开始学JavaScript 笔记(一)--基础中的基础概要:javascript的组成. 各个组成部分的作用 . 一.javascript的组成 javascript ECMASc ...
第十八节，TensorFlow中使用批量归一化(BN)
在深度学习章节里,已经介绍了批量归一化的概念,详情请点击这里:第九节,改善深层神经网络:超参数调试.正则化以优化(下) 神经网络在进行训练时,主要是用来学习数据的分布规律,如果数据的训练部分和测试部分 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
并发编程学习笔记(4)----jdk5中提供的原子类及Lock使用及原理
(1)jdk中原子类的使用: jdk5中提供了很多原子类,它会使变量的操作变成原子性的. 原子性:原子性指的是一个操作是不可中断的,即使是在多个线程一起操作的情况下,一个操作一旦开始,就不会被其他线程 ...
[学习笔记] 在Eclipse中导入项目
参考前文:[学习笔记] 在Eclips 中导出项目选择已经导出的文件: 导入之后,项目结构如下: 至此,完成.

随机推荐

SpringBoot：Sqlite3＋SpringBoot2.1.3+Mybatis-Puls整合项目
应公司要求完成sqlite3数据库的增改查小功能,特此记录一下. 1.建造项目结构如下因为是提供给前端调用所以做了接口. 2.Pom依赖文件下面是这个项目所依赖的jar包. <parent ...
java：编写jar包加密工具，防止反编译
懒人方案网盘: 链接:https://pan.baidu.com/s/1x4OB1IF2HZGgtLhd1Kr_AQ提取码:glx7 网盘内是已生成可用工具,下载可以直接使用,使用前看一下READ. ...
yum的卸载和安装
安装精髓:报错就查,少包就按. 一.如果yum没有注册则需要卸载再安装第三方yum 1.卸载redhat的默认安装yum包 [root@dsl ~]#rpm –qa | grep yum [root@ ...
「CF576D」 Flights for Regular Customers
「CF576D」 Flights for Regular Customers 对不起我又想网络流去了你看这长得多像啊,走过至少多少条边就是流量下界,然后没上界但是这个题求的最少走多少条边啊...完 ...
如何搭建一个简易的 Web Terminal（一）
前言在介绍本篇文章的时候,先说一下本篇文章的一些背景.笔者是基于公司的基础建设哆啦 A 梦(Doraemon)一些功能背景写的这篇文章,不了解.有兴趣的同学可以去袋鼠云的 github 下面了解 ...
python 字典添加数据
dzkuaa={}#类似{"张三":2,"李四":3} for i in range(23): ming=bj[i] if dzkuaa.get(ming)== ...
python基础之列表推导式
#列表推导式 ---> 返回的是列表 for语句效率更高# 1*1 2*2 3*3 4*4 5*5 6*6 7*7 8*8 9*9# import time# to = time.clock( ...
微信小程序云开发-云存储-上传单张照片到云存储并显示到页面上
一.wxml文件页面上写上传图片的按钮,按钮绑定chooseImg. <button bindtap="chooseImg" type="primary" ...
网络损伤仪WANsim的队列深度功能
什么是队列深度在网络损伤仪WANsim中,队列是指一个用于缓存报文的缓冲池.深度是指缓冲池可以存储的最大数据量.当WANsim接受的报文超出了带宽限制的量时,溢出的报文会进入队列中. 我们可以在WA ...
spring的属性注入和构造器注入
spring在向IOC容器中注入Bean的时候,有三种注入方式: 属性注入构造器注入工厂方法注入平常中用到的前两种方法较多,下面对前两种方法举例.一.属性注入1.创建一个car类,作为注入的bean ...

【笔记】scikit-learn中的Scaler（归一化）

scikit-learn中的数据归一化

【笔记】scikit-learn中的Scaler（归一化）的更多相关文章

随机推荐

热门专题