sklearn数据预处理

对数据按列属性进行scale处理后，每列的数据均值变成0，标准差变为1。可通过下面的例子加深理解：

from sklearn import preprocessing

import numpy as np

测试数据：

X = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]])

使用sklearn进行scale处理时，有两种方式可供选择。

方式1:直接使用preprocessing.scale()方法：

X_scaled = preprocessing.scale(X)

得到的X_scaled中每列的均值为0，方差为1

方式2：使用StandardScaler类来处理

scaler = preprocessing.StandardScaler().fit(X)

得到的scaler会计算得出每个属性列的均值、方差，但并没有得出最终的数据处理结果。要得到X的scale结果，可以继续执行transform方法：

X_scaled = scaler.transform(X)

这里刚开始学习时，会有疑问：为什么transform还需要传一个X参数？

StandardScaler将数据处理分为fit、transform两步。在fit中，仅仅计算出数据预处理算法的一些参数。比如这里主要计算出来每个列属性的均值、方差。但并没有通过算法：（x-mean)/std 对每个数据进行处理，真正的数据处理，放到了transform步骤中。

transform的参数可以是X，这样得到的效果跟直接使用preprocessing.scale(X)相同。也可以不同，当传入的参数不同时，scale会仍然使用计算好的均值、方差，按照算法：（x-mean)/std 来对每个数据处理。

分为fit、transform两个步骤后，那么处理训练集X时，可以fit(X),transform(X)。后面处理测试集时，直接使用transform即可。

这可能就是sklearn.preprocessing的fit、transform两个接口的设计思路吧。

sklearn数据预处理－scale的更多相关文章

sklearn数据预处理
一.standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准 ...
sklearn 数据预处理1: StandardScaler
作用:去均值和方差归一化.且是针对每一个特征维度来做的,而不是针对样本. [注:] 并不是所有的标准化都能给estimator带来好处. “Standardization of a dataset i ...
数据预处理及sklearn方法实现
1.标准化(中心化) 在许多机器学习执行前,需要对数据集进行标准化处理.因为很对算法假设数据的特征服从标准正态分布.所以如果不对数据标准化,那么算法的效果会很差. 例如,在学习算法的目标函数,都假设数 ...
sklearn-数据预处理scale
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
【sklearn】数据预处理 sklearn.preprocessing
数据预处理标准化 (Standardization) 规范化(Normalization) 二值化分类特征编码推定缺失数据生成多项式特征定制转换器 1. 标准化Standardization ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属 ...
sklearn中的数据预处理和特征工程
小伙伴们大家好~o(￣▽￣)ブ,沉寂了这么久我又出来啦,这次先不翻译优质的文章了,这次我们回到Python中的机器学习,看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下我的开发环境是 ...
matlab、sklearn 中的数据预处理
数据预处理(normalize.scale) 0. 使用 PCA 降维 matlab: [coeff, score] = pca(A); reducedDimension = coeff(:,1:5) ...

随机推荐

MYSQL启用日志，查看日志，利用mysqlbinlog工具恢复MySQL数据库【转载】
转自 MYSQL启用日志,查看日志,利用mysqlbinlog工具恢复MySQL数据库 - _安静 - 博客园http://www.cnblogs.com/xionghui/archive/2012/ ...
postfix+dovecot配置多域名邮件服务器
mail邮局系统的MX(邮件交换)记录配置,以便收发邮件.(MX记录,是邮件交换记录,它指向一个邮件服务器,用于电子邮件系统发邮件时根据收信人的地址后缀来定位邮件服务器,如果没有做域名解析,邮局不能正 ...
select, poll, epoll
select的一个缺点在于单个进程能够监视的文件描述符的数量存在最大限制,在Linux上一般为1024 http://www.cnblogs.com/bigwangdi/p/3182958.html ...
BASE64-客户端（js）加码-服务器端（c#）解码，URL传递“汉字参数”解决方法
HttpUtility.UrlEncode 在 Encode 的时候, 将空格转换成加号('+'), 在 Decode 的时候将加号转为空格, 但是浏览器是不能理解加号为空格的, 所以如果文件名包含了 ...
关于tomcat 成功运行之后内存泄露
在window-preferences 里搜索 tomcat-jdk 加上以下内容即可 -Xms256m -Xmx512m -XX:MaxNewSize=256m -XX:MaxPermSize= ...
call_grant_sel.sql
set echo offpromptprompt =========================================================================== ...
Android开发之InstanceState详解(转)---利用其保存Activity状态
Android开发之InstanceState详解本文介绍Android中关于Activity的两个神秘方法:onSaveInstanceState() 和 onRestoreInstanceS ...
std::string
/************************************************************************* > File Name: string.cp ...
Direct3D中的绘制
1.顶点缓存和索引缓存一个顶点缓存是一个包含顶点数据的连续内存空间:一个索引缓存是一个包含索引数据的连续内存空间. 顶点缓存用接口IDirect3DVertexBuffer9表示:索引缓存用接口ID ...
自动化运维工具Ansible详细部署
本文来源:http://sofar.blog.51cto.com/353572/1579894/ 前言一个由 Python 编写的强大的配置管理解决方案.尽管市面上已经有很多可供选择的配置管理解决方 ...

sklearn数据预处理－scale

sklearn数据预处理－scale的更多相关文章

随机推荐

热门专题