sklearn 数据预处理1: StandardScaler
作用:去均值和方差归一化。且是针对每一个特征维度来做的,而不是针对样本。
【注:】
并不是所有的标准化都能给estimator带来好处。
“Standardization of a dataset is a common requirement for many machine learning estimators: they might behave badly if the individual feature do not more or less look like standard normally distributed data (e.g. Gaussian with 0 mean and unit variance).”
实例代码
# coding=utf-8
# 统计训练集的 mean 和 std 信息
from sklearn.preprocessing import StandardScaler
import numpy as np
def test_algorithm():
np.random.seed(123)
print('use sklearn')
# 注:shape of data: [n_samples, n_features]
data = np.random.randn(10, 4)
scaler = StandardScaler()
scaler.fit(data)
trans_data = scaler.transform(data)
print('original data: ')
print data
print('transformed data: ')
print trans_data
print('scaler info: scaler.mean_: {}, scaler.var_: {}'.format(scaler.mean_, scaler.var_))
print('\n')
print('use numpy by self')
mean = np.mean(data, axis=0)
std = np.std(data, axis=0)
var = std * std
print('mean: {}, std: {}, var: {}'.format(mean, std, var))
# numpy 的广播功能
another_trans_data = data - mean
# 注:是除以标准差
another_trans_data = another_trans_data / std
print('another_trans_data: ')
print another_trans_data
if __name__ == '__main__':
test_algorithm()
程序的输出如下:
use sklearn
original data:
[[-1.0856306 0.99734545 0.2829785 - 1.50629471]
[-0.57860025 1.65143654 - 2.42667924 - 0.42891263]
[1.26593626 - 0.8667404 - 0.67888615 - 0.09470897]
[1.49138963 - 0.638902 - 0.44398196 - 0.43435128]
[2.20593008
2.18678609
1.0040539
0.3861864]
[0.73736858 1.49073203 - 0.93583387 1.17582904]
[-1.25388067 - 0.6377515
0.9071052 - 1.4286807]
[-0.14006872 - 0.8617549 - 0.25561937 - 2.79858911]
[-1.7715331 - 0.69987723
0.92746243 - 0.17363568]
[0.00284592 0.68822271 - 0.87953634 0.28362732]]
transformed
data:
[[-0.94511643 0.58665507 0.5223171 - 0.93064483]
[-0.53659117 1.16247784 - 2.13366794 0.06768082]
[0.9495916 - 1.05437488 - 0.42049501
0.3773612]
[1.13124423 - 0.85379954 - 0.19024378 0.06264126]
[1.70696485
1.63376764
1.22910949
0.8229693]
[0.52371324 1.02100318 - 0.67235312 1.55466934]
[-1.08067913 - 0.85278672
1.13408114 - 0.858726]
[-0.18325687 - 1.04998594 - 0.00561227 - 2.1281129]
[-1.49776284 - 0.9074785
1.15403514
0.30422599]
[-0.06810748 0.31452186 - 0.61717074 0.72793583]]
scaler info: scaler.mean_: [0.08737571 0.33094968 - 0.24989369 - 0.50195303], scaler.var_: [1.54038781 1.29032409
1.04082479 1.16464894]
use numpy by self
mean: [0.08737571 0.33094968 - 0.24989369 - 0.50195303], std: [1.24112361 1.13592433 1.02020821
1.07918902], var: [1.54038781 1.29032409
1.04082479 1.16464894]
another_trans_data:
[[-0.94511643 0.58665507 0.5223171 - 0.93064483]
[-0.53659117 1.16247784 - 2.13366794 0.06768082]
[0.9495916 - 1.05437488 - 0.42049501
0.3773612]
[1.13124423 - 0.85379954 - 0.19024378 0.06264126]
[1.70696485
1.63376764
1.22910949
0.8229693]
[0.52371324 1.02100318 - 0.67235312 1.55466934]
[-1.08067913 - 0.85278672
1.13408114 - 0.858726]
[-0.18325687 - 1.04998594 - 0.00561227 - 2.1281129]
[-1.49776284 - 0.9074785
1.15403514
0.30422599]
[-0.06810748 0.31452186 - 0.61717074 0.72793583]]
sklearn 数据预处理1: StandardScaler的更多相关文章
- 吴裕雄 python 机器学习——数据预处理标准化StandardScaler模型
from sklearn.preprocessing import StandardScaler #数据预处理标准化StandardScaler模型 def test_StandardScaler() ...
- sklearn数据预处理-scale
对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...
- sklearn数据预处理
一.standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准 ...
- 数据预处理及sklearn方法实现
1.标准化(中心化) 在许多机器学习执行前,需要对数据集进行标准化处理.因为很对算法假设数据的特征服从标准正态分布.所以如果不对数据标准化,那么算法的效果会很差. 例如,在学习算法的目标函数,都假设数 ...
- Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler),标准化(StandardScaler),正则化(Normalizer, normalize)
关于数据预处理的几个概念 归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
- 使用sklearn进行数据挖掘-房价预测(4)—数据预处理
在使用机器算法之前,我们先把数据做下预处理,先把特征和标签拆分出来 housing = strat_train_set.drop("median_house_value",axis ...
- 【sklearn】数据预处理 sklearn.preprocessing
数据预处理 标准化 (Standardization) 规范化(Normalization) 二值化 分类特征编码 推定缺失数据 生成多项式特征 定制转换器 1. 标准化Standardization ...
- sklearn学习笔记(一)——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
- 【Sklearn系列】使用Sklearn进行数据预处理
这篇文章主要讲解使用Sklearn进行数据预处理,我们使用Kaggle中泰坦尼克号事件的数据作为样本. 读取数据并创建数据表格,查看数据相关信息 import pandas as pd import ...
随机推荐
- 使用 float 存储小数?
很多程序员就会使用 float 类型来存储小数.sql 的 float 类型和其他大多数编程语言的 float 类型一样, 根据IEEE 754 标准使用二进制格式编码实数数据. 但是很多程序员并不清 ...
- JS 文本框格式化
页面: <script src="http://libs.baidu.com/jquery/1.9.1/jquery.min.js"></script> & ...
- 2017 Pig-0.16.0安装
前提:已经装好hadoop2.7.3 单机版本: export PIG_HOME=/usr/local/pig export PATH=$PATH:$PIG_HOME/bin 运行:pig -x ...
- Cs231n课堂内容记录-Lecture2-Part2 线性分类
Lecture 3 课程内容记录:(上)https://zhuanlan.zhihu.com/p/20918580?refer=intelligentunit (中)https://zhuanlan. ...
- [Hive_12] Hive 的自定义函数
0. 说明 UDF //user define function //输入单行,输出单行,类似于 format_number(age,'000') UDTF //user define table-g ...
- echo '1'.print(2)+3; 的输出结果为什么是511
今天看到一道有趣的题目,如上所示.结果为什么会是511呢? 这个结果的计算分为三步来理解: 首先计算的是 右边print(2)+3,这个你可以直接理解成print(2+3),得到的结果是5.而prin ...
- CSS2属性选择器和css3选择器的用法和区别
兄弟们,这是我第一次写博客,希望对进来的人有用,写的不好别喷哈,谢谢. css2属性选择器: 1.[attribute] 例子: [title] 解释: 选择含有 title 属性的所有元 ...
- SSL 原理及 https 配置
目录 1. SSL 原理 1.1. SSL 简介 1.2. 主要概念 1.3. 建立安全连接的过程 2. https 配置 (以 nginx 为例) SSL 原理 SSL 简介 SSL (Secure ...
- Linux 小知识翻译 - 「SCP和SFTP」
这次想说说「SCP和SFTP」. 不管SCP还是SFTP,都是SSH的功能之一.都是使用SSH协议来传输文件的. 不用说文件内容,就是登录时的用户信息都是经过SSH加密后才传输的,所以说SCP和SFT ...
- 删除window10没用的服务
最近学习了下resin,出了个问题,它默认端口是8080,跟Tomcat冲突了,我在使用的时候遇到了个奇怪的事情,resin4.0一直占用着我的8080端口,哪怕我用dos命令把它强制停止,不出五秒钟 ...