数据预处理（normalize、scale）

注：待处理的数据 X∈Rd×N，N 表示样本的个数，d 则是单个样本的维度；

1. 去均值（remove DC）

X = bsxfun(@minus, X, mean(X));

2. 截断标准差

这里比如截断保留 +/- 3 个标准差，并 scale 至 -1/1

xstd = 3*std(X(:));

X = max(min(xstd, X), -xstd)/xstd;

3. 从一个尺度空间，缩放（线性映射）到另一个尺度空间

现考虑将 [a,b] 缩放（map/transform）到另一个尺度空间 [c,d]：

x∈[a,b]⇒x′=(d−c)⋅x−ab−a+c,x′∈[c,d]

其中 x−ab−a 将原始数据，缩放到 [0, 1] 区间内；

比如将数据从 [-1, 1] 线性映射到 [0.1, 0.9] 区间：

X = (.9-.1)*(X+1)/2+.1;

再比如对神经网络权值矩阵的 xavier-initializer 初始化方式，服从 (-r, r) 上的均匀分布（r=6nin+nout−−−−−−√），matlab 中的 rand() 生成的是 (0, 1) 上的均匀分布，这里如何从 (0, 1) 上的均匀分布，获取任意区间上的均匀分布（(−r,r)），

x∼U[0,1]⇒x−01−0(r−(−r))−r=x⋅2r−r

function theta = initializeParameters(visSize, hidSize):

r = sqrt(6/(visSize+hidSize));

W1 = rand(hidSize, visSize)*2*r-r;

b1 = zeros(hidSize, 1);

theta = [W1(:); b1(:)];

end

数据预处理（normalize、scale）的更多相关文章

sklearn数据预处理－scale
对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...
数据预处理 center&scale&box-cox
http://stackoverflow.com/questions/33944129/python-library-for-data-scaling-centering-and-box-cox-tr ...
Python数据预处理(sklearn.preprocessing)—归一化(MinMaxScaler)，标准化(StandardScaler)，正则化(Normalizer, normalize)
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常 ...
数据预处理：规范化(Normalize)和二值化(Binarize)
注:本文是人工智能研究网的学习笔记规范化(Normalization) Normalization: scaling individual to have unit norm 规范化是指,将单个的样 ...
Scikit-Learn模块学习笔记——数据预处理模块preprocessing
preprocessing 模块提供了数据预处理函数和预处理类,预处理类主要是为了方便添加到 pipeline 过程中. 数据标准化标准化预处理函数: preprocessing.scale(X, ...
weka数据预处理
Weka数据预处理(一) 对于数据挖掘而言,我们往往仅关注实质性的挖掘算法,如分类.聚类.关联规则等,而忽视待挖掘数据的质量,但是高质量的数据才能产生高质量的挖掘结果,否则只有"Garbag ...
Python数据预处理—归一化，标准化，正则化
关于数据预处理的几个概念归一化 (Normalization): 属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现. 常用的 ...
TensorLayer官方中文文档1.7.4：API – 数据预处理
所属分类:TensorLayer API - 数据预处理¶ 我们提供大量的数据增强及处理方法,使用 Numpy, Scipy, Threading 和 Queue. 不过,我们建议你直接使用 Tens ...
【sklearn】数据预处理 sklearn.preprocessing
数据预处理标准化 (Standardization) 规范化(Normalization) 二值化分类特征编码推定缺失数据生成多项式特征定制转换器 1. 标准化Standardization ...
python中常用的九种数据预处理方法分享
Spyder Ctrl + 4/5: 块注释/块反注释本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(St ...

随机推荐

Android平台中的三种翻页效果机器实现原理
本文给开发者集中展现了Android平台中的三种翻页效果机器实现原理,希望能够对开发者有实际的帮助价值! 第一种翻页效果如下: 实现原理: 当前手指触摸点为a,则 a点坐标为(ax,ay), ...
v-for实现循环嵌套
<!DOCTYPE html> <html lang="en"> <head> <title></title> < ...
【前端切图】用css画一个卡通形象-小猪佩奇
最近在腾讯云技术社区遇到了一位奇才,用css画出了一个社会人小猪佩奇,不得不服.研究了一下他的文章https://segmentfault.com/a/1190000014909658,感觉甚是有趣, ...
洛谷——P1179 数字统计
https://www.luogu.org/problem/show?pid=1179 题目描述请统计某个给定范围[L, R]的所有整数中,数字 2 出现的次数. 比如给定范围[2, 22],数字 ...
Android圆环控件
Android圆环控件近期在做一个功能.界面效果要求例如以下: 看到这个界面,我首先想到了曾经在做phone模块的时候,我们定制的来电界面InCallTouchUi,界面效果是相似的. 来电控件使用 ...
GPUImage ==> 一个基于GPU图像和视频处理的开源iOS框架
Logo 项目介绍: GPUImage是Brad Larson在github托管的开源项目. GPUImage是一个基于GPU图像和视频处理的开源iOS框架,提供各种各样的图像处理滤镜,并且支持照相机 ...
cmake的使用笔记
一. cmake使用网上还蛮多的.可是当你自己去用的时候,才觉得,都不是你想要的. 自己做个记录,用法全是基本用法. 二. 我在里面直接写注释说明了,直接贴了. 1. #cmake #1. # cma ...
【Codeforces Round #442 (Div. 2) A】Alex and broken contest
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 注意是所有的名字里面,只出现了其中某一个名字一次. [代码] #include <bits/stdc++.h> usin ...
uva 10710 - Chinese Shuffle(完美洗牌)
option=com_onlinejudge&Itemid=8&category=474&page=show_problem&problem=1651"> ...
全面解析Activity的生命周期
欢迎Follow我的GitHub, 关注我的CSDN. 在Android应用中, Activity是最重要的组件, 其生命周期(Lifecycle)被大家所熟知. 可是, 大家须要注意一些细节, 才干 ...