Python下的机器学习工具sklearn--数据预处理

1.数据标准化（Standardization or Mean Removal and Variance Scaling）

进行标准化缩放的数据均值为0，具有单位方差。

from sklearn import preprocessing

X = [[1., -1., 2.],

     [2., 0., 0.],

     [0., 1., -1.]]

X_scaled = preprocessing.scale(X)

print X_scaled

#[[ 0.         -1.22474487  1.33630621]

# [ 1.22474487  0.         -0.26726124]

# [-1.22474487  1.22474487 -1.06904497]]

print X_scaled.mean(axis = 0)

print X_scaled.std(axis = 0)

#[ 0.  0.  0.]

#[ 1.  1.  1.]

同样我们也可以通过preprocessing模块提供的Scaler（StandardScaler 0.15以后版本）工具类来实现这个功能：

scaler = preprocessing.StandardScaler().fit(X)

print scaler

#StandardScaler(copy=True, with_mean=True, with_std=True)

print scaler.mean_

#[ 1.          0.          0.33333333]

print scaler.scale_#之前版本scaler.std_

#[ 0.81649658  0.81649658  1.24721913]

print scaler.transform(X)

#[[ 0.         -1.22474487  1.33630621]

# [ 1.22474487  0.         -0.26726124]

# [-1.22474487  1.22474487 -1.06904497]]

注：上述代码与下面代码等价

scaler = preprocessing.StandardScaler().fit_transform(X)

print scaler

#[[ 0.         -1.22474487  1.33630621]

# [ 1.22474487  0.         -0.26726124]

# [-1.22474487  1.22474487 -1.06904497]]

print scaler.mean(axis = 0)

#[ 0.  0.  0.]

print scaler.std(axis = 0)

#[ 1.  1.  1.]

2.数据规范化（Normalization）

把数据集中的每个样本所有数值缩放到(-1,1)之间。

X = [[1., -1., 2.],

     [2., 0., 0.],

     [0., 1., -1.]]

X_normalized = preprocessing.normalize(X)

print X_normalized

#[[ 0.40824829 -0.40824829  0.81649658]

# [ 1.          0.          0.        ]

# [ 0.          0.70710678 -0.70710678]]

等价于：

normalizer = preprocessing.Normalizer().fit(X)

print normalizer

#Normalizer(copy=True, norm='l2')

print normalizer.transform(X)

#[[ 0.40824829 -0.40824829  0.81649658]

# [ 1.          0.          0.        ]

# [ 0.          0.70710678 -0.70710678]]

注：上述代码与下面代码等价

normalizer = preprocessing.Normalizer().fit_transform(X)

print normalizer

#[[ 0.40824829 -0.40824829  0.81649658]

# [ 1.          0.          0.        ]

# [ 0.          0.70710678 -0.70710678]]

3.二进制化（Binarization）

将数值型数据转化为布尔型的二值数据，可以设置一个阈值（threshold）。

X = [[1., -1., 2.],

     [2., 0., 0.],

     [0., 1., -1.]]

binarizer = preprocessing.Binarizer().fit(X) # 默认阈值为0.0

print binarizer

#Binarizer(copy=True, threshold=0.0)

print binarizer.transform(X)

#[[ 1.  0.  1.]

# [ 1.  0.  0.]

# [ 0.  1.  0.]]

binarizer = preprocessing.Binarizer(threshold=1.1) # 设定阈值为1.1

print binarizer.transform(X)

#[[ 0.  0.  1.]

# [ 1.  0.  0.]

# [ 0.  0.  0.]]

4.标签预处理（Label preprocessing）

4.1）标签二值化（Label binarization）

LabelBinarizer通常用于通过一个多类标签（label）列表，创建一个label指示器矩阵.

lb = preprocessing.LabelBinarizer()

print lb.fit([1, 2, 6, 4, 2])

#LabelBinarizer(neg_label=0, pos_label=1, sparse_output=False)

print lb.classes_

#[1 2 4 6]

print lb.transform([1, 6])

#[[1 0 0 0]

# [0 0 0 1]]

4.2）标签编码（Label encoding）

le = preprocessing.LabelEncoder()

print le.fit([1, 2, 2, 6])

#LabelEncoder()

print le.classes_

#[1 2 6]

print le.transform([1, 1, 2, 6])

#[0 0 1 2]

print le.inverse_transform([0, 0, 1, 2])

#[1 1 2 6]

也可以用于非数值类型的标签到数值类型标签的转化：

le = preprocessing.LabelEncoder()

print le.fit(["paris", "paris", "tokyo", "amsterdam"])

#LabelEncoder()

print list(le.classes_)

#['amsterdam', 'paris', 'tokyo']

print le.transform(["tokyo", "tokyo", "paris"])

#[2 2 1]

print list(le.inverse_transform([2, 2, 1]))

#['tokyo', 'tokyo', 'paris']

Python下的机器学习工具sklearn--数据预处理的更多相关文章

sklearn数据预处理
一.standardization 之所以标准化的原因是,如果数据集中的某个特征的取值不服从标准的正太分布,则性能就会变得很差 ①函数scale提供了快速和简单的方法在单个数组形式的数据集上来执行标准 ...
python中常用的九种数据预处理方法分享
Spyder Ctrl + 4/5: 块注释/块反注释本文总结的是我们大家在python中常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍; 1. 标准化(St ...
sklearn数据预处理－scale
对数据按列属性进行scale处理后,每列的数据均值变成0,标准差变为1.可通过下面的例子加深理解: from sklearn import preprocessing import numpy as ...
[Python数据挖掘]第4章、数据预处理
数据预处理主要包括数据清洗.数据集成.数据变换和数据规约,处理过程如图所示. 一.数据清洗 1.缺失值处理:删除.插补.不处理 ## 拉格朗日插值代码(使用缺失值前后各5个未缺失的数据建模) impo ...
机器学习实战：数据预处理之独热编码（One-Hot Encoding）
问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值. 例如,考虑一下的三个特征: ["male", "female"] ["from ...
机器学习——Day 1 数据预处理
写在开头由于某些原因开始了机器学习,为了更好的理解和深入的思考(记录)所以开始写博客. 学习教程来源于github的Avik-Jain的100-Days-Of-MLCode 英文版:https:// ...
sklearn 数据预处理1: StandardScaler
作用:去均值和方差归一化.且是针对每一个特征维度来做的,而不是针对样本. [注:] 并不是所有的标准化都能给estimator带来好处. “Standardization of a dataset i ...
数据预处理及sklearn方法实现
1.标准化(中心化) 在许多机器学习执行前,需要对数据集进行标准化处理.因为很对算法假设数据的特征服从标准正态分布.所以如果不对数据标准化,那么算法的效果会很差. 例如,在学习算法的目标函数,都假设数 ...
[Python]-pandas模块-机器学习Python入门《Python机器学习手册》-02-加载数据：加载文件
<Python机器学习手册--从数据预处理到深度学习> 这本书类似于工具书或者字典,对于python具体代码的调用和使用场景写的很清楚,感觉虽然是工具书,但是对照着做一遍应该可以对机器学习 ...

随机推荐

Servlet Examples
Servlet Examples Servlet Examples 1.Hello World output: code: 1.import java.io.*;2.import javax.serv ...
jQuery插件的点点滴滴
说起jQuery插件,很多人的脑海种已经有了一定的雏形,仿佛感觉仅仅就是那样子,事实呢?当你看了Bootstrap.js,品读了slidesjs,观摩了jquery.cycle2.js,不禁发现,原来 ...
Oracle数据库中如何选择合适的索引类型 .
索引就好象一本字典的目录.凭借字典的目录,我们可以非常迅速的找到我们所需要的条目.数据库也是如此.凭借Oracle数据库的索引,相关语句可以迅速的定位记录的位置,而不必去定位整个表. 虽然说,在表中是 ...
java性能优化技巧
在JAVA程序中,性能问题的大部分原因并不在于JAVA语言,而是程序本身.养成良好的编码习惯非常重要,能够显著地提升程序性能. 1. 尽量使用final修饰符. 带有final修饰符的类是不可派生的. ...
Piggy-Bank （hdoj1114）
Piggy-Bank Problem Description Before ACM can do anything, a budget must be prepared and the necessa ...
Java连接Azure SQL Database
Azure SQL Database是Azure上的数据库PAAS服务,让用户可以快速的创建和使用SQL数据库而不用担心底层的备份,安全,运维,恢复等繁琐的工作,本文简单介绍如何使用Java程序连接到 ...
Oracle EBS-SQL (INV-6):检查监督帐户别名处理.sql
select MSI.SEGMENT1 项目编码, MSI.DESCRIPTION ...
Jmeter性能测试及压测入门
Jmeter是一个非常好用的压力测试工具. Jmeter用来做轻量级的压力测试,非常合适,只需要十几分钟,就能把压力测试需要的脚本写好. 为什么要建立线程组?原因很简单,因为我们要模拟多个线程(用户 ...
logstash 使用grok正则解析日志
http://xiaorui.cc/2015/01/27/logstash%E4%BD%BF%E7%94%A8grok%E6%AD%A3%E5%88%99%E8%A7%A3%E6%9E%90%E6%9 ...
弹出框、遮罩层demo
仿alert.confirm的弹出框. 弹出后,用遮罩层将背景虚化. 代码如下: <html> <meta http-equiv="Content-Type" c ...

Python下的机器学习工具sklearn--数据预处理

Python下的机器学习工具sklearn--数据预处理的更多相关文章

随机推荐

热门专题