特征预处理之归一化&标准化

写在前面

这篇博客的主要内容

应用MinMaxScaler实现对特征数据进行归一化
应用StandardScaler实现对特征数据进行标准化

特征预处理

定义

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

特征预处理API

sklearn.preprocessing

为什么要进行归一化/标准化？

特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征

归一化

定义

通过对原始数据进行变换把数据映射到(默认为[0,1])之间

作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0

API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
- MinMaxScalar.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后的形状相同的array

数据

milage,Liters,Consumtime,target

40920,8.326976,0.953952,3

14488,7.153469,1.673904,2

26052,1.441871,0.805124,1

75136,13.147394,0.428964,1

38344,1.669788,0.134296,1

代码

from sklearn.preprocessing import MinMaxScaler

def minmax_demo():

    data = pd.read_csv("dating.txt")

    print(data)

    # 1、实例化一个转换器类

    transfer = MinMaxScaler(feature_range=(2, 3))

    # 2、调用fit_transform

    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])

    print("最小值最大值归一化处理的结果：\n", data)

    return None

结果

标准化

定义

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

作用于每一列，mean为平均值，σ为标准差

API

sklearn.preprocessing.StandardScaler( )
- 处理之后每列来说所有数据都聚集在均值0附近标准差差为1
- StandardScaler.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后的形状相同的array

数据

同上归一化介绍中使用的数据

代码

from sklearn.preprocessing import StandardScaler

def stand_demo():

    data = pd.read_csv("dating.txt")

    print(data)

    transfer = StandardScaler()

    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])

    print("标准化的结果：\n",data)

    print("每一列特征的平均值：\n",transfer.mean_)

    print("每一列特征的方差：\n",transfer.var_)

    return None

运行结果

特征预处理之归一化&标准化的更多相关文章

AI学习---特征工程【特征抽取、特征预处理、特征降维】
学习框架特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已什么是特征工程: 帮助我们使得算法性能更好发挥性能而已 sklearn主 ...
什么是机器学习的特征工程？【数据集特征抽取（字典，文本TF-Idf）、特征预处理（标准化，归一化）、特征降维（低方差，相关系数，PCA）】
2.特征工程 2.1 数据集 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci ...
数据的特征预处理?(归一化)&(标准化)&(缺失值)
特征处理是什么: 通过特定的统计方法(数学方法)将数据转化成为算法要求的数据 sklearn特征处理API: sklearn.preprocessing 代码示例: 文末! 归一化: 公式: ...
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属 ...
【原】关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并处以其方差.得到的结果是,对于每个属 ...
使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行. 将数据按期属性(按列进行)减去其均值,并除以其方差.得到的结果是,对于每个属 ...
[Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化
reference: http://www.cnblogs.com/chaosimple/p/4153167.html 一.标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/ ...
数据预处理中归一化（Normalization）与损失函数中正则化（Regularization）解惑
背景:数据挖掘/机器学习中的术语较多,而且我的知识有限.之前一直疑惑正则这个概念.所以写了篇博文梳理下摘要: 1.正则化(Regularization) 1.1 正则化的目的 1.2 正则化的L1范 ...
python就业班-淘宝-目录.txt
卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python就业班-淘宝-目录.txt│ ├─01 网络编程│ ├─01-基本概念│ │ 01-网络通信概述 ...

随机推荐

mini-web框架-WSGI-mini-web框架-多进程，面向对象的服务器(5.1.1）
@ 目录 1.说明 2.代码关于作者 1.说明使用多进程积极主动python多进程是复制资源,线程是共享变量所以这个的socket要关两次,因为复制文件的时候,是把文件的fd给复制过去(fil ...
【Idea插件】kotlin的orm框架一键生成代码框架
@font-face { font-family: octicons-link; src: url("data:font/woff;charset=utf-8;base64,d09GRgAB ...
[从源码学设计]蚂蚁金服SOFARegistry 之 LocalDataServerChangeEvent及数据同步
[从源码学设计]蚂蚁金服SOFARegistry 之 LocalDataServerChangeEvent及数据同步目录 [从源码学设计]蚂蚁金服SOFARegistry 之 LocalDataSe ...
国产的开源数据库——GitHub 热点速览 Vol.52
作者:HelloGitHub-小鱼干本以为本周的 GitHub 和十二月一样平平无奇就那么度过了,结果 BackgroundMattingV2 重新刷新了本人的认知,还能这种骚操作在线实时抠视频去背 ...
postgresql 创建分表
划分指的是将逻辑上的一个大表分成一些小的物理上的片.划分有很多益处: 1.在某些情况下查询性能能够显著提升,特别是当那些访问压力大的行在一个分区或者少数几个分区时.划分可以取代索引的主导列.减小索引尺 ...
Service Mesh——微服务中的流量管理中间件
Service Mesh--微服务中的流量管理中间件摘自-https://zhuanlan.zhihu.com/p/28794062 Service mesh 与 Cloud Native Kube ...
cmake - 可执行文件
1.生成可执行文件 add_executable(hello xxx.cpp xxxxx.cpp) ##根据文件xxx.cpp和xxxx.cpp生成可执行文件hello,但是这两个可执行文件如果依赖其 ...
JavaScript入门-学习笔记(一)
JavaScript入门(一) 学习js之前,我们先来了解一下,什么是JavaScript? JavaScript是一种解释型语言.在运行的时候,一边读一边编译一边执行.简单来说就是,在执行js代码时 ...
mysql8.0.19压缩版安装
1.官网下载.zip格式的MySQL Server的压缩包,选择x86或x64版,并解压. 2. 创建 data文件夹及 my.ini文件,并编辑 [mysqld] # 设置为自己MYSQL的安装目 ...
【python接口自动化】- DDT数据驱动测试
简单介绍 DDT(Date Driver Test),所谓数据驱动测试,简单来说就是由数据的改变从而驱动自动化测试的执行,最终引起测试结果的改变.通过使用数据驱动测试的方法,可以在需要验证多组数据 ...

特征预处理之归一化&标准化

写在前面

特征预处理

定义

特征预处理API

为什么要进行归一化/标准化？

归一化

定义

API

数据

代码

结果

标准化

定义

API

数据

代码

运行结果

特征预处理之归一化&标准化的更多相关文章

随机推荐

热门专题