数据的预处理是数据分析，或者机器学习训练前的重要步骤。
通过数据预处理，可以

提高数据质量，处理数据的缺失值、异常值和重复值等问题，增加数据的准确性和可靠性
整合不同数据，数据的来源和结构可能多种多样，分析和训练前要整合成一个数据集
提高数据性能，对数据的值进行变换，规约等（比如无量纲化），让算法更加高效

本篇介绍的数据缩放处理，主要目的是消除数据的不同特征之间的量纲差异，使得每个特征的数值范围相同。这样可以避免某些特征对模型的影响过大，从而提高模型的性能。

1. 原理

数据缩放有多种方式，其中有一种按照最小值-最大值缩放的算法是最常用的。
其主要步骤如下：

计算数据列的最小值（min）和最大值（max）
对数据列中的每个值进行最小-最大缩放，即将其转换为 **[0,1]区间 **之内的一个值

缩放公式为：\(new\_data = \frac{data -min}{max-min}\)

实现缩放的代码如下：

# 数据缩放的实现原理

data = np.array([10, 20, 30, 40, 50])

min = np.min(data)

max = np.max(data)

data_new = (data - min) / (max-min)

print("处理前: {}".format(data))

print("处理后: {}".format(data_new))

# 运行结果

处理前: [10 20 30 40 50]

处理后: [0.   0.25 0.5  0.75 1.  ]

数值被缩放到 **[0,1]区间 **之内。
这个示例只是为了演示缩放的过程，实际场景中最好使用scikit-learn库中的函数。

scikit-learn中的minmax_scale函数是封装好的数据缩放函数。

from sklearn import preprocessing as pp

data = np.array([10, 20, 30, 40, 50])

pp.minmax_scale(data, feature_range=(0, 1))

# 运行结果

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

使用scikit-learn中的minmax_scale函数得到的结果是一样的，数据也被压缩到 **[0,1]区间 **之内。
所以 数据缩放 的这个操作有时也被称为归一化。

不过，数据缩放不一定非得把数据压缩到 **[0,1]区间 **之内，
通过调整feature_range参数，可以把数据压缩到任意的区间。

# 压缩到[0, 1]

print(pp.minmax_scale(data, feature_range=(0, 1)))

# 压缩到[-1, 1]

print(pp.minmax_scale(data, feature_range=(-1, 1)))

# 压缩到[0, 5]

print(pp.minmax_scale(data, feature_range=(0, 5)))

# 运行结果

[0.   0.25 0.5  0.75 1.  ]

[-1.  -0.5  0.   0.5  1. ]

[0.   1.25 2.5  3.75 5.  ]

2. 作用

数据缩放的作用主要有：

2.1. 统一数据尺度

通过缩放处理，将不同量纲、不同尺度、不同单位的数据转换成一个统一的尺度，
避免由于数据量纲不一致而导致的数据分析结果失真或误导。

2.2. 增强数据可比性

通过缩放处理，将不同量纲、不同尺度、不同单位的数据转换成一个统一的尺度，使得不同数据之间的比较更加方便和有意义。
例如，在评价多个样本的性能时，如果采用不同的量纲、不同尺度、不同单位进行比较，会导致比较结果不准确甚至误导。
通过统一的缩放处理之后，可以消除这种影响，使得比较结果更加准确可信。

2.3. 增强数据稳定性

通过缩放处理，将数据的数值范围调整到一个相对较小的区间内，
增加数据的稳定性，避免由于数据分布范围过大或过小而导致的分析误差或计算误差。

2.4. 提高算法效率和精度

通过缩放处理，使得一些计算算法的效率和精度得到提高。
例如，在神经网络算法中，如果输入数据的尺度过大或过小，会导致算法训练时间过长或过短，同时也会影响算法的精度和稳定性。
而缩放处理之后，就可以使算法的训练时间和精度得到优化。

3. 总结

在scikit-learn库中，处理数据缩放不是只有上面的最小值-最大值缩放，
还可用StandardScaler进行标准化缩放；用RobustScaler实现尺度缩放和平移等等。

进行数据缩放时，需要注意一点，就是缩放处理对异常值非常敏感，
如果数据中存在极大或者极小的异常值时，有可能会破坏原始数据本身。
所以，缩放处理前，最好把异常值过滤掉。

【scikit-learn基础】--『预处理』之数据缩放的更多相关文章

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
『TensorFlow』TFR数据预处理探究以及框架搭建
一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...
Python基础『一』
内置数据类型数据名称例子数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...
Python基础『二』
目录语句,表达式赋值语句打印语句分支语句循环语句函数函数的作用函数的三要素函数定义 DEF语句 RETURN语句函数调用作用域闭包递归函数匿名函数迭代语句,表达式赋值 ...
『TensorFlow』专题汇总
TensorFlow:官方文档 TensorFlow:项目地址本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...
『TensorFlow』SSD源码学习_其五：TFR数据读取&数据预处理
Fork版本项目地址:SSD 一.TFR数据读取创建slim.dataset.Dataset对象在train_ssd_network.py获取数据操作如下,首先需要slim.dataset.Dat ...
『Matplotlib』数据可视化专项
一.相关知识官网介绍 matplotlib API 相关博客 matplotlib绘图基础漂亮插图demo 使用seaborn绘制漂亮的热度图 fig, ax = plt.subplots(2,2 ...
『Numpy』内存分析_高级切片和内存数据解析
在计算机中,没有任何数据类型是固定的,完全取决于如何看待这片数据的内存区域. 在numpy.ndarray.view中,提供对内存区域不同的切割方式,来完成数据类型的转换,而无须要对数据进行额外的co ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支
下图Github地址:Mask_RCNN Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...

随机推荐

Redis系列20：LFU内存淘汰算法分析
Redis系列1:深刻理解高性能Redis的本质 Redis系列2:数据持久化提高可用性 Redis系列3:高可用之主从架构 Redis系列4:高可用之Sentinel(哨兵模式) Redis系列5: ...
网络请求-Android篇(Okhttp和Retrofit)
一.OkHttp的介绍和基本用法 OkHttp是一个流行的开源Java和Android应用程序的HTTP客户端.它由Square Inc.开发,提供了一种简单高效的方式来进行应用程序中的HTTP请求. ...
crm--纯后端部署
博客地址:https://www.cnblogs.com/zylyehuo/ 技术栈:supervisor + nginx + uwsgi + django + virtualenv + mariad ...
Unity 性能优化之Shader分析处理函数ShaderUtil.HasProceduralInstancing: 深入解析与实用案例
Unity 性能优化之Shader分析处理函数ShaderUtil.HasProceduralInstancing: 深入解析与实用案例点击封面跳转到Unity国际版下载页面简介在Unity中, ...
Flutter 编写收音机开源
之前写的一个 Flutter 收音机,支持桌面端和手机端,在https://www.cnblogs.com/imlgc/p/17536481.html ,写完之后就不怎么管了.后面陆陆续续有人邮件索要 ...
Vue-入门vue，及第一个vue程序
一.初始Vue 什么是vue Vue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架.它基于标准 HTML.CSS 和 JavaScript 构建,并提 ...
爬虫系列——selenium
文章目录一介绍二安装三基本使用四选择器五等待元素被加载六元素交互操作七其他八项目练习一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决r ...
【matplotlib 实战】--堆叠柱状图
堆叠柱状图,是一种用来分解整体.比较各部分的图.与柱状图类似,堆叠柱状图常被用于比较不同类别的数值.而且,它的每一类数值内部,又被划分为多个子类别,这些子类别一般用不同的颜色来指代. 柱状图帮助我们观 ...
CF1352D
题目简化和分析: 这题可以直接按照题意进行模拟,当然有些细节需要注意. 翻译的不足:这里的回合指任意一个人吃掉都算,而不是双方一个回合,最后一个人即使不满足也算一个回合. 我们可以采用两个指针模拟两个 ...
JS个人总结（1）
1. html页面引入js文件优先使用引入外部js文件. 2. 如果在html页面里使用<script></script>,则把js内容放在html内容下面,也就是</b ...

【scikit-learn基础】--『预处理』之 数据缩放