数据的预处理是数据分析,或者机器学习训练前的重要步骤。
通过数据预处理,可以

  • 提高数据质量,处理数据的缺失值、异常值和重复值等问题,增加数据的准确性和可靠性
  • 整合不同数据,数据的来源和结构可能多种多样,分析和训练前要整合成一个数据集
  • 提高数据性能,对数据的值进行变换,规约等(比如无量纲化),让算法更加高效

本篇介绍的标准化处理,可以消除数据之间的差异,使不同特征的数据具有相同的尺度,
以便于后续的数据分析和建模。

1. 原理

数据标准化的过程如下:

  1. 计算数据列的算术平均值mean
  2. 计算数据列的标准差sd
  3. 标准化处理:\(new\_data = (data - mean) / sd\)

data 是原始数据,new_data 是标准化之后的数据。

根据原理,实现的对一维数据标准化的示例如下:

import numpy as np

# 标准化的实现原理
data = np.array([1, 2, 3, 4, 5])
mean = np.mean(data) # 平均值
sd = np.std(data) # 标准差 # 标准化
data_new = (data-mean)/sd print("处理前: {}".format(data))
print("处理后: {}".format(data_new)) # 运行结果
处理前: [1 2 3 4 5]
处理后: [-1.41421356 -0.70710678 0. 0.70710678 1.41421356]

使用scikit-learn库中的标准化函数scale,得到的结果也和上面一样。

from sklearn import preprocessing as pp

data = np.array([1, 2, 3, 4, 5])
pp.scale(data) # 运行结果
array([-1.41421356, -0.70710678, 0. , 0.70710678, 1.41421356])

scikit-learn库中的标准化函数scale不仅可以处理一维的数据,也可以处理多维的数据。

2. 作用

标准化处理的作用主要有:

2.1. 消除数据量级的影响

数据分析时,不一样量级的数据放在一起分析会增加很多不必要的麻烦,比如下面三组数据:

data_min = np.array([0.001, 0.002, 0.003, 0.004, 0.005])
data = np.array([1, 2, 3, 4, 5])
data_max = np.array([10000, 20000, 30000, 40000, 50000])

三组数据看似差距很大,但是标准化处理之后:

from sklearn import preprocessing as pp

print("data_min 标准化:{}".format(pp.scale(data_min)))
print("data 标准化:{}".format(pp.scale(data)))
print("data_max 标准化:{}".format(pp.scale(data_max))) # 运行结果
data_min 标准化:[-1.41421356 -0.70710678 0. 0.70710678 1.41421356]
data 标准化:[-1.41421356 -0.70710678 0. 0.70710678 1.41421356]
data_max 标准化:[-1.41421356 -0.70710678 0. 0.70710678 1.41421356]

标准化处理之后,发现三组数据其实是一样的。
将数据转化为相同的尺度,使得不同变量之间的比较更加方便和有意义,避免对分析结果产生误导。

2.2. 增强可视化效果

此外,标准化之后的数据可视化效果也会更好。
比如下面一个对比学生们数学和英语成绩的折线图:

math_scores = np.random.randint(0, 150, 10)
english_scores = np.random.randint(0, 100, 10) fig, ax = plt.subplots(2, 1)
fig.subplots_adjust(hspace=0.4)
ax[0].plot(range(1, 11), math_scores, label="math")
ax[0].plot(range(1, 11), english_scores, label="english")
ax[0].set_ylim(0, 150)
ax[0].set_title("标准化之前")
ax[0].legend() ax[1].plot(range(1, 11), pp.scale(math_scores), label="math")
ax[1].plot(range(1, 11), pp.scale(english_scores), label="english")
ax[1].set_title("标准化之后")
ax[1].legend() plt.show()

随机生成10数学英语的成绩,数学成绩的范围是0~150,英语成绩的范围是0~100

标准化前后的折线图对比如下:

标准化之前的对比,似乎数学成绩要比英语成绩好。
而从标准化之后的曲线图来看,其实两门成绩是差不多的。

这就是标准化的作用,使得可视化结果更加准确和有意义。

2.3. 机器学习的需要

许多机器学习算法对输入数据的规模和量纲非常敏感。
如果输入数据的特征之间存在数量级差异,可能会影响算法的准确性和性能。

标准化处理可以将所有特征的数据转化为相同的尺度,从而避免这种情况的发生,提高算法的准确性和性能。

3. 总结

总的来说,数据标准化处理是数据处理中不可或缺的一步,它可以帮助我们消除数据之间的差异,提高分析结果的性能和稳定性,增加数据的可解释性,从而提高我们的决策能力。

【scikit-learn基础】--『预处理』之 标准化的更多相关文章

  1. Python基础『一』

    内置数据类型 数据名称 例子 数字: Bool,Complex,Float,Integer True/False; z=a+bj; 1.23; 123 字符串: String '123456' 元组: ...

  2. Python基础『二』

    目录 语句,表达式 赋值语句 打印语句 分支语句 循环语句 函数 函数的作用 函数的三要素 函数定义 DEF语句 RETURN语句 函数调用 作用域 闭包 递归函数 匿名函数 迭代 语句,表达式 赋值 ...

  3. 『TensorFlow』TFR数据预处理探究以及框架搭建

    一.TFRecord文件书写效率对比(单线程和多线程对比) 1.准备工作 # Author : Hellcat # Time : 18-1-15 ''' import os os.environ[&q ...

  4. 『TensorFlow』SSD源码学习_其五:TFR数据读取&数据预处理

    Fork版本项目地址:SSD 一.TFR数据读取 创建slim.dataset.Dataset对象 在train_ssd_network.py获取数据操作如下,首先需要slim.dataset.Dat ...

  5. 『cs231n』计算机视觉基础

    线性分类器损失函数明细: 『cs231n』线性分类器损失函数 最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...

  6. (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探

    目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...

  7. 『TensorFlow』专题汇总

    TensorFlow:官方文档 TensorFlow:项目地址 本篇列出文章对于全零新手不太合适,可以尝试TensorFlow入门系列博客,搭配其他资料进行学习. Keras使用tf.Session训 ...

  8. 『计算机视觉』Mask-RCNN_从服装关键点检测看KeyPoints分支

    下图Github地址:Mask_RCNN       Mask_RCNN_KeyPoints『计算机视觉』Mask-RCNN_论文学习『计算机视觉』Mask-RCNN_项目文档翻译『计算机视觉』Mas ...

  9. 『计算机视觉』Mask-RCNN

    一.Mask-RCNN流程 Mask R-CNN是一个实例分割(Instance segmentation)算法,通过增加不同的分支,可以完成目标分类.目标检测.语义分割.实例分割.人体姿势识别等多种 ...

  10. 『TensorFlow』SSD源码学习_其一:论文及开源项目文档介绍

    一.论文介绍 读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络 基本思路: 基础网络后接多层feature map 多层feat ...

随机推荐

  1. nacos适配SqlServer、Oracle

    继上文<nacos适配达梦.瀚高.人大金仓数据库及部分源码探究>后补充nacos适配SqlServer.Oracle的贴码,主要区别是SqlServer.Oracle的分页SQL有点不一样 ...

  2. Tongweb远程调试

    最近,在对项目进行国产化时,要求springboot项目容器换成tongweb.在部署中,有个问题一直无法在本地重现,搜了下网上资料,基本没法实现,所以我整理了下.注意,项目包代码必须与本地代码保持一 ...

  3. mysql关键字匹配度模糊查询

    有时候项目中需要进行模糊查询,但是要对查询出来的结果进行匹配度排序,比如搜索关键字是"北",需要把数据库中第一个字是北的排在前面,此时就可以用mysql的INSTR函数. INST ...

  4. HTML/网站一键打包APK工具(html网页打包安卓APP应用)

    HTML一键打包APK工具使用说明 工具简介 HMTL一键打包APK工具可以把本地HTML项目或者网站打包为一个安卓应用APK文件,无需编写任何代码,也无需配置安卓开发环境,支持在最新的安卓设备上安装 ...

  5. DAY005_异或运算

    运算规则 二进制:相同为0 相异为1 十进制:相同为0 任何数字和0异或都是它本身 不利用额外变量交换两个数 数组中一种数字出现了奇数次,其他数都出现了偶数次,怎么得到这个出现了奇数次的数 将所有的数 ...

  6. Java爬虫实战系列2——动手写爬虫初体验

    在上面的章节中,我们介绍了几个目前比较活跃的Java爬虫框架.在今天的章节中,我们会参考开源爬虫框架,开发我们自己的Java爬虫软件. 首先,我们下载本章节要使用到的源代码,本章节主要提供了基于HTT ...

  7. Oracle:查询表的统计信息,手动收集统计信息

    在Oracle中,存在执行计划不准的情况,怀疑表的统计信息是否收集,需要以下操作:select table_name,num_rows,blocks,last_analyzed from user_t ...

  8. Vue2系列(lqz)——slot插槽 (内容分发)、2 transition过渡、3 生命周期、4 swiper学习、5 自定义组件的封装、6 自定义指令、7 过滤器

    文章目录 1 slot插槽 (内容分发) 1.1 基本使用 1.2 插槽应用场景1 1.3 插槽应用场景2 1.4 具名插槽 2 transition过渡 3 生命周期 4 swiper学习 5 自定 ...

  9. MySQL5.7版本单节点大数据量迁移到PXC8.0版本集群全记录-3

    接上文,单节点升级到80版本之后,构建新版本的80集群就水到渠成.相对简单了,详情可参见之前的集群构建博文. 本文在修改配置集群的新参数时,修改了pxc_strict_mode为默认的ENFORCIN ...

  10. Python join拼接

    import os print(os.path.join("I","love","you.")) # /XXX 代表的是绝对路径 这个变量之 ...