python数据分析数据标准化及离散化详解

本文为大家分享了python数据分析数据标准化及离散化的具体内容，供大家参考，具体内容如下

标准化

1、离差标准化

是对原始数据的线性变换，使结果映射到[0,1]区间。方便数据的处理。消除单位影响及变异大小因素影响。

基本公式为：

x'=（x-min）/（max-min）

代码：

#！／user/bin/env python

#-*- coding:utf-8 -*-

#author:M10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',


user='root',


passwd='123456',


db='python')#链接本地数据库

sql = 'select price,comment from taob'#sql语句

data = pd.read_sql(sql,conn)#获取数据

#离差标准化

data1 = (data-data.min())/(data.max()-data.min())

print(data1)

运行结果

2、标准差标准化

消除单位影响以及变量自身变异影响。（零-均值标准化）

基本公式为：

x'=（x-平均数）/标准差

python代码：

#！／user/bin/env python

#-*- coding:utf-8 -*-

#author:M10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',


user='root',


passwd='123456',


db='python')#链接本地数据库

sql = 'select price,comment from taob'#sql语句

data = pd.read_sql(sql,conn)#获取数据

#标准差标准化

data1 = (data-data.mean())/data.std()

print(data1)

运行结果：

3、小数定标标准化

消除单位影响

基本公式为：

其中j=lg(max(|x|)),即以10为底的x的绝对值最大的对数

x' = x/10^j

实现代码为：

#！／user/bin/env python

#-*- coding:utf-8 -*-

#author:M10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',


user='root',


passwd='123456',


db='python')#链接本地数据库

sql = 'select price,comment from taob'#sql语句

data = pd.read_sql(sql,conn)#获取数据

#标准差标准化

j = np.ceil(np.log10(data.abs().max()))#进一取整，abs()为取绝对值

data1 = data/10**j

print(data1)

结果：

离散化

离散化是程序设计中一个常用的技巧，它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中，只考虑需要用的值。离散化可以改进一个低效的算法，甚至实现根本不可能实现的算法

1、等宽离散化

将连续数据按照等宽区间标准离散化数据，好处之一是处理的数据是有限个数据而不是无限多。

使用pandas的cut方法。非等宽只需要更改cut的第二个参数，例如：第二个参数为[1,100,3000,10000,200000]，即划分为了四个区间。

#！／user/bin/env
python

#-*- coding:utf-8 -*-

#author:M10

importnumpy as np

importpandas as pd

importmatplotlib.pylab as
plt

importmysql.connector

conn=mysql.connector.connect(host='localhost',

user='root',

passwd='123456',

db='python')#链接本地数据库

sql='select price,comment
from taob'#sql语句

data=pd.read_sql(sql,conn)#获取数据

#离散化

data1=data['price'].T.values#获取价格的一维数组

lable=['很低','低','中','高','很高']

data2=pd.cut(data1,5,labels=lable)

print(data2)

执行结果：

2、等频率离散化

将相同数量的数据放进一个区间。

3、一维聚类离散化

按属性对数据进行聚类离散。

以上就是本文的全部内容，希望对大家的学习有所帮助

python数据分析数据标准化及离散化详解的更多相关文章

Python做简单的字符串匹配详解
Python做简单的字符串匹配详解由于需要在半结构化的文本数据中提取一些特定格式的字段.数据辅助挖掘分析工作,以往都是使用Matlab工具进行结构化数据处理的建模,matlab擅长矩阵处理.结构化数 ...
Python学习一：序列基础详解
作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7858473.html 邮箱:moyi@moyib ...
Python学习二：词典基础详解
作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7862377.html 邮箱:moyi@moyib ...
python 3.x 爬虫基础---Urllib详解
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解前言爬虫也了解了一段时间了希望在半个月的时间内 ...
python设计模式之迭代器与生成器详解(五)
前言迭代器是设计模式中的一种行为模式,它提供一种方法顺序访问一个聚合对象中各个元素, 而又不需暴露该对象的内部表示.python提倡使用生成器,生成器也是迭代器的一种. 系列文章 python设计模 ...
python+requests接口自动化测试框架实例详解
python+requests接口自动化测试框架实例详解转自https://my.oschina.net/u/3041656/blog/820023 摘要: python + requests实 ...
(转)python标准库中socket模块详解
python标准库中socket模块详解 socket模块简介原文:http://www.lybbn.cn/data/datas.php?yw=71 网络上的两个程序通过一个双向的通信连接实现数据的 ...
Python网络请求urllib和urllib3详解
Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urlli ...
python中requests库使用方法详解
目录 python中requests库使用方法详解官方文档什么是Requests 安装Requests库基本的GET请求带参数的GET请求解析json 添加headers 基本POST请求 ...

随机推荐

2020年日期表-python实现
import pandas as pdimport calendarimport datetime # 生成日期范围date = pd.date_range("2020-01-01" ...
xld特征
halcon中什么是xld? xld(eXtended Line Descriptions) 扩展的线性描述,它不是基于像素的,人们称它是亚像素,只不过比像素更精确罢了,可以精确到像素内部的一种描述. ...
Java：JVM垃圾回收（GC）机制
JVM垃圾回收算法 1.标记清除(Mark-Sweep) 原理: 从根集合节点进行扫描,标记出所有的存活对象,最后扫描整个内存空间并清除没有标记的对象(即死亡对象)适用场合: 存活对象较多的情况下比较 ...
45、[源码]-Spring容器创建-执行BeanFactoryPostProcessor
45.[源码]-Spring容器创建-执行BeanFactoryPostProcessor 5.invokeBeanFactoryPostProcessors(beanFactory);执行BeanF ...
【Winfrom-无边框窗体】Winform如何拖动无边框窗体？
去掉边框 this.FormBorderStyle = FormBorderStyle.None; 方法一: Point mouseOff;//鼠标移动位置变量 bool leftFlag;//标签是 ...
sphinx和coreseek
sphinx是国外的一款搜索软件. coreseek是在sphinx的基础上,增加了中文分词功能,换句话说,就是支持了中文. Coreseek发布了3.2.14版本和4.1版本,其中的3.2.14版本 ...
接口实现后台GZIP压缩，pako.js 前端解压
import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.IOException; ...
springboot整合springsecurity遇到的问题
在整合springsecurity时遇到好几个问题,自动配置登录,下线,注销用户的操作,数据基于mybatis,模版引擎用的thymeleaf+bootstrap. 一.认证时密码的加密(passwo ...
BCB6常用快捷键
:: 项目管理类 :: F10 代码窗口全屏显示时切换到BCB的主窗口 Ctrl + F12 打开源文件清单对话框 ...
爬虫（四）：BeautifulSoup库的使用
一:beautifulsoup简介 beautifulsoup是一个非常强大的工具,爬虫利器. beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析 ...

python数据分析数据标准化及离散化详解

python数据分析数据标准化及离散化详解的更多相关文章

随机推荐

热门专题