python数据分析数据标准化及离散化详解

本文为大家分享了python数据分析数据标准化及离散化的具体内容，供大家参考，具体内容如下

标准化

1、离差标准化

是对原始数据的线性变换，使结果映射到[0,1]区间。方便数据的处理。消除单位影响及变异大小因素影响。

基本公式为：

x'=（x-min）/（max-min）

代码：

#！／user/bin/env python

#-*- coding:utf-8 -*-

#author:M10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',


user='root',


passwd='123456',


db='python')#链接本地数据库

sql = 'select price,comment from taob'#sql语句

data = pd.read_sql(sql,conn)#获取数据

#离差标准化

data1 = (data-data.min())/(data.max()-data.min())

print(data1)

运行结果

2、标准差标准化

消除单位影响以及变量自身变异影响。（零-均值标准化）

基本公式为：

x'=（x-平均数）/标准差

python代码：

#！／user/bin/env python

#-*- coding:utf-8 -*-

#author:M10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',


user='root',


passwd='123456',


db='python')#链接本地数据库

sql = 'select price,comment from taob'#sql语句

data = pd.read_sql(sql,conn)#获取数据

#标准差标准化

data1 = (data-data.mean())/data.std()

print(data1)

运行结果：

3、小数定标标准化

消除单位影响

基本公式为：

其中j=lg(max(|x|)),即以10为底的x的绝对值最大的对数

x' = x/10^j

实现代码为：

#！／user/bin/env python

#-*- coding:utf-8 -*-

#author:M10

import numpy as np

import pandas as pd

import matplotlib.pylab as plt

import mysql.connector

conn = mysql.connector.connect(host='localhost',


user='root',


passwd='123456',


db='python')#链接本地数据库

sql = 'select price,comment from taob'#sql语句

data = pd.read_sql(sql,conn)#获取数据

#标准差标准化

j = np.ceil(np.log10(data.abs().max()))#进一取整，abs()为取绝对值

data1 = data/10**j

print(data1)

结果：

离散化

离散化是程序设计中一个常用的技巧，它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中，只考虑需要用的值。离散化可以改进一个低效的算法，甚至实现根本不可能实现的算法

1、等宽离散化

将连续数据按照等宽区间标准离散化数据，好处之一是处理的数据是有限个数据而不是无限多。

使用pandas的cut方法。非等宽只需要更改cut的第二个参数，例如：第二个参数为[1,100,3000,10000,200000]，即划分为了四个区间。

#！／user/bin/env
python

#-*- coding:utf-8 -*-

#author:M10

importnumpy as np

importpandas as pd

importmatplotlib.pylab as
plt

importmysql.connector

conn=mysql.connector.connect(host='localhost',

user='root',

passwd='123456',

db='python')#链接本地数据库

sql='select price,comment
from taob'#sql语句

data=pd.read_sql(sql,conn)#获取数据

#离散化

data1=data['price'].T.values#获取价格的一维数组

lable=['很低','低','中','高','很高']

data2=pd.cut(data1,5,labels=lable)

print(data2)

执行结果：

2、等频率离散化

将相同数量的数据放进一个区间。

3、一维聚类离散化

按属性对数据进行聚类离散。

以上就是本文的全部内容，希望对大家的学习有所帮助

python数据分析数据标准化及离散化详解的更多相关文章

Python做简单的字符串匹配详解
Python做简单的字符串匹配详解由于需要在半结构化的文本数据中提取一些特定格式的字段.数据辅助挖掘分析工作,以往都是使用Matlab工具进行结构化数据处理的建模,matlab擅长矩阵处理.结构化数 ...
Python学习一：序列基础详解
作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7858473.html 邮箱:moyi@moyib ...
Python学习二：词典基础详解
作者:NiceCui 本文谢绝转载,如需转载需征得作者本人同意,谢谢. 本文链接:http://www.cnblogs.com/NiceCui/p/7862377.html 邮箱:moyi@moyib ...
python 3.x 爬虫基础---Urllib详解
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解前言爬虫也了解了一段时间了希望在半个月的时间内 ...
python设计模式之迭代器与生成器详解(五)
前言迭代器是设计模式中的一种行为模式,它提供一种方法顺序访问一个聚合对象中各个元素, 而又不需暴露该对象的内部表示.python提倡使用生成器,生成器也是迭代器的一种. 系列文章 python设计模 ...
python+requests接口自动化测试框架实例详解
python+requests接口自动化测试框架实例详解转自https://my.oschina.net/u/3041656/blog/820023 摘要: python + requests实 ...
(转)python标准库中socket模块详解
python标准库中socket模块详解 socket模块简介原文:http://www.lybbn.cn/data/datas.php?yw=71 网络上的两个程序通过一个双向的通信连接实现数据的 ...
Python网络请求urllib和urllib3详解
Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urlli ...
python中requests库使用方法详解
目录 python中requests库使用方法详解官方文档什么是Requests 安装Requests库基本的GET请求带参数的GET请求解析json 添加headers 基本POST请求 ...

随机推荐

php守护进程创建和简要分析
守护进程可由系统启动脚本 /etc/rc.local crontab任务, 用户shell 方式运行具体概念可参考c的进程守护化基本步骤 1.创建子进程,终止父进程 (pcntl_fork,ex ...
《ABCD组》第三次作业：团队项目的原型设计
<ABCD组>第三次作业:团队项目的原型设计项目内容这个作业属于哪个课程 http://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https:// ...
Selenium常用API的使用java语言之13-多表单切换
在 Web 应用中经常会遇到 frame/iframe 表单嵌套页面的应用, WebDriver 只能在一个页面上对元素识别与定位, 对于 frame/iframe 表单内嵌页面上的元素无法直接定位 ...
安装pip的三种方式
pip是python的一个工具,用来安装python包特别方便.Linux系统是是内置python程序,因为许多Linux内置文件都是使用python来编写的,比如说yum. 1.脚本安装通过脚本的 ...
011_GoldWave软件安装及使用
(一)软件安装包: 链接:https://pan.baidu.com/s/15c5veooyA8bAYIAgLFOLjg提取码:jiis 复制这段内容后打开百度网盘手机App,操作更方便哦 (二)降低 ...
hihoCoder 2 * problem
1792 模拟,转化为二进制后逐位比较 1819 线段树维护区间加维护每个数加了多少每次弹出栈顶元素后栈顶位置注意清空 1792 #include <iostream> #includ ...
P2637 第一次，第二次，成交！
题目描述因为奶牛们的节食运动(奶牛还节食?)给农夫JOHN余下了一大批干草无法处理,所以他准备要开一个拍卖会去出售他的干草.他有N(1<=N<=1000)批干草(每批大约100捆).他的 ...
P3410 拍照
漂亮小姐姐点击就送:https://www.luogu.org/problemnew/show/P3410 题目描述小B有n个下属,现小B要带着一些下属让别人拍照. 有m个人,每个人都愿意付给小B一 ...
使用DOS命令将类库封装成dll
1.Windows键+R.输入cmd进入DOS 2.使用 cd 加路径找到需要封装成dll的类库文件 3.csc /target:library /out:dll的名字.DLL 需要封装的cs文件
Python测试框架对比
如有任何学习问题,可以添加作者微信:lockingfree 更多学习资料请加QQ群: 822601020获取 unittest, pytest, nose, robot framework对比什么是 ...

python数据分析数据标准化及离散化详解

python数据分析数据标准化及离散化详解的更多相关文章

随机推荐

热门专题