pandas的离散化，面元划分

pd.cut

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=, include_lowest=False)

x：要分箱的输入数组，必须是一维的
bins：int或标量序列

- 若bins是一个int，它定义在x范围内的等宽单元的数量。然而，在这种情况下，x的范围在每一侧延伸0.1％以包括x的最小值或最大值
- 若bins是一个序列，它定义了允许非均匀bin宽度的bin边缘。在这种情况下不进行x的范围的扩展
right：bool，可选：决定区间的开闭，如果right == True（默认），则区间[1,2,3,4]指示（1,2]，（2,3]，（3,4]
labels：array或boolean，默认值为无：用作生成的区间的标签。必须与生成的区间的长度相同。如果为False，则只返回bin的整数指示符
retbins：bool，可选：是否返回bin。如果bin作为标量给出，则可能有用
precision：int：存储和显示容器标签的精度，默认保留三位小数
include_lowest：bool：第一个间隔是否应该包含左边

 import numpy as np

 import pandas as pd

 # 使用pandas的cut函数划分年龄组

 ages = [20,22,25,27,21,23,37,31,61,45,32]

 bins = [18,25,35,60,100]

 cats = pd.cut(ages,bins)

 print(cats)  # 分类时，当数据不在区间中将变为nan

 # 统计落在各个区间的值数量

 print(pd.value_counts(cats))

 # 使用codes为年龄数据进行标号

 print(cats.codes)

 # 设置自己想要的面元名称

 group_names = ['Youth','YoungAdult','MiddleAged','Senior']

 print(pd.cut(ages, bins, labels=group_names))

 # 设置区间数学符号为左闭右开

 print(pd.cut(ages, bins, right=False))

 # 向cut传入面元的数量，则会根据数据的最小值和最大值计算等长面元

 print(pd.cut(ages, 4, precision=2))  # precision=2表示设置的精度

pd.qcut

与cut类似，它可以根据样本分位数对数据进行面元划分

pandas.qcut(x, q, labels=None, retbins=False, precision=3)

x：ndarray或Series
q：整数或分位数阵列分位数。十分位数为10，四分位数为4或者，分位数阵列，例如[0，.25，.5，.75，1.]四分位数
labels：array或boolean，默认值为无：用作生成的区间的标签。必须与生成的区间的长度相同。如果为False，则只返回bin的整数指示符。
retbins：bool，可选：是否返回bin。如果bin作为标量给出，则可能有用。
precision：int：存储和显示容器标签的精度

 import numpy as np

 import pandas as pd

 # qcut可以根据样本分位数对数据进行面元划分

 # data = np.random.randn(20)  # 正态分布

 data = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]

 cats = pd.qcut(data, 4)  # 按四分位数进行切割

 print(cats)

 print(pd.value_counts(cats))

 print("-------------------------------------------------")

 # 通过指定分位数（0到1之间的数值，包含端点）进行面元划分

 cats_2 = pd.qcut(data, [0, 0.5, 0.8, 0.9, 1])

 print(cats_2)

 print(pd.value_counts(cats_2))

pandas的离散化，面元划分的更多相关文章

pandas深入理解
Pandas是一个Python库,旨在通过“标记”和“关系”数据以完成数据整理工作,库中有两个主要的数据结构Series和DataFrame In [1]: import numpy as np In ...
Pandas数据的去重，替换和离散化，异常值的检测
数据转换移除重复数据 import pandas as pd import numpy as np from pandas import Series data = pd.DataFrame( {' ...
pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录数据分组与分组运算离散化处理数据合并数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
pandas的使用（6）离散化和合并
pandas的使用(6)离散化和合并
数据预处理 | 使用 Pandas 进行数值型数据的标准化归一化离散化二值化
1 标准化 & 归一化导包和数据 import numpy as np from sklearn import preprocessing data = np.loadtxt('data.t ...
python中pandas数据分析基础3（数据索引、数据分组与分组运算、数据离散化、数据合并）
//2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...
数据处理 | pandas入门专题——离散化与one-hot
今天是pandas数据处理专题第7篇文章,可以点击上方专辑查看往期文章. 在上一篇文章当中我们介绍了对dataframe进行排序以及计算排名的一些方法,在今天的文章当中我们来了解一下dataframe ...
数据处理：2.异常值处理 & 数据归一化 & 数据连续属性离散化
1.异常值分析异常值是指样本中的个别值,其数值明显偏离其余的观测值.异常值也称离群点,异常值的分析也称为离群点的分析. 异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补 ...
数据挖掘之pandas
sdata={'语文':89,'数学':96,'音乐':39,'英语':78,'化学':88} #字典向Series转化 @@ >>> studata=Series(sdata) & ...

随机推荐

Gym .102021 .German Collegiate Programming Contest (GCPC 18) （寒假gym自训第三场）
B .Battle Royale 题意:给你两个点A,B,以及一个圆S,保证两个点在圆外,且其连线与圆相交,求两点间最短距离. 思路:显然是要分别与圆相切,然后在圆弧想走,直到相交. 那么ans=与圆 ...
maven 构建 war文件&&Glassfish运行+部署war文件+访问（命令行模式）
Glassfish常用命令 asadmin start-domain --verbose #启动Glassfish服务器(默认domain1) ,并在终端显示相关信 ...
PostgreSQL的配置文件
PostgreSQL的配置文件主要有如下3个(postgresql.conf,pg_hba.conf,pg_ident.conf)可以通过如下方式查找:postgres=# select name, ...
（4）django的新手三件套(返回页面、返回字符、重定向)
from django.shortcuts import render,HttpResponse,redirect 新手三件套,前期开发都会用到 render #向浏览器返回页面 HttpResp ...
CH4401 蒲公英
题意 4401 蒲公英 0x40「数据结构进阶」例题描述题目PDF 样例输入 6 3 1 2 3 2 1 2 1 5 3 6 1 5 样例输出 1 2 1 来源石家庄二中Violet 6杯省选模 ...
Centos7网络正常，但使用yum提示安装源无法连接
可以尝试使用yum clean all清空yum源本地缓存
masterlab 敏捷项目管理工具
masterlab 是一个参考了gitlab 以及jira 的开源项目管理工具,基于php开发,同时官方也提供了一个 docker-compose 运行的项目 clone 代码 git clone ...
20 约束异常处理 MD5 日志
三十九, 一.类的约束 1.抛出异常 NotImplementedError 2.抽象方法含有抽象方法的类是抽象类抽象类中的方法全是抽象方法的是接口抽象类不能创建对象二.异常处理处理完 ...
Use swig + lua quick guide
软件swigwin3 用于生成c的lua包装lua5.2源代码步骤进入目录G:\sw\swigwin-3.0.12\Examples\lua\arrays执行 SWIG -lua ex ...
pycharm加载多个项目
菜单位置:File -> Settings -> Project:xxx -> Project Stucture Project:xxx中xxx一般是已有项目的名称窗口右侧上点击A ...

pandas的离散化，面元划分

pandas的离散化，面元划分的更多相关文章

随机推荐

热门专题