pandas之cut

cut( )用来把一组数据分割成离散的区间。

cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise')

# x：被切分的数据，必须是一维的

# bins：①int型整数：将x按照数值大小平均分成分成bins份，x的范围在最左侧和最右侧分别扩展0.1%以包括最大值和最小值

　　　　 #②标量序列：自定义分组的每个区间，此时严格按照给定的区间分割，x最左和最右不扩展

　　　　 #③pandas.IntervalIndex

# right：布尔值，默认为True，表示分割后包含区间右侧值不包含左侧值，False表示分割后包含左侧值不包括右侧值

# labels：分组后bins的标签，默认为None显示分割后属于的区间

# retbins：返回结果中是否包括bins，一般bins参数使用整数时

# precision：保留的小数点位数，默认为3

# include_lowest：如果自定义标量序列分组，第一个区间是否包含左侧最小值

# duplicates：是否允许区间重复

bins设置为整数，将一维数组平均分为5份

arr = np.array([1,77,10,89,36,12,58,62,5,40,32,18,20,25,30,100])

c = pd.cut(arr,5,precision=1)

print(c)

# [(0.9, 20.8], (60.4, 80.2], (0.9, 20.8], (80.2, 100.0], (20.8, 40.6], ..., (0.9, 20.8], (0.9, 20.8], (20.8, 40.6], (20.8, 40.6], (80.2, 100.0]]

# Length: 16

# Categories (5, interval[float64]): [(0.9, 20.8] < (20.8, 40.6] < (40.6, 60.4] < (60.4, 80.2] < (80.2, 100.0]]

系统自动根据数组中数值的大小将原数据平均分为5分，每个区间间隔为19.8。整个区间的起点为(1,100]，由于右侧包含了100因此最大区间的最大值无需扩展，而由于不包括1，因此最小区间的最小值需向左扩展0.1% * 100 = 0.1，即1-0.1 = 0.9。

设置retbins=True，会将分割区间以数组形式显示出来，这个参数一般在bins设置为整数时使用，因为其他bins两种方式都是自定义了这个区间。

arr = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32])

c = pd.cut(arr,5,precision=1,retbins = True)

print(c)

# ([(0.9, 20.8], (0.9, 20.8], (0.9, 20.8], (20.8, 40.6], (20.8, 40.6], ..., (0.9, 20.8], (0.9, 20.8], (20.8, 40.6], (20.8, 40.6], (20.8, 40.6]]

# Length: 16

# Categories (5, interval[float64]): [(0.9, 20.8] < (20.8, 40.6] < (40.6, 60.4] < (60.4, 80.2] < (80.2, 100.0]], \
#             array([  0.901,  20.8  ,  40.6  ,  60.4  ,  80.2  , 100.   ]))

bins自定义分组序列，并指定lables

c = pd.cut(arr,bins = [1,5,18,35,50,100],labels = ['幼儿','少年','青年','中年','老年'],precision=1)

print(c)

# [NaN, 老年, 少年, 老年, 中年, ..., 少年, 青年, 青年, 青年, 老年]

# Length: 16

# Categories (5, object): [幼儿 < 少年 < 青年 < 中年 < 老年]

上述示例的意思是，将原数组按照1-5、5-18、18-35、35-50、50-100(左开右闭)的区间进行划分，划分后分别对应幼儿、少年、青年、中年、老年。

但是由于默认为左开区间所以无法将最小值划到一个给定的区间(如果设置right=False则最大值无对应区间)，因此原数组中的第一个数1返回的是NaN，可以设置参数include_lowest=True，则可将最小是包含进去。

c = pd.cut(arr,bins = [1,5,18,35,50,100],labels = ['幼儿','少年','青年','中年','老年'],precision=1,include_lowest=True)

print(c)

# [幼儿, 老年, 少年, 老年, 中年, ..., 少年, 青年, 青年, 青年, 老年]

# Length: 16

# Categories (5, object): [幼儿 < 少年 < 青年 < 中年 < 老年]

上述例子的返回结果包含三项，第一项是每个数属于哪个区间，第二个是原数组长度，第三个是Category对象

如果只想显示第一项、即数组中的每个值属于哪个区间，可设置为labels = False

c= pd.cut(arr,bins = [1,5,18,35,50,100],labels=False,include_lowest=True)

print(c)

# [0 0 1 3 3 1 4 4 4 4 4 1 2 2 2 2]

pandas之cut的更多相关文章

pandas之cut(),qcut()
功能:将数据进行离散化可参见博客:https://blog.csdn.net/missyougoon/article/details/83986511 , 例子简易好懂 1.pd.cut函数有7个参 ...
数据处理：12个使得效率倍增的pandas技巧
数据处理:12个使得效率倍增的pandas技巧 1. 背景描述 Python正迅速成为数据科学家偏爱的语言,这合情合理.它拥有作为一种编程语言广阔的生态环境以及众多优秀的科学计算库.如果你刚开始学习P ...
pandas的离散化，面元划分
pd.cut pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=, include_lowest=False) ...
pandas 初识（三）
Python Pandas 空值 pandas 判断指定列是否(全部)为NaN(空值) import pandas as pd import numpy as np df = pd.DataFrame ...
利用Python进行数据分析-Pandas(第四部分-数据清洗和准备)
在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载.清理.转换以及重塑上.这些工作会占到分析时间的80%或更多.有时,存储在文件和数据库中的数据的格式不适合某个特定的任务.研究者都选择使用编 ...
Pandas进阶之提升运行效率
前言如果你现在正在学习数据分析,或者正在从事数据分析行业,肯定会处理一些大数据集.pandas就是这些大数据集的一个很好的处理工具.那么pandas到底是什么呢?官方文档上说: " 快速, ...
pandas优化
目录前言使用Datetime数据节省时间 pandas数据的循环操作使用itertuples() 和iterrows() 循环 Pandas的 .apply()方法矢量化操作:使用.isin( ...
《利用Python进行数据分析》第7章学习笔记
数据规整化:清理.转换.合并.重塑合并数据集 pandas.merge pandas.concat combine_first 数据库风格的DataFrame合并索引上的合并 join()实例方法 ...
Python之数据规整化：清理、转换、合并、重塑
Python之数据规整化:清理.转换.合并.重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame中的行连接起来. pandas.concat可以沿着一条轴将多个对象 ...

随机推荐

DOM-BOM-EVENT（7）
7.事件深入 7.1.事件捕获事件流分为事件冒泡和事件捕获两种,事件冒泡指事件从里往外传播,而事件捕获刚好相反,指事件从外向內传播 <!DOCTYPE html> <html la ...
SpringBoot中VO,DTO,DO,PO的概念、区别和用处
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/zhuguang10/article/de ...
（私人收藏）2019WER积木教育机器人赛（普及赛）基础解决方案
2019WER积木教育机器人赛(普及赛)基础解决方案含地图.基础解决方案.全部路线的往返.详细规则.视频.搭建方案 EV3;乐高;机器人比赛;能力风暴;WER https://pan.baidu.c ...
SpringBoot01-启动类启动做了那些事情
1.第一个步骤进入SpringApplication构造函数 public SpringApplication(ResourceLoader resourceLoader, Class<?> ...
Kafka消费者拉取数据异常Unexpected error code 2 while fetching data
Kafka消费程序间歇性报同一个错: 上网没查到相关资料,只好自己分析.通过进一步分析日志发现,只有在拉取某一个特定的topic的数据时报错,如果拉取其他topic的数据则不会报错.而从这个异常信息来 ...
P2034 选择数字——线性dp（单调队列优化）
选择数字题目描述给定一行 \(n\) 个非负整数 \(a[1]...a[n]\) .现在你可以选择其中若干个数,但不能有超过 \(k\) 个连续的数字被选择.你的任务是使得选出的数字的和最大. 输 ...
用python执行rails项目sidekiq任务
我们先看一下如何ruby如何推一个任务到sidekiq https://github.com/mperham/sidekiq/wiki/FAQ#how-do-i-push-a-job-to-sidek ...
python入门005
垃圾回收机制详解(了解) 1.引用计数 x = 10 # 直接引用 print(id(x)) y = x z = x l = ['a', 'b', x] # 间接引用 print(id(l[2])) ...
about 蛤蛤
蛤蛤属于蛤蛤门(haha),蛤蛤纲(haha),蛤蛤亚纲(haha),蛤蛤目(haha),蛤蛤总科(haha),蛤蛤科(haha).
Java入门系列之final
前言在C#经典面试中掺杂过Java的final关键字,主要用于类不能被继承,在C#则是利用关键字seal修饰类为密封类,而在Java中的final关键字的具体用法包含C#中const.readonl ...

pandas之cut

pandas之cut的更多相关文章

随机推荐

热门专题