pandas-08 pd.cut()的功能和作用

pd.cut()的作用，有点类似给成绩设定优良中差，比如：0-59分为差，60-70分为中，71-80分为优秀等等，在pandas中，也提供了这样一个方法来处理这些事儿。直接上代码：

import numpy as np

import pandas as pd

from pandas import Series, DataFrame

np.random.seed(666)

score_list = np.random.randint(25, 100, size=20)

print(score_list)

# [27 70 55 87 95 98 55 61 86 76 85 53 39 88 41 71 64 94 38 94]

#　指定多个区间

bins = [0, 59, 70, 80, 100]

score_cut = pd.cut(score_list, bins)

print(type(score_cut)) # <class 'pandas.core.arrays.categorical.Categorical'>

print(score_cut)

'''

[(0, 59], (59, 70], (0, 59], (80, 100], (80, 100], ..., (70, 80], (59, 70], (80, 100], (0, 59], (80, 100]]

Length: 20

Categories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 80] < (80, 100]]

'''

print(pd.value_counts(score_cut)) # 统计每个区间人数

'''

(80, 100]    8

(0, 59]      7

(59, 70]     3

(70, 80]     2

dtype: int64

'''

df = DataFrame()

df['score'] = score_list

df['student'] = [pd.util.testing.rands(3) for i in range(len(score_list))]

print(df)

'''

    score student

0      27     1ul

1      70     yuK

2      55     WWK

3      87     EU6

4      95     Vqn

5      98     KAf

6      55     QNT

7      61     HaE

8      86     aBo

9      76     MMa

10     85     Ctc

11     53     5BI

12     39     wBp

13     88     WMB

14     41     q5t

15     71     MjZ

16     64     nTc

17     94     Kyx

18     38     Rlh

19     94     2uV

'''

# 使用cut方法进行分箱

print(pd.cut(df['score'], bins))

'''

0       (0, 59]

1      (59, 70]

2       (0, 59]

3     (80, 100]

4     (80, 100]

5     (80, 100]

6       (0, 59]

7      (59, 70]

8     (80, 100]

9      (70, 80]

10    (80, 100]

11      (0, 59]

12      (0, 59]

13    (80, 100]

14      (0, 59]

15     (70, 80]

16     (59, 70]

17    (80, 100]

18      (0, 59]

19    (80, 100]

Name: score, dtype: category

Categories (4, interval[int64]): [(0, 59] < (59, 70] < (70, 80] < (80, 100]]

'''

df['Categories'] = pd.cut(df['score'], bins)

print(df)

'''

    score student Categories

0      27     1ul    (0, 59]

1      70     yuK   (59, 70]

2      55     WWK    (0, 59]

3      87     EU6  (80, 100]

4      95     Vqn  (80, 100]

5      98     KAf  (80, 100]

6      55     QNT    (0, 59]

7      61     HaE   (59, 70]

8      86     aBo  (80, 100]

9      76     MMa   (70, 80]

10     85     Ctc  (80, 100]

11     53     5BI    (0, 59]

12     39     wBp    (0, 59]

13     88     WMB  (80, 100]

14     41     q5t    (0, 59]

15     71     MjZ   (70, 80]

16     64     nTc   (59, 70]

17     94     Kyx  (80, 100]

18     38     Rlh    (0, 59]

19     94     2uV  (80, 100]

'''

# 但是这样的方法不是很适合阅读，可以使用cut方法中的label参数

# 为每个区间指定一个label

df['Categories'] = pd.cut(df['score'], bins, labels=['low', 'middle', 'good', 'perfect'])

print(df)

'''

    score student Categories

0      27     1ul        low

1      70     yuK     middle

2      55     WWK        low

3      87     EU6    perfect

4      95     Vqn    perfect

5      98     KAf    perfect

6      55     QNT        low

7      61     HaE     middle

8      86     aBo    perfect

9      76     MMa       good

10     85     Ctc    perfect

11     53     5BI        low

12     39     wBp        low

13     88     WMB    perfect

14     41     q5t        low

15     71     MjZ       good

16     64     nTc     middle

17     94     Kyx    perfect

18     38     Rlh        low

19     94     2uV    perfect

'''

pandas-08 pd.cut()的功能和作用的更多相关文章

pandas模块实现小爬虫功能-转载
pandas模块实现小爬虫功能安装 pip3 install pandas 爬虫代码 import pandas as pd df = pd.read_html("http://www.a ...
pandas，pd.ExcelWriter保存结果到已存在的excel文件中
背景:pandas支持将DataFrame数据直接保存到excel中保存的case如下: import pandas as pd with pd.ExcelWriter('a.xls') as ...
pd.qcut, pd.cut, df.groupby()等在分组和聚合方面的应用
pd.qcut, pd.cut, df.groupby()等在分组和聚合方面的应用量化交易里, 需要进行大量的分组和统计, 以方便自己处优势的位置/机会. 比如对股价进行趋势分析, 波动性分析, 量 ...
Eventlog Analyzer日志管理系统、日志分析工具、日志服务器的功能及作用
Eventlog Analyzer日志管理系统.日志分析工具.日志服务器的功能及作用 Eventlog Analyzer是用来分析和审计系统及事件日志的管理软件,能够对全网范围内的主机.服务器.网络设 ...
pandas.DataFrame——pd数据框的简单认识、存csv文件
接着前天的豆瓣书单信息爬取,这一篇文章看一下利用pandas完成对数据的存储. 回想一下我们当时在最后得到了六个列表:img_urls, titles, ratings, authors, detai ...
Pandas | 08 重建索引
重新索引会更改DataFrame的行标签和列标签. 可以通过索引来实现多个操作: 重新排序现有数据以匹配一组新的标签. 在没有标签数据的标签位置插入缺失值(NA)标记. import pandas a ...
4G DTU模块的功能和作用是什么
4G DTU模块我们可以简单将它理解为使用4G无线通信网络来进行远距离无线传送的终端设备.4G DTU模块基于4G方式进行远距离的数据传输,是专门用于将串口数据转换为IP数据或将IP数据转换为串口数据 ...
css clip样式属性功能及作用
clip clip 在学前端的小伙伴前,估计是很少用到的,代码中也是很少看见的,但是,样式中有这样的代码,下面让我们来讲讲他吧! 这个我也做了很久的开发没碰到过这个属性,知道我在一个项目中,有一个功能 ...
Java中this的功能与作用
粗粒度上来说,Java中关键字this主要有2个功能: 1.表示“当前对象”的引用 (1)作为参数传入 [程序实例1] public class MyObject { public Integer v ...

随机推荐

[Web] How to Test React and MobX with Jest
转载自: https://semaphoreci.com/community/tutorials/how-to-test-react-and-mobx-with-jest?utm_content=bu ...
C# 序列化与反序列化Serialization之Json Xml Binary Soap JavaScript序列化
所谓的序列化其实就是把一个内存中的对象信息转化成一个可以持久化保存的形式,方便保存数据库和文件或着用于传输, 序列化的主要作用是不同平台之间进行通信与信息的传递保存等,常用的有序列化有Json Xml ...
修改jar包中的文件
1.用WinRAR压缩软件打开jar包 2.将修改过的文件直接拖拽并覆盖被替换的文件即可
浅析String.intern()方法
1.String类型“==”比较样例代码如下:package com.luna.test;public class StringTest { public static void main(Strin ...
MQTT研究之EMQ：【EMQX使用中的一些问题记录（1）】
issue 1. EMQX的共享订阅 EMQX是一个非常强大的物联网通信消息总线,基于EMQX开展应用开发,要注意很多配置细节问题,这里要说到的就是共享订阅以及和cleanSession之间的关系问题 ...
Idea导入maven项目没有识别
选中module的pom.xml,右键,选择" add as maven project",idea会识别该pom的项目
在OpenShift 3.11环境开启多网络平面
1.整体架构 Multus CNI是OpenShift的容器网络接口(CNI)插件,可将多个网络接口附加到Pod. 通常,在OpenShift中,每个Pod仅具有一个网络接口(除了回送),Multus ...
仿简书MarkDown编辑器可同步滚动
模仿简书的MarkDown编辑器,使用Angular8写的示例 1.支持同步滚动编辑的过程中,右侧预览界面会同步滚动.滚动右侧预览界面,左侧编辑区也会同步滚动哦 2.支持语法高亮如下: using ...
【计算机视觉基础】IPM
IPM code #if 0 void xyp2ipmp(cv::Mat& xyp, cv::Mat& ipmp, cv::Mat& xylim, Size& sz){ ...
linux安装jira
JIRA配置本地MYSQL数据库 https://blog.csdn.net/coin_one/article/details/78376238 jira7.3.6 linux安装及破解 https: ...

pandas-08 pd.cut()的功能和作用

pandas-08 pd.cut()的功能和作用

pandas-08 pd.cut()的功能和作用的更多相关文章

随机推荐

热门专题