pandas_数据拆分与合并

import pandas as pd

import numpy as np

# 读取全部数据，使用默认索引

data = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx')

# 修改异常值

data.loc[data.交易额 > 3000,'交易额'] = 3000

data.loc[data.交易额 < 200,'交易额'] = 200

# 删除重复值

data.drop_duplicates(inplace = True)

#   inplace 表示对源数据也进行修改

# 填充缺失值

data['交易额'].fillna(data['交易额'].mean(),inplace = True)

# 使用交叉表得到每人在各柜台交易额的平均值

data_group = pd.crosstab(data.姓名,data.柜台,data.交易额,aggfunc = 'mean').apply(round)

# 绘制柱状图

data_group.plot(kind = 'bar')

# <matplotlib.axes._subplots.AxesSubplot object at 0x000001D681607888>

#  数据的合并

data1 = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx')

data2 = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx',sheet_name = 'Sheet2')

df1 = data1[:3]

'''

     工号  姓名        日期           时段   交易额   柜台

0  1001  张三  20190301   9:00-14:00  2000  化妆品

1  1002  李四  20190301  14:00-21:00  1800  化妆品

2  1003  王五  20190301   9:00-14:00   800   食品

'''

df2 = data2[:4]

'''

     工号  姓名        日期           时段   交易额    柜台

0  1006  钱八  20190301   9:00-14:00   850  蔬菜水果

1  1001  张三  20190302  14:00-21:00   600  蔬菜水果

2  1001  张三  20190302   9:00-14:00  1300   化妆品

3  1002  李四  20190302  14:00-21:00  1500   化妆品

'''

# 使用 concat 连接两个相同结构的 DataFrame 对象

df3 = pd.concat([df1,df2])

'''

     工号  姓名        日期           时段   交易额    柜台

0  1001  张三  20190301   9:00-14:00  2000   化妆品

1  1002  李四  20190301  14:00-21:00  1800   化妆品

2  1003  王五  20190301   9:00-14:00   800    食品

0  1006  钱八  20190301   9:00-14:00   850  蔬菜水果

1  1001  张三  20190302  14:00-21:00   600  蔬菜水果

2  1001  张三  20190302   9:00-14:00  1300   化妆品

3  1002  李四  20190302  14:00-21:00  1500   化妆品

'''

# 合并，忽略原来的索引 ignore_index

df4 = df3.append([df1,df2],ignore_index = True)

'''

      工号  姓名        日期           时段   交易额    柜台

0   1001  张三  20190301   9:00-14:00  2000   化妆品

1   1002  李四  20190301  14:00-21:00  1800   化妆品

2   1003  王五  20190301   9:00-14:00   800    食品

3   1006  钱八  20190301   9:00-14:00   850  蔬菜水果

4   1001  张三  20190302  14:00-21:00   600  蔬菜水果

5   1001  张三  20190302   9:00-14:00  1300   化妆品

6   1002  李四  20190302  14:00-21:00  1500   化妆品

7   1001  张三  20190301   9:00-14:00  2000   化妆品

8   1002  李四  20190301  14:00-21:00  1800   化妆品

9   1003  王五  20190301   9:00-14:00   800    食品

10  1006  钱八  20190301   9:00-14:00   850  蔬菜水果

11  1001  张三  20190302  14:00-21:00   600  蔬菜水果

12  1001  张三  20190302   9:00-14:00  1300   化妆品

13  1002  李四  20190302  14:00-21:00  1500   化妆品

'''

# 按照列进行拆分

df5 = df4.loc[:,['姓名','柜台','交易额']]

# 查看前五条数据

df5[:5]

'''

   姓名    柜台   交易额

0  张三   化妆品  2000

1  李四   化妆品  1800

2  王五    食品   800

3  钱八  蔬菜水果   850

4  张三  蔬菜水果   600

'''

# 合并 merge 、 join

# 按照工号进行合并，随机查看 3 条数据

rows = np.random.randint(0,len(df5),3)

pd.merge(df4,df5).iloc[rows,:]

'''

      工号  姓名        日期           时段   交易额   柜台

7   1002  李四  20190301  14:00-21:00  1800  化妆品

4   1002  李四  20190301  14:00-21:00  1800  化妆品

10  1003  王五  20190301   9:00-14:00   800   食品

'''

# 按照工号进行合并，指定其他同名列的后缀

pd.merge(df1,df2,on = '工号',suffixes = ['_x','_y']).iloc[:,:]

'''

     工号 姓名_x      日期_x         时段_x  ...      日期_y         时段_y 交易额_y  柜台_y

0  1001   张三  20190301   9:00-14:00  ...  20190302  14:00-21:00   600  蔬菜水果

1  1001   张三  20190301   9:00-14:00  ...  20190302   9:00-14:00  1300   化妆品

2  1002   李四  20190301  14:00-21:00  ...  20190302  14:00-21:00  1500   化妆品

'''

# 两个表都设置工号为索引 set_index

df2.set_index('工号').join(df3.set_index('工号'),lsuffix = '_x',rsuffix = '_y').iloc[:]

'''

     姓名_x      日期_x         时段_x  交易额_x  ...      日期_y         时段_y  交易额_y  柜台_y

工号                                      ...

1001   张三  20190302  14:00-21:00    600  ...  20190301   9:00-14:00   2000   化妆品

1001   张三  20190302  14:00-21:00    600  ...  20190302  14:00-21:00    600  蔬菜水果

1001   张三  20190302  14:00-21:00    600  ...  20190302   9:00-14:00   1300   化妆品

1001   张三  20190302   9:00-14:00   1300  ...  20190301   9:00-14:00   2000   化妆品

1001   张三  20190302   9:00-14:00   1300  ...  20190302  14:00-21:00    600  蔬菜水果

1001   张三  20190302   9:00-14:00   1300  ...  20190302   9:00-14:00   1300   化妆品

1002   李四  20190302  14:00-21:00   1500  ...  20190301  14:00-21:00   1800   化妆品

1002   李四  20190302  14:00-21:00   1500  ...  20190302  14:00-21:00   1500   化妆品

1006   钱八  20190301   9:00-14:00    850  ...  20190301   9:00-14:00    850  蔬菜水果

'''

2020-05-07

pandas_数据拆分与合并的更多相关文章

Oracle_表数据拆分与合并
参考文档: [1]http://blog.itpub.net/8858072/viewspace-426960/ [2]http://blog.csdn.net/mattlinsheep/articl ...
(Sql Server)数据的拆分和合并
(Sql Server)数据的拆分和合并背景: 今天遇到了数据合并和拆分的问题,尝试了几种写法.但大致可分为两类:一.原始写法.二.Sql Server 2005之后支持的写法.第一种写法复杂而且效 ...
45.oracle表类型、数据拆分、表分区
不要做一些没有意义的事情,就比如说你要离职并不打算吃回头草,离职理由中完全没有必要说明“领导的水平太渣,人品太差”此类的原因,而是“个人原因”,当然实在不批准辞职另说. oracle表类型表的类型分 ...
NDK学习笔记-文件的拆分与合并
文件的拆分与合并在开发中经常会用到,上传或是下载的时候都有这样的运用文件拆分的思路将文件大小拆分为n个文件那么,每个文件的大小就是等大小的如果文件大小被n除不尽,那么就使用n+1个文件来拆分 ...
spss-数据抽取-拆分与合并
spss-数据抽取-拆分与合并数据抽取也成为数据拆分,是指保留.抽取原数据表中某些字段.记录的部分信息,形成一个新字段.新纪录.分为:字段拆分和随机抽样两种方法. 一:字段拆分如何提取" ...
【BIM】基于BIMFACE的空间拆分与合并
BIMFACE中矩形空间拆分与合并应用场景在BIM运维场景中,空间同设备一样,作为一种资产被纳入运维管理体系,典型的应用场景例如商铺.防火分区等,这就涉及到空间的拆分和合并,在bimface中,已 ...
利用SQl对数据库实行数据拆分与组合
利用SQl对数据库实行数据拆分与组合实现提供以下几种方案: 方法一: WITH CTE AS (SELECT A.Id,A.[Uid],UserName FROM (SELECT A.[id], RE ...
pdf拆分与合并
1.引用iTextSharp,用于拆分和合并pdf文件 using iTextSharp.text; using iTextSharp.text.pdf; 2.合并pdf //outMergeFile ...
fasta文件拆分与合并
Linux中fasta文件的拆分与合并 FASTA文件的拆分: (1)如果从一个文件a提取第11至20个序列存到另一个文件b: awk -v RS='>' 'NR>1{i++}i>= ...

随机推荐

阿里云centos7安装jdk8
1.准备Linux版本的jdk8直接上Oracle公司的官网下载就好了 http://www.oracle.com/technetwork/java/javase/downloads/jdk8- ...
vue安装及创建项目的几种方式
原文地址:https://www.wjcms.net/archives/vue安装及创建项目的几种方式 VUE安装的方式直接用 script标签引入对于制作原型或学习,你可以这样使用最新版本: ...
go实现爬虫
条件:1.第三方包github.com/tebeka/selenium,selenium自动化测试工具2.google驱动chromedriver.exe,要与本地浏览器的版本号对应,下载:http: ...
Poj 3613 Cow Relays （图论）
Poj 3613 Cow Relays (图论) 题目大意给出一个无向图,T条边,给出N,S,E,求S到E经过N条边的最短路径长度理论上讲就是给了有n条边限制的最短路 solution 最一开始想 ...
Zip破解工具Fcrackzip使用简介
0x00 fcrackzip简单介绍 fcrackzip是一款专门破解zip类型压缩文件密码的工具,工具小巧方便.破解速度快,能使用字典和指定字符集破解,适用于linux.mac osx 系统 0x0 ...
Python 默认参数关键词参数位置参数
def StudentInfo(country='中国', name): print('%s,%s' % (name, country)) StudentInfo('美国', '大卫') 上述代码报错 ...
数据可视化之powerBI技巧（二十二）利用这个方法，帮你搞定Power BI"增量刷新"
Power BI的增量刷新功能现在已经对Pro用户开通,但由于种种限制,很多人依然无法使用无这个功能,所以,每一次刷新,都要彻底更新数据集.这对于量级比较大的数据集来说,着实是一件耗费时间的事情. 拿 ...
Django框架06 /orm多表操作
Django框架06 /orm多表操作目录 Django框架06 /orm多表操作 1. admin相关操作 2. 创建模型 3. 增加 4. 删除 5. 修改 6. 基于对象的跨表查询 7. 基于 ...
从零开始学Electron笔记（五）
在之前的文章我们介绍了一下Electron的右键菜单的制作,接下来我们继续说一下Electron如何通过链接打开浏览器和嵌入网页. 现在有这样一个需求,我们要在我们的软件中加一个链接,然后点击该链接打 ...
bzoj3367[Usaco2004 Feb]The Big Game 球赛*
bzoj3367[Usaco2004 Feb]The Big Game 球赛题意: n只奶牛,每只支持两个球队中的一个,它们依次上车,上到一定程度可以开走这辆车并换下一辆继续上.要求一辆车上支持不同 ...

pandas_数据拆分与合并

pandas_数据拆分与合并的更多相关文章

随机推荐

热门专题