pandas_数据拆分与合并

import pandas as pd

import numpy as np

# 读取全部数据，使用默认索引

data = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx')

# 修改异常值

data.loc[data.交易额 > 3000,'交易额'] = 3000

data.loc[data.交易额 < 200,'交易额'] = 200

# 删除重复值

data.drop_duplicates(inplace = True)

#   inplace 表示对源数据也进行修改

# 填充缺失值

data['交易额'].fillna(data['交易额'].mean(),inplace = True)

# 使用交叉表得到每人在各柜台交易额的平均值

data_group = pd.crosstab(data.姓名,data.柜台,data.交易额,aggfunc = 'mean').apply(round)

# 绘制柱状图

data_group.plot(kind = 'bar')

# <matplotlib.axes._subplots.AxesSubplot object at 0x000001D681607888>

#  数据的合并

data1 = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx')

data2 = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx',sheet_name = 'Sheet2')

df1 = data1[:3]

'''

     工号  姓名        日期           时段   交易额   柜台

0  1001  张三  20190301   9:00-14:00  2000  化妆品

1  1002  李四  20190301  14:00-21:00  1800  化妆品

2  1003  王五  20190301   9:00-14:00   800   食品

'''

df2 = data2[:4]

'''

     工号  姓名        日期           时段   交易额    柜台

0  1006  钱八  20190301   9:00-14:00   850  蔬菜水果

1  1001  张三  20190302  14:00-21:00   600  蔬菜水果

2  1001  张三  20190302   9:00-14:00  1300   化妆品

3  1002  李四  20190302  14:00-21:00  1500   化妆品

'''

# 使用 concat 连接两个相同结构的 DataFrame 对象

df3 = pd.concat([df1,df2])

'''

     工号  姓名        日期           时段   交易额    柜台

0  1001  张三  20190301   9:00-14:00  2000   化妆品

1  1002  李四  20190301  14:00-21:00  1800   化妆品

2  1003  王五  20190301   9:00-14:00   800    食品

0  1006  钱八  20190301   9:00-14:00   850  蔬菜水果

1  1001  张三  20190302  14:00-21:00   600  蔬菜水果

2  1001  张三  20190302   9:00-14:00  1300   化妆品

3  1002  李四  20190302  14:00-21:00  1500   化妆品

'''

# 合并，忽略原来的索引 ignore_index

df4 = df3.append([df1,df2],ignore_index = True)

'''

      工号  姓名        日期           时段   交易额    柜台

0   1001  张三  20190301   9:00-14:00  2000   化妆品

1   1002  李四  20190301  14:00-21:00  1800   化妆品

2   1003  王五  20190301   9:00-14:00   800    食品

3   1006  钱八  20190301   9:00-14:00   850  蔬菜水果

4   1001  张三  20190302  14:00-21:00   600  蔬菜水果

5   1001  张三  20190302   9:00-14:00  1300   化妆品

6   1002  李四  20190302  14:00-21:00  1500   化妆品

7   1001  张三  20190301   9:00-14:00  2000   化妆品

8   1002  李四  20190301  14:00-21:00  1800   化妆品

9   1003  王五  20190301   9:00-14:00   800    食品

10  1006  钱八  20190301   9:00-14:00   850  蔬菜水果

11  1001  张三  20190302  14:00-21:00   600  蔬菜水果

12  1001  张三  20190302   9:00-14:00  1300   化妆品

13  1002  李四  20190302  14:00-21:00  1500   化妆品

'''

# 按照列进行拆分

df5 = df4.loc[:,['姓名','柜台','交易额']]

# 查看前五条数据

df5[:5]

'''

   姓名    柜台   交易额

0  张三   化妆品  2000

1  李四   化妆品  1800

2  王五    食品   800

3  钱八  蔬菜水果   850

4  张三  蔬菜水果   600

'''

# 合并 merge 、 join

# 按照工号进行合并，随机查看 3 条数据

rows = np.random.randint(0,len(df5),3)

pd.merge(df4,df5).iloc[rows,:]

'''

      工号  姓名        日期           时段   交易额   柜台

7   1002  李四  20190301  14:00-21:00  1800  化妆品

4   1002  李四  20190301  14:00-21:00  1800  化妆品

10  1003  王五  20190301   9:00-14:00   800   食品

'''

# 按照工号进行合并，指定其他同名列的后缀

pd.merge(df1,df2,on = '工号',suffixes = ['_x','_y']).iloc[:,:]

'''

     工号 姓名_x      日期_x         时段_x  ...      日期_y         时段_y 交易额_y  柜台_y

0  1001   张三  20190301   9:00-14:00  ...  20190302  14:00-21:00   600  蔬菜水果

1  1001   张三  20190301   9:00-14:00  ...  20190302   9:00-14:00  1300   化妆品

2  1002   李四  20190301  14:00-21:00  ...  20190302  14:00-21:00  1500   化妆品

'''

# 两个表都设置工号为索引 set_index

df2.set_index('工号').join(df3.set_index('工号'),lsuffix = '_x',rsuffix = '_y').iloc[:]

'''

     姓名_x      日期_x         时段_x  交易额_x  ...      日期_y         时段_y  交易额_y  柜台_y

工号                                      ...

1001   张三  20190302  14:00-21:00    600  ...  20190301   9:00-14:00   2000   化妆品

1001   张三  20190302  14:00-21:00    600  ...  20190302  14:00-21:00    600  蔬菜水果

1001   张三  20190302  14:00-21:00    600  ...  20190302   9:00-14:00   1300   化妆品

1001   张三  20190302   9:00-14:00   1300  ...  20190301   9:00-14:00   2000   化妆品

1001   张三  20190302   9:00-14:00   1300  ...  20190302  14:00-21:00    600  蔬菜水果

1001   张三  20190302   9:00-14:00   1300  ...  20190302   9:00-14:00   1300   化妆品

1002   李四  20190302  14:00-21:00   1500  ...  20190301  14:00-21:00   1800   化妆品

1002   李四  20190302  14:00-21:00   1500  ...  20190302  14:00-21:00   1500   化妆品

1006   钱八  20190301   9:00-14:00    850  ...  20190301   9:00-14:00    850  蔬菜水果

'''

2020-05-07

pandas_数据拆分与合并的更多相关文章

Oracle_表数据拆分与合并
参考文档: [1]http://blog.itpub.net/8858072/viewspace-426960/ [2]http://blog.csdn.net/mattlinsheep/articl ...
(Sql Server)数据的拆分和合并
(Sql Server)数据的拆分和合并背景: 今天遇到了数据合并和拆分的问题,尝试了几种写法.但大致可分为两类:一.原始写法.二.Sql Server 2005之后支持的写法.第一种写法复杂而且效 ...
45.oracle表类型、数据拆分、表分区
不要做一些没有意义的事情,就比如说你要离职并不打算吃回头草,离职理由中完全没有必要说明“领导的水平太渣,人品太差”此类的原因,而是“个人原因”,当然实在不批准辞职另说. oracle表类型表的类型分 ...
NDK学习笔记-文件的拆分与合并
文件的拆分与合并在开发中经常会用到,上传或是下载的时候都有这样的运用文件拆分的思路将文件大小拆分为n个文件那么,每个文件的大小就是等大小的如果文件大小被n除不尽,那么就使用n+1个文件来拆分 ...
spss-数据抽取-拆分与合并
spss-数据抽取-拆分与合并数据抽取也成为数据拆分,是指保留.抽取原数据表中某些字段.记录的部分信息,形成一个新字段.新纪录.分为:字段拆分和随机抽样两种方法. 一:字段拆分如何提取" ...
【BIM】基于BIMFACE的空间拆分与合并
BIMFACE中矩形空间拆分与合并应用场景在BIM运维场景中,空间同设备一样,作为一种资产被纳入运维管理体系,典型的应用场景例如商铺.防火分区等,这就涉及到空间的拆分和合并,在bimface中,已 ...
利用SQl对数据库实行数据拆分与组合
利用SQl对数据库实行数据拆分与组合实现提供以下几种方案: 方法一: WITH CTE AS (SELECT A.Id,A.[Uid],UserName FROM (SELECT A.[id], RE ...
pdf拆分与合并
1.引用iTextSharp,用于拆分和合并pdf文件 using iTextSharp.text; using iTextSharp.text.pdf; 2.合并pdf //outMergeFile ...
fasta文件拆分与合并
Linux中fasta文件的拆分与合并 FASTA文件的拆分: (1)如果从一个文件a提取第11至20个序列存到另一个文件b: awk -v RS='>' 'NR>1{i++}i>= ...

随机推荐

Centos 6.4 安装Mplayer 播放器
1.Download the rpmforge-release package. URL1:x86_64.rmp URL2:tar.gz 推荐!!! 2.Install DAG's GPG ke ...
CSS3 nth-child的使用，详解css中nth的作用，以及nth-child的兼容写法
:nth-child是css3的一个比较常用的选择器.它用于匹配属于其父元素中的子元素,不论元素的类型. 它的参数可以是数字.关键词或公式.下面讲介绍它的使用方法, nth-child的使用 html ...
由VIP漂移引发的算法异常问题调查和解决
最近工作中的一个问题,耗时一个月之久终于调查完毕且顺利解决,顿时感慨万千.耗时之久和预期解决时间和环境搭建以及日志不合理等等有关,当然这个并非此文的重点.之所以在很久以后的今天又开始写文,主要是这个问 ...
MySQL 事务异常事务隔离的级别
MySQL 事务异常事务隔离的级别事务在你操作数据库的同时,有可能其他用户还会不断地对数据进行增删改查操作.为了避免并行进行时出现混乱,就产生了"事务".事务就是要保证 ...
elasticsearch 单节点搭建与爬坑记录
elasticsearch 单节点搭建与爬坑记录 prepare 虚拟机或者云服务器(这里用的是阿里云ECS) linux---centos7 安装完毕的jdk 相应的安装包(在https:/ ...
Netflix OSS套件一站式学习驿站
Netflix OSS是由Netflix公司主导开发的一套代码框架/库,目的是用于解决大规模集群的分布式系统的一连串问题,如:服务发现.负载均衡.熔断降级.限流.网关等.对于当代的Java开发者来说, ...
从零开始学Electron笔记（一）
前端技术在最近几年迅猛发展,在任何开发领域我们都能看到前端的身影,从PC端到手机端,从APP到小程序,似乎前端已经无所不能,这就要求我们需要不断地去学习来提升自己!前段时间尤大通过直播介绍了一下Vue ...
武科WUST-CTF2020“Tiki组 ”
赛事信息官网地址:https://ctfgame.w-ais.cn/参赛地址:https://ctfgame.w-ais.cn/起止时间:2020-03-27 18:00:00 - 2020-03- ...
NumPy基础知识图谱
所有内容整理自<利用Python进行数据分析>,使用MindMaster Pro 7.3制作,emmx格式,源文件已经上传Github,需要的同学转左上角自行下载.该图谱只是NumPy的基 ...
数据可视化之powerBI基础（十五）Power BI同步切片器，你知道怎么用吗？
https://zhuanlan.zhihu.com/p/67932754 在PowerBI报表中,切片器绝对是最常用的控件了,利用它可以进行各种维度的动态切换,同一个页面中的所有图表可以同步响应:利 ...

pandas_数据拆分与合并

pandas_数据拆分与合并的更多相关文章

随机推荐

热门专题