pandas_处理异常值缺失值重复值数据差分

# 处理异常值缺失值重复值数据差分

import pandas as pd

import numpy as np

import copy

# 设置列对齐

pd.set_option("display.unicode.ambiguous_as_wide",True)

pd.set_option("display.unicode.east_asian_width",True)

# 异常值

# 读取工号姓名时段交易额，使用默认索引

dataframe = pd.read_excel(r'C:\Users\lenovo\Desktop\总结\Python\超市营业额.xlsx')

# 查看交易额低于 2000 的三条数据

# dataframe[dataframe.交易额 < 2000]

dataframe[dataframe.交易额 < 2000][:3]

'''

   工号  姓名      日期         时段  交易额    柜台

1  1002  李四  20190301  14:00-21:00    1800  化妆品

2  1003  王五  20190301   9:00-14:00     800    食品

3  1004  赵六  20190301  14:00-21:00    1100    食品

'''

# 查看上浮了 50% 之后依旧低于 1500 的交易额,查看 4 条数据

dataframe.loc[dataframe.交易额 < 1500,'交易额'] = dataframe[dataframe.交易额 < 1500]['交易额'].map(lambda num:num*1.5)

dataframe[dataframe.交易额 < 1500][:4]

'''

    工号  姓名      日期         时段  交易额      柜台

2   1003  王五  20190301   9:00-14:00  1200.0      食品

4   1005  周七  20190301   9:00-14:00   900.0    日用品

5   1006  钱八  20190301  14:00-21:00  1050.0    日用品

6   1006  钱八  20190301   9:00-14:00  1275.0  蔬菜水果

'''

# 查看交易额大于 2500 的数据

dataframe[dataframe.交易额 > 2500]

'''

Empty DataFrame

Columns: [工号, 姓名, 日期, 时段, 交易额, 柜台]

Index: []

'''

# 查看交易额低于 900 或 高于 1800 的数据

dataframe[(dataframe.交易额 < 900)|(dataframe.交易额 > 1800)]

'''

    工号  姓名      日期        时段  交易额    柜台

0   1001  张三  20190301  9:00-14:00  2000.0  化妆品

8   1001  张三  20190302  9:00-14:00  1950.0  化妆品

12  1005  周七  20190302  9:00-14:00   870.0  日用品

16  1001  张三  20190303  9:00-14:00  1950.0  化妆品

'''

#  将所有低于 200 的交易额都替换成 200

dataframe.loc[dataframe.交易额 < 200,'交易额'] = 200

# 查看低于 1500 的交易额个数

dataframe.loc[dataframe.交易额 < 1500,'交易额'].count()

#

# 将大于 3000 元的都替换为 3000 元

dataframe.loc[dataframe.交易额 > 3000,'交易额'] = 3000

# 缺失值

# 查看有多少行数据

len(dataframe)

#

# 丢弃缺失值之后的行数

len(dataframe.dropna())

#

# 包含缺失值的行

dataframe[dataframe['交易额'].isnull()]

'''

Empty DataFrame

Columns: [工号, 姓名, 日期, 时段, 交易额, 柜台]

Index: []

'''

# 使用固定值替换缺失值

# dff = copy.deepcopy(dataframe)

# dff.loc[dff.交易额.isnull(),'交易额'] = 999

# 将缺失值设定为 999

# dff.iloc[[1,4,17],:]

# 使用交易额的均值替换缺失值

# dff = copy.deepcopy(dataframe)

# for i in dff[dff.交易额.isnull()].index:

#     dff.loc[i,'交易额'] = round(dff.loc[dff.姓名 == dff.loc[i,'姓名'],'交易额'].mean())

# dff.iloc[[1,4,17],:]

# 使用整体均值的 80% 填充缺失值

# dataframe.fillna({'交易额':round(dataframe['交易额'].mean() * 0.8)},inplace = True)

# dataframe.iloc[[1,4,16],:]

# 重复值

dataframe[dataframe.duplicated()]

'''

Empty DataFrame

Columns: [工号, 姓名, 日期, 时段, 交易额, 柜台]

Index: []

'''

# dff = dataframe[['工号','姓名','日期','交易额']]

# dff = dff[dff.duplicated()]

# for row in dff.values:

#     df[(df.工号 == row[0]) & (df.日期 == row[2]) &(df.交易额 == row[3])]

# 丢弃重复行

dataframe = dataframe.drop_duplicates()

# 查看是否有录入错误的工号和姓名

dff = dataframe[['工号','姓名']]

dff.drop_duplicates()

'''

   工号  姓名

0  1001  张三

1  1002  李四

2  1003  王五

3  1004  赵六

4  1005  周七

5  1006  钱八

'''

# 数据差分

# 查看员工业绩波动情况(每一天和昨天的数据作比较)

dff = dataframe.groupby(by = '日期').sum()['交易额'].diff()

'''

日期

20190301       NaN

20190302    1765.0

20190303   -9690.0

Name: 交易额, dtype: float64

'''

dff.map(lambda num:'%.2f'%(num))[:5]

'''

日期

20190301         nan

20190302     1765.00

20190303    -9690.00

Name: 交易额, dtype: object

'''

# 数据差分

# 查看张三的波动情况

dataframe[dataframe.姓名 == '张三'].groupby(by = '日期').sum()['交易额'].diff()[:5]

'''

日期

20190301      NaN

20190302    850.0

20190303   -900.0

Name: 交易额, dtype: float64

'''

2020-05-07

pandas_处理异常值缺失值重复值数据差分的更多相关文章

mysql 用sql 语句去掉某个字段重复值数据的方法
示例代码如下: create table tmp as select min(主键) as col1 from 去重表名 GROUP BY 去重字段; delete from 去重表名 where 主 ...
[Python] Pandas 对数据进行查找、替换、筛选、排序、重复值和缺失值处理
目录 1. 数据文件 2. 读数据 3. 查找数据 4. 替换数据 4.1 一对一替换 4.2 多对一替换 4.3 多对多替换 5. 插入数据 6. 删除数据 6.1 删除列 6.2 删除行 7. 处 ...
Python数据分析中对重复值、缺失值、空格的处理
对重复值的处理把数据结构中,行相同的数据只保留一行函数语法: drop_duplicates() from pandas import read_csv df = read_csv(文件位置) n ...
试验指标|试验单位|均方|随机模型|固定模型|字母标记法|LSR|q检验|LSD|重复值|弥补缺失数据|可加性|平方根转换|对数转换|反正弦转化
第五章方差分析试验指标是什么? 就是统计的测量值,eg:身高体重试验单位( experimental unit )是什么? 实验载体,比如一只小白鼠均方是什么? 就是方差随机模型的τ有何特点 ...
Mysql查询某字段值重复的数据
查询user表中,user_name字段值重复的数据及重复次数 select user_name,count(*) as count from user group by user_name havi ...
Mysql 查询表中某字段的重复值，删除重复值保留id最小的数据
1 查询重复值 ); 2 删除重复值 -- 创建临时表 ) ); -- 把重复数据放进临时表 INSERT Hb_Student_a SELECT id,studentNumber FROM Hb_S ...
innodb 自增列重复值问题
1 innodb 自增列出现重复值的问题先从问题入手,重现下这个bug use test; drop table t1; create table t1(id int auto_increment, ...
MySQL 处理插入过程中的主键唯一键重复值办法
200 ? "200px" : this.width)!important;} --> 介绍本篇文章主要介绍在插入数据到表中遇到键重复避免插入重复值的处理方法,主要涉及到I ...
使用aggregate在MongoDB中查找重复的数据记录
我们知道,MongoDB属于文档型数据库,其存储的文档类型都是JSON对象.正是由于这一特性,我们在Node.js中会经常使用MongoDB进行数据的存取.但由于Node.js是异步执行的,这就导致我 ...

随机推荐

手写SpringMVC框架（三）-------具体方法的实现
续接前文手写SpringMVC框架(二)结构开发设计本节我们来开始具体方法的代码实现. doLoadConfig()方法的开发思路:我们需要将contextConfigLocation路径读取过 ...
Spring中AOP相关的API及源码解析
Spring中AOP相关的API及源码解析本系列文章: 读源码,我们可以从第一行读起你知道Spring是怎么解析配置类的吗? 配置类为什么要添加@Configuration注解? 谈谈Spring ...
day68 form组件
目录一.自定义分页器的拷贝和使用二.Forms组件 1 前戏 2 form组件的基本功能 3 基本使用 4 基本方法 5 渲染标签 6 展示提示信息 7 钩子函数(HOOK) 8 forms组件其 ...
Windows配置Delve的测试环境
引言自己最近在玩Go,在开发一些项目的时候需要调试,由于之前都是在GoLand上写的,但是这个IDE启动太慢并且不轻便.并且自己之前很多项目都是在Vscode中编写的,所以特意想在Vscode中配置 ...
[系列] Go - json.Unmarshal 遇到的小坑
1.问题现象描述使用 json.Unmarshal(),反序列化时,出现了科学计数法,参考代码如下: jsonStr := `{"number":1234567}` result ...
批量删除当前文件夹下面的.svn文件夹
for /r . %%a in (.) do @if exist "%%a\.svn" rd /s /q "%%a\.svn 使用方法: 新建text文档,复制上面的文本 ...
一、python 基础之基础语法
一.变量命名规则 1.驼峰命名大驼峰 MyName = 'leon' 小驼峰 myName = 'Amy' 2.下划线命名 my_name = 'jack' 建议:变量名或者文件名使用下划线命名方式 ...
临时解决GitHub的raw.githubusercontent.com无法连接问题
http://qjzd.net:3000/topic/5e48cc33dcf06d6a181ffb81 查询真实IP 通过IPAddress.com首页,输入raw.githubusercontent ...
hihoCoder 1049 后序遍历最详细的解题报告
题目来源:后序遍历解题思路:开始时我只知道先通过先序.中序求出二叉树,然后再后序遍历二叉树,这当然也是一种解题思路,但是会做一些无用功,比如:计算二叉树.其实,可以直接通过先序序列和中序序列直接求出 ...
mysql中常见约束
#常见约束 /* 含义:一种限制,用于限制表中的数据,为了保证表中的数据的准确和可靠性分类:六大约束 NOT NULL:非空,用于保证该字段的值不能为空比如姓名.学号等 DEFAULT:默认,用于 ...

pandas_处理异常值缺失值重复值数据差分

pandas_处理异常值缺失值重复值数据差分的更多相关文章

随机推荐

热门专题