数据准备<2>:数据质量检查-实战篇

上一篇文章：《数据质量检查-理论篇》主要介绍了数据质量检查的基本思路与方法，本文作为补充，从实战角度出发，总结一套基于Python的数据质量检查模板。

承接上文，仍然从重复值检查、缺失值检查、数据倾斜检查、异常值检查四方面进行描述。

1.环境介绍

版本：python2.7

工具：Spyder

开发人：hbsygfz

2.数据集介绍

数据集：dataset.xlsx

3.代码实现

3.1 导入相关库

import pandas as pd

###3.2 读取数据集

dataset = pd.read_excel("/labcenter/python/dataset.xlsx")

discColList = ['col4','col7']

contColList = ['col1','col2','col3','col5','col6']

###3.3 重复值检查
主要统计指标：重复记录数、字段唯一值数。

### (1)重复记录数

def dupRowsCheck(df):

    dupRows = df.duplicated().sum()

    return dupRows

### (2)字段唯一值数

def uiqColValCheck(df):

    # 记录数,变量数

    m,n = df.shape

    uiqDf = pd.DataFrame(index=df.columns,columns=['rows','uiqCnt'])

    uiqDf['rows'] = m

    for j in range(n):

        ser = df.iloc[:,j]

        name = df.columns[j]

        uiqCnt = len(ser.unique())

        uiqDf.loc[name,'uiqCnt'] = uiqCnt

    return uiqDf

执行与结果：

dupRowsCheck(dataset)

Out[95]: 0

uiqColValCheck(dataset)

Out[96]:

      rows uiqCnt

col1    10     10

col2    10      9

col3    10     10

col4    10      3

col5    10      9

col6    10      5

col7    10      2

###3.4 缺失值检查
主要统计指标：字段空值记录数。

def missingCheck(df):

    # 记录数,变量数

    m,n = df.shape

    rowsSer = pd.Series(index=df.columns)

    rowsSer.name = 'rows'

    # 空值记录数

    nullCntSer = df.isnull().sum()

    nullCntSer.name = 'nullCnt'

    # 合并结果

    missDf = pd.concat([rowsSer,nullCntSer],axis=1)

    missDf['rows'] = m

    return missDf

执行与结果：

missingCheck(dataset)

Out[97]:

      rows  nullCnt

col1    10        0

col2    10        1

col3    10        0

col4    10        0

col5    10        1

col6    10        0

col7    10        0

###3.5 数据倾斜检查
主要统计指标：记录数、类别个数、最大类别记录数、最大类别记录数占比。

def skewCheck(df,discList,contList,bins):

    # 离散型变量类别统计

    new_df1 = df[discList]

    skewDf1 = pd.DataFrame(index=discList,columns=['rows','classCnt','mostClassCnt','mostClassRio'])

    m1,n1 = new_df1.shape

    for j in range(n1):

        ser = new_df1.iloc[:,j]

        name = new_df1.columns[j]

        freqSer = pd.value_counts(ser)

        skewDf1.loc[name,'rows'] = m1

        skewDf1.loc[name,'classCnt'] = len(freqSer)

        skewDf1.loc[name,'mostClassCnt'] = freqSer[0]

        skewDf1.loc[name,'mostClassRio'] = freqSer[0] * 1.00 / m1

    # 连续型变量分箱统计

    new_df2 = df[contList]

    skewDf2 = pd.DataFrame(index=contList,columns=['rows','classCnt','mostClassCnt','mostClassRio'])

    m2,n2 = new_df2.shape

    for j in range(n2):

        ser = new_df2.iloc[:,j]

        name = new_df2.columns[j]

        freqSer = pd.value_counts(pd.cut(ser,bins))

        skewDf2.loc[name,'rows'] = m2

        skewDf2.loc[name,'classCnt'] = len(freqSer)

        skewDf2.loc[name,'mostClassCnt'] = freqSer[0]

        skewDf2.loc[name,'mostClassRio'] = freqSer[0] * 1.00 / m2

    # 合并结果

    skewDf = pd.concat([skewDf1,skewDf2],axis=0)

    return skewDf

执行与结果：

skewCheck(dataset,discColList,contColList,4)

Out[98]:

     rows classCnt mostClassCnt mostClassRio

col4   10        3            5          0.5

col7   10        2            6          0.6

col1   10        4            3          0.3

col2   10        4            3          0.3

col3   10        4            4          0.4

col5   10        4            3          0.3

col6   10        4            1          0.1

###3.6 异常值检查
主要统计指标：最大值、最小值、平均值、标准差、变异系数、大于平均值+3倍标准差的记录数、小于平均值-3倍标准差记录数、大于上四分位+1.5倍的四分位间距记录数、小于下四分位-1.5倍的四分位间距记录数、正值记录数、零值记录数、负值记录数。

### (1)异常值统计

def outCheck(df,contList):

    new_df = df[contList]

    resDf = new_df.describe()

    resDf.loc['cov'] = resDf.loc['std'] / resDf.loc['mean']     #计算变异系数

    resDf.loc['mean+3std'] = resDf.loc['mean'] + 3 * resDf.loc['std']  #计算平均值+3倍标准差

    resDf.loc['mean-3std'] = resDf.loc['mean'] - 3 * resDf.loc['std']  #计算平均值-3倍标准差

    resDf.loc['75%+1.5dist'] = resDf.loc['75%'] + 1.5 * (resDf.loc['75%'] - resDf.loc['25%'])  #计算上四分位+1.5倍的四分位间距

    resDf.loc['25%-1.5dist'] = resDf.loc['25%'] - 1.5 * (resDf.loc['75%'] - resDf.loc['25%'])  #计算下四分位-1.5倍的四分位间距

    # 3segma检查

    segmaSer1 = new_df[new_df > resDf.loc['mean+3std']].count()    #平均值+3倍标准差

    segmaSer1.name = 'above3SegmaCnt'

    segmaSer2 = new_df[new_df < resDf.loc['mean-3std']].count()    #平均值-3倍标准差

    segmaSer2.name = 'below3SegmaCnt'

    # 箱线图检查

    boxSer1 = new_df[new_df > resDf.loc['75%+1.5dist']].count()    #上四分位+1.5倍的四分位间距

    boxSer1.name = 'aboveBoxCnt'

    boxSer2 = new_df[new_df < resDf.loc['25%-1.5dist']].count()    #下四分位-1.5倍的四分位间距

    boxSer2.name = 'belowBoxCnt'

    # 合并结果

    outTmpDf1 = pd.concat([segmaSer1,segmaSer2,boxSer1,boxSer2],axis=1)

    outTmpDf2 = resDf.loc[['max','min','mean','std','cov']]

    outDf = pd.concat([outTmpDf2.T,outTmpDf1],axis=1)

    return outDf

### (2)正负分布检查

def distCheck(df,contList):

    new_df = df[contList]

    distDf = pd.DataFrame(index=contList,columns=['rows','posCnt','zeroCnt','negCnt'])

    m,n = new_df.shape

    for j in range(n):

        ser = new_df.iloc[:,j]

        name = new_df.columns[j]

        posCnt = ser[ser>0].count()

        zeroCnt = ser[ser==0].count()

        negCnt = ser[ser<0].count()

        distDf.loc[name,'rows'] = m

        distDf.loc[name,'posCnt'] = posCnt

        distDf.loc[name,'zeroCnt'] = zeroCnt

        distDf.loc[name,'negCnt'] = negCnt

    return distDf

执行与结果：

outCheck(dataset,contColList)

Out[101]:

           max    min        mean         std       cov  above3SegmaCnt  below3SegmaCnt  aboveBoxCnt  belowBoxCnt

col1  110.0000  101.0  105.500000    3.027650  0.028698               0               0            0            0

col2   58.0000   20.0   34.444444   11.959422  0.347209               0               0            1            0

col3  221.0000   10.0   87.700000   71.030588  0.809927               0               0            0            0

col5  598.0000    0.0  246.333333  235.303647  0.955225               0               0            0            0

col6    0.0115   -0.3   -0.027740    0.095759 -3.452026               0               0            2            1

distCheck(dataset,contColList)

Out[102]:

     rows posCnt zeroCnt negCnt

col1   10     10       0      0

col2   10      9       0      0

col3   10     10       0      0

col5   10      7       2      0

col6   10      3       6      1

数据准备<2>:数据质量检查-实战篇的更多相关文章

数据准备<5>:变量筛选-实战篇
在上一篇文章<数据准备<4>:变量筛选-理论篇>中,我们介绍了变量筛选的三种方法:基于经验的方法.基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(skl ...
数据准备<4>:变量筛选-理论篇
在上一篇文章<数据准备<3>:数据预处理>中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指 ...
数据准备<1>:数据质量检查-理论篇
数据行业有一句很经典的话--"垃圾进,垃圾出"(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没 ...
Scrapy实战篇（五）之爬取历史天气数据
本篇文章我们以抓取历史天气数据为例,简单说明数据抓取的两种方式: 1.一般简单或者较小量的数据需求,我们以requests(selenum)+beautiful的方式抓取数据 2.当我们需要的数据量较 ...
Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
《大数据实时计算引擎 Flink 实战与性能优化》新专栏
基于 Flink 1.9 讲解的专栏,涉及入门.概念.原理.实战.性能调优.系统案例的讲解. 专栏介绍扫码下面专栏二维码可以订阅该专栏首发地址:http://www.54tianzhisheng. ...
Wireshark数据抓包分析——网络协议篇
Wireshark数据抓包分析--网络协议篇 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZGF4dWViYQ==/ ...
Python数据抓取技术与实战 pdf
Python数据抓取技术与实战目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...
第六篇：R语言数据可视化之数据分布图（直方图、密度曲线、箱线图、等高线、2D密度图）
数据分布图简介中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方 ...

随机推荐

13 SQLiteOpenHelper SQLiteDatabase详解
创建数据库: 1. 创建一个类继承SQLiteOpenHelper 2. 创建继承对象 new SQLiteOpenHelper() 3. 用创建的对象获取可写或者可读的SQLiteDatabase ...
Shell脚本编程入门（一）
最近在学shell,记录一下. if语句的使用: 1.判断两个参数大小 #!/bin/sh #a test about if statement a=10 b=20 if [ $a -eq $b ]; ...
【安卓中的缓存策略系列】安卓缓存策略之磁盘缓存DiskLruCache
安卓中的缓存包括两种情况即内存缓存与磁盘缓存,其中内存缓存主要是使用LruCache这个类,其中内存缓存我在[安卓中的缓存策略系列]安卓缓存策略之内存缓存LruCache中已经进行过详细讲解,如看官还 ...
Collections类解析
最常用的排序: 需要实现Comparable接口 1.什么是Comparable接口此接口强行对实现它的每个类的对象进行整体排序.此排序被称为该类的自然排序 ,类的 compareTo 方法被称为它 ...
Socket接收器——Acceptor
Acceptor是JIoEndpoint的内部类,主要的职责就是监听是否有客户端套接字连接并接收socket,再将socket交由任务执行者(Executor)执行.不断从系统底层读取socket,接 ...
Andriod Studio科普篇——4.关于编译的常见问题
1.android支持库未安装编译不过,提示如下: Could not find any version that matches com.android.support:appcompat-v7: ...
Mpg123源代码详解
Mpg123与libmad一样,支持mpeg1,2,2.5音频解码.目前来看mpg123比libmad支持了网络播放功能.而且libmad基本上开源社区在2005年左右,基本停止更新,mpg123至今 ...
学习笔记6-Android查看应用输出的错误信息如何部署应用到真实手机发布软件
查看应用输出的错误信息 1. 通过LogCat窗口查看信息右上角图标可以筛选不同级别的信息(比如info等). 右上角的+可以进行信息筛选把应用部署到真实手机 1. 要把手机的 ...
java常用IO流集合用法模板
package com.fmy; import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import jav ...
Android性能优化之被忽视的优化点
对于性能优化这个知识点来说,实在是太广了,博主本人也一直非常关注这方面的学习,而对于性能优化来说它包括了非常非常非常多方面,比如:I/O的优化.网络操作的优化.内存的优化.数据结构的优化.代码层次的优 ...

数据准备<2>:数据质量检查-实战篇

1.环境介绍

2.数据集介绍

3.代码实现

3.1 导入相关库

数据准备<2>:数据质量检查-实战篇的更多相关文章

随机推荐

热门专题