今天,SPSSAU给大家带来[数据分析思维培养]系列课程。主要针对第一次接触数据分析,完全不懂分析的小白用户,或者懂一些简单方法但苦于没有分析思路,不知道如何规范化分析。

本文章为SPSSAU数据分析思维培养的第一篇文章。

想要进行科学的数据分析,正确的数据格式,以及正常的数据是最基本的。而且数据的准备和数据的理解,正是科学的数据分析思维必备条件之一。

想要准备好自己的数据,需要从以下六个方面进行处理:

第1点,是需要准备好正确的数据格式

第2点,在于对数据的基本处理,包括数据标签、数据编码和生成变量等

第3点,是一些分析方法需要的数据特殊格式准备

第4点,是数据异常值,或者无效样本数据的处理

第5点,是数据基本特征探索

第6点,是一些其它注意事项等

 

第1点,数据格式

在进行数据分析前,数据的准备是第一点,不论是使用数据库下载的数据,或者实验数据,也或者问卷调查数据,手工录入数据等。不论是直接从系统下载的原始数据,还是自己手工录入的数据,均需要按照数据分析思维的规范格式进行,否则任何软件都无法分析。

但通常情况下,很多人都会忽略此步骤,认识有了数据马上就可以分析,其实不然,准备数据和数据的基本处理也属于数据分析的范畴,而且正常情况下数据处理花的时间占比会超过50%,也即是说想完成一项分析,其实有超过50%的时间(多数情况下会是70%左右)都是在准备数据上。

接下来以例子说明下什么是正确的数据格式,首先看下常见的错误数据格式例子如下图:

 

上图为是最为常见的一种错误数据格式,手工录入到EXCEL里面的时候,非常的随意,想如何就如何。但一旦想进行分析的时候就会出错,那是由于EXCEL是表格软件,而不是数据分析软件,所以随意的格式都可以。

上图中出现了5个常见的问题,分别是:

第1:出现合并单元格,A1和A2这两个单元格合并,在分析的时候软件就不知道名字应该叫什么,所以直接无法上传到软件中;

第2:C1这个单元格本身是标识体重信息,但直接为空,分析软件可不知道空就是‘体重’的意思,这是非常明显的错误;

第3:A列里面为性别,但是数据非常不规范,男,男性,MALE这三个词语都是男,但是分析软件会认为这是3个不同的名词,这也可以很好的解释为什么‘填空题’这种杂乱无章的数据通常是无法分析的原因;

第4:B8这个格子里面为‘平均为175’,这是错误的。原因在于B列是标识身高信息,而不是平均身高信息,如果需要得到平均身高,让分析软件帮你计算就好;

第5:C7这个格式为‘无数据’,其实就是缺失数据,直接空着就好,否则分析软件会认为‘无数据’是一个数据信息。

上述已经列出常见的错误特征,接下来说明正确的数据格式如下:

 

规范的数据格式(可用于数据分析)应该是这样,第1行为‘标题’即具体名字,第2行起为具体的数据,且不能有合并单元格的情况,如果为空值即缺失值,直接不录入就好。并且数据信息需要规范,比如男,男性,MALE这三个词语都应该规范成‘男’。

任何的分析软件都应该提供规范的数据格式才能分析,以SPSSAU为例,其支持的数据格式说明如下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三种类型),SAV(SPSS格式等),使用SPSSAU右上角‘我的数据’上传数据后即成功导入了数据。

需要特别说明的一点是:数据分析软件事实上只认识数字,比如上例中的‘男’,‘女’,软件是不认识的,那么软件如何处理呢。它会自动把‘男’或‘女’用数字1或2进行表示,然后打上数字的标签,分析出来后数字1的时候就会显示成‘男’,数字2就会显示成‘女’。任何的机器原理上都只认识数字而不认识文字,全部都是将文字‘数字化’处理。因此接下来会进行一些数字标签,以及数据基本处理的说明。

除此之外还需要说明一点是:如果有多份数据,这是需要自己合并整理在一个EXCEL工作表里面才可以,分析软件是无法知道多份数据分别代表什么意思,需要自己手工将数据合并整理在一个工作表里面后才能进一步分析。

第2点,数据标签及编码处理等

上一点已经说明正确的数据之后,接下来说明下数据的基本处理,包括数据标签、数据编码和生成变量。关于数据处理相关的操作,SPSSAU截图如下:

 

完成正确的数据上传后,那么数字代表的意义是什么呢?比如数字1表示男,数字2表示女,这需要告诉软件才可以,这即是数据标签的功能,SPSSAU操作如下:

 

除了数据标签外,有时候还可能需要进行数据编码处理,比如希望对年龄分成3个组别,分别是20以下,20~30,30以上。此时就需要使用数据编码处理,如下图:

 

上图中显示,将0~20岁编码成数字1;20~30编码成数字2;30到100编码成数字3;当然至于数字1,2,3分别代表的意义,只有分析人员自己才知道,所以一般还需要使用数据标签功能去标识出数字1,2,3代表的意义。

 

很多时候还需要对数据生成变量处理,比如说对体重或者身高求对数处理,或者对数据开根号,取绝对值,求和,求平均值处理等,那么可使用SPSSAU生成变量功能,SPSSAU提供大约30类数据处理的功能基本上可以满足所有人的需求。当然有时候还需要更多的处理,可使用‘高级公式’自己输入公式处理即可。

在完成数据编码,生成变量之后,有可能会想对‘标题名称’修改或者删除掉多余项,此时可使用SPSSAU‘标题处理’功能即可。

第3点,分析方法数据格式

在完成正确的数据上传及数据处理后,通常就可以开始进行正常的分析了,绝大多数的分析都可以完成。但有的时候,个别研究方法对于数据格式是有特殊要求的,所以还需要按照其特征的数据格式要求进行准备数据,比如卡方检验时有时提供的是‘加权’数据格式,kappa一致性检验,模糊综合评价分析方法等特别分析方法时,对于数据的格式有特殊的要求,建议可直接查看SPSSAU帮助手册里面的案例数据格式,当然也可以直接使用SPSSAU的案例数据里面的格式模仿参考进行即可。

具体可在此页面查看SPSSAU的案例数据格式:https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html

第4点,数据异常或无效处理

对于上传后的数据,有时候会出现异常情况,比如正常男性成年人的身高是介于1.5~2米之间,但是如果出现一个数据为1.2米,那这种异常数据在分析之前是需要进行处理才可以,一般情况下是把该值直接设置成null值。SPSSAU操作如下:

 

也有的时候会对数据标识为无效样本,比如一份关于淘宝购物满意度的问卷,填写者全部都填写完全相同的答案,说明该样本没有认真填写,此时可将该样本设置为无效样本,SPSSAU操作如下图(将相同数字大于70%设置成无效样本):

 

第5点,数据基本特征探索

通常在分析前,还需要首先探索下数据的特征,看下数据是否有异常情况,大概看下数据的特征情况等,便于做到心中有数,比如正常男性成年人身高是介于1.5~2米之间,但数据中有没有异常值呢,通常可使用描述分析大概看下就好。如下图中最小值是1.69米,最大是1.82米,都是正常数据。

 

当然还可以查看一些更深入的数据指标,比如百分位数等,如下图:

 

另外也可以使用箱线图、或者散点图等看下是否有异常数据,SPSSAU可视化里面均有提供。

第6点,其它

数据的准备和清理是进行数据分析的第一步,而且正常情况下,此步骤占用了数据分析超过50%(大部分情况下是70%)的时间,但此步骤非常容易被普通用户忽略。

完成数据准备和基本的清理,数据异常,数据无效,以及数据特征探索之后,才能开始进入下一步,即正常的数据分析。否则后面分析发现有着异常数据或者无效数据,也或者错误的数据,那么中间所有的分析都会白费。

SPSSAU数据分析思维培养系列1:数据思维篇的更多相关文章

  1. SPSSAU数据分析思维培养系列4:数据可视化篇

    本文章为SPSSAU数据分析思维培养的第4期文章. 前3期内容分别讲述数据思维,分析方法和分析思路.本文讲述如何快速使用SPSSAU进行高质量作图,以及如何选择使用正确的图形. 本文分别从五个角度进行 ...

  2. SPSSAU数据分析思维培养系列3:分析思路篇

    本文章为SPSSAU数据分析思维培养的第3期文章. 上文讲解如何选择正确的分析方法,除了有正确的分析方法外,还需要把分析方法进行灵活运用.拿到一份数据,应该如何进行分析,总共有几个步骤,第一步第二步应 ...

  3. SPSSAU数据分析思维培养系列2:方法选择篇

    大家好!在上篇文章中,我们一起学习了如何[掌握正确的数据处理思维].在完成数据准备和清理工作后,就要进入到正式分析阶段,而选择什么样的数据分析方法进行分析是关键. 想要进行科学和系统化的数据分析,分析 ...

  4. SPSSAU数据分析思维培养系列3:分析思路

    本文章为SPSSAU数据分析思维培养的第3期文章. 上文讲解如何选择正确的分析方法,除了有正确的分析方法外,还需要把分析方法进行灵活运用.拿到一份数据,应该如何进行分析,总共有几个步骤,第一步第二步应 ...

  5. SPSSAU数据分析思维培养系列2:分析方法

    大家好!在上篇文章中,我们一起学习了如何掌握正确的数据处理思维(文章链接:https://www.cnblogs.com/spssau/p/12523530.html).在完成数据准备和清理工作后,就 ...

  6. AI佳作解读系列(四)——数据增强篇

    前言 在深度学习的应用过程中,数据的重要性不言而喻.继上篇介绍了数据合成(个人认为其在某种程度上可被看成一种数据增强方法)这个主题后,本篇聚焦于数据增强来介绍几篇杰作! (1)NanoNets : H ...

  7. python 抓取金融数据,pandas进行数据分析并可视化系列 (一)

    终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说. 今天这篇写的是明白需求 ...

  8. Data - 数据思维

    数据思维 数据思维全解析 如何建立数据分析的思维框架 做数据分析时,你的方法论是什么? 数据分析全流程资料,适合各路人马 百度内部培训资料PPT:数据分析的道与术 学会数据分析背后的挖掘思维,分析就完 ...

  9. 技术管理进阶——技术Leader需要数据思维

    原创不易,求分享.求一键三连 假设我长得很漂亮,拥有众多追求者,但是初出闺房的我对这世界上的男人毫无认知,那么该如何选择呢?这真是一个问题! 妈妈说,愿意为我花钱的男人未必爱我,但不愿意为我花钱的男人 ...

随机推荐

  1. Oracle DataGuard故障转移(failover)后使用RMAN还原失败的主库

    (一)DG故障转移后切换为备库的方法 在DG执行故障转移之后,主库与从库的关系就被破坏了.这个时候如果要恢复主从关系,可以使用下面的3种方法: 将失败的主库重新搭建为备库,该方法比较耗时: 使用数据库 ...

  2. PHP array_pop() 函数

    实例 删除数组中的最后一个元素: <?php$a=array("red","green","blue");array_pop($a); ...

  3. Python time localtime()方法

    描述 Python time localtime() 函数类似gmtime(),作用是格式化时间戳为本地的时间.高佣联盟 www.cgewang.com 如果sec参数未输入,则以当前时间为转换标准. ...

  4. Python 字典(Dictionary) fromkeys()方法

    描述 Python 字典 fromkeys() 函数用于创建一个新字典,以序列 seq 中元素做字典的键,value 为字典所有键对应的初始值.高佣联盟 www.cgewang.com 语法 from ...

  5. PHP serialize() 函数

    serialize() 函数用于序列化对象或数组,并返回一个字符串.高佣联盟 www.cgewang.com serialize() 函数序列化对象后,可以很方便的将它传递给其他需要它的地方,且其类型 ...

  6. PHP print() 函数

    实例 输出一些文本: <?php print "Hello world!"; ?>高佣联盟 www.cgewang.com 定义和用法 print() 函数输出一个或多 ...

  7. luogu P1446 [HNOI2008]Cards burnside引理 置换 不动点

    LINK:Cards 不太会burnside引理 而这道题则是一个应用. 首先 一个非常舒服的地方是这道题给出了m个本质不同的置换 然后带上单位置换就是m+1个置换. burnside引理: 其中D( ...

  8. log4j2 自动删除过期日志文件配置及实现原理解析

    日志文件自动删除功能必不可少,当然你可以让运维去做这事,只是这不地道.而日志组件是一个必备组件,让其多做一件删除的工作,无可厚非.本文就来探讨下 log4j 的日志文件自动删除实现吧. 0. 自动删除 ...

  9. Linux 如何以管理员身份运行终端

    如何以管理员身份在终端执行指令: 目录 如何以管理员身份在终端执行指令: 1. 以sudo 指令在其他指令前加上sudo 2. 以su 进入root权限,以管理员方式执行命令 设置root初始密码: ...

  10. MapReduce之自定义OutputFormat

    @ 目录 OutputFormat接口实现类 自定义OutputFormat使用场景及步骤 使用场景 自定义OutputFormat 案例实操 OutputFormat接口实现类 OutputForm ...