SPSSAU数据分析思维培养系列1:数据思维篇
今天,SPSSAU给大家带来[数据分析思维培养]系列课程。主要针对第一次接触数据分析,完全不懂分析的小白用户,或者懂一些简单方法但苦于没有分析思路,不知道如何规范化分析。
本文章为SPSSAU数据分析思维培养的第一篇文章。
想要进行科学的数据分析,正确的数据格式,以及正常的数据是最基本的。而且数据的准备和数据的理解,正是科学的数据分析思维必备条件之一。
想要准备好自己的数据,需要从以下六个方面进行处理:
第1点,是需要准备好正确的数据格式
第2点,在于对数据的基本处理,包括数据标签、数据编码和生成变量等
第3点,是一些分析方法需要的数据特殊格式准备
第4点,是数据异常值,或者无效样本数据的处理
第5点,是数据基本特征探索
第6点,是一些其它注意事项等

第1点,数据格式
在进行数据分析前,数据的准备是第一点,不论是使用数据库下载的数据,或者实验数据,也或者问卷调查数据,手工录入数据等。不论是直接从系统下载的原始数据,还是自己手工录入的数据,均需要按照数据分析思维的规范格式进行,否则任何软件都无法分析。
但通常情况下,很多人都会忽略此步骤,认识有了数据马上就可以分析,其实不然,准备数据和数据的基本处理也属于数据分析的范畴,而且正常情况下数据处理花的时间占比会超过50%,也即是说想完成一项分析,其实有超过50%的时间(多数情况下会是70%左右)都是在准备数据上。
接下来以例子说明下什么是正确的数据格式,首先看下常见的错误数据格式例子如下图:

上图为是最为常见的一种错误数据格式,手工录入到EXCEL里面的时候,非常的随意,想如何就如何。但一旦想进行分析的时候就会出错,那是由于EXCEL是表格软件,而不是数据分析软件,所以随意的格式都可以。
上图中出现了5个常见的问题,分别是:
第1:出现合并单元格,A1和A2这两个单元格合并,在分析的时候软件就不知道名字应该叫什么,所以直接无法上传到软件中;
第2:C1这个单元格本身是标识体重信息,但直接为空,分析软件可不知道空就是‘体重’的意思,这是非常明显的错误;
第3:A列里面为性别,但是数据非常不规范,男,男性,MALE这三个词语都是男,但是分析软件会认为这是3个不同的名词,这也可以很好的解释为什么‘填空题’这种杂乱无章的数据通常是无法分析的原因;
第4:B8这个格子里面为‘平均为175’,这是错误的。原因在于B列是标识身高信息,而不是平均身高信息,如果需要得到平均身高,让分析软件帮你计算就好;
第5:C7这个格式为‘无数据’,其实就是缺失数据,直接空着就好,否则分析软件会认为‘无数据’是一个数据信息。
上述已经列出常见的错误特征,接下来说明正确的数据格式如下:

规范的数据格式(可用于数据分析)应该是这样,第1行为‘标题’即具体名字,第2行起为具体的数据,且不能有合并单元格的情况,如果为空值即缺失值,直接不录入就好。并且数据信息需要规范,比如男,男性,MALE这三个词语都应该规范成‘男’。
任何的分析软件都应该提供规范的数据格式才能分析,以SPSSAU为例,其支持的数据格式说明如下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三种类型),SAV(SPSS格式等),使用SPSSAU右上角‘我的数据’上传数据后即成功导入了数据。
需要特别说明的一点是:数据分析软件事实上只认识数字,比如上例中的‘男’,‘女’,软件是不认识的,那么软件如何处理呢。它会自动把‘男’或‘女’用数字1或2进行表示,然后打上数字的标签,分析出来后数字1的时候就会显示成‘男’,数字2就会显示成‘女’。任何的机器原理上都只认识数字而不认识文字,全部都是将文字‘数字化’处理。因此接下来会进行一些数字标签,以及数据基本处理的说明。
除此之外还需要说明一点是:如果有多份数据,这是需要自己合并整理在一个EXCEL工作表里面才可以,分析软件是无法知道多份数据分别代表什么意思,需要自己手工将数据合并整理在一个工作表里面后才能进一步分析。
第2点,数据标签及编码处理等
上一点已经说明正确的数据之后,接下来说明下数据的基本处理,包括数据标签、数据编码和生成变量。关于数据处理相关的操作,SPSSAU截图如下:

完成正确的数据上传后,那么数字代表的意义是什么呢?比如数字1表示男,数字2表示女,这需要告诉软件才可以,这即是数据标签的功能,SPSSAU操作如下:

除了数据标签外,有时候还可能需要进行数据编码处理,比如希望对年龄分成3个组别,分别是20以下,20~30,30以上。此时就需要使用数据编码处理,如下图:

上图中显示,将0~20岁编码成数字1;20~30编码成数字2;30到100编码成数字3;当然至于数字1,2,3分别代表的意义,只有分析人员自己才知道,所以一般还需要使用数据标签功能去标识出数字1,2,3代表的意义。

很多时候还需要对数据生成变量处理,比如说对体重或者身高求对数处理,或者对数据开根号,取绝对值,求和,求平均值处理等,那么可使用SPSSAU生成变量功能,SPSSAU提供大约30类数据处理的功能基本上可以满足所有人的需求。当然有时候还需要更多的处理,可使用‘高级公式’自己输入公式处理即可。
在完成数据编码,生成变量之后,有可能会想对‘标题名称’修改或者删除掉多余项,此时可使用SPSSAU‘标题处理’功能即可。
第3点,分析方法数据格式
在完成正确的数据上传及数据处理后,通常就可以开始进行正常的分析了,绝大多数的分析都可以完成。但有的时候,个别研究方法对于数据格式是有特殊要求的,所以还需要按照其特征的数据格式要求进行准备数据,比如卡方检验时有时提供的是‘加权’数据格式,kappa一致性检验,模糊综合评价分析方法等特别分析方法时,对于数据的格式有特殊的要求,建议可直接查看SPSSAU帮助手册里面的案例数据格式,当然也可以直接使用SPSSAU的案例数据里面的格式模仿参考进行即可。
具体可在此页面查看SPSSAU的案例数据格式:https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html
第4点,数据异常或无效处理
对于上传后的数据,有时候会出现异常情况,比如正常男性成年人的身高是介于1.5~2米之间,但是如果出现一个数据为1.2米,那这种异常数据在分析之前是需要进行处理才可以,一般情况下是把该值直接设置成null值。SPSSAU操作如下:

也有的时候会对数据标识为无效样本,比如一份关于淘宝购物满意度的问卷,填写者全部都填写完全相同的答案,说明该样本没有认真填写,此时可将该样本设置为无效样本,SPSSAU操作如下图(将相同数字大于70%设置成无效样本):

第5点,数据基本特征探索
通常在分析前,还需要首先探索下数据的特征,看下数据是否有异常情况,大概看下数据的特征情况等,便于做到心中有数,比如正常男性成年人身高是介于1.5~2米之间,但数据中有没有异常值呢,通常可使用描述分析大概看下就好。如下图中最小值是1.69米,最大是1.82米,都是正常数据。

当然还可以查看一些更深入的数据指标,比如百分位数等,如下图:

另外也可以使用箱线图、或者散点图等看下是否有异常数据,SPSSAU可视化里面均有提供。
第6点,其它
数据的准备和清理是进行数据分析的第一步,而且正常情况下,此步骤占用了数据分析超过50%(大部分情况下是70%)的时间,但此步骤非常容易被普通用户忽略。
完成数据准备和基本的清理,数据异常,数据无效,以及数据特征探索之后,才能开始进入下一步,即正常的数据分析。否则后面分析发现有着异常数据或者无效数据,也或者错误的数据,那么中间所有的分析都会白费。
SPSSAU数据分析思维培养系列1:数据思维篇的更多相关文章
- SPSSAU数据分析思维培养系列4:数据可视化篇
本文章为SPSSAU数据分析思维培养的第4期文章. 前3期内容分别讲述数据思维,分析方法和分析思路.本文讲述如何快速使用SPSSAU进行高质量作图,以及如何选择使用正确的图形. 本文分别从五个角度进行 ...
- SPSSAU数据分析思维培养系列3:分析思路篇
本文章为SPSSAU数据分析思维培养的第3期文章. 上文讲解如何选择正确的分析方法,除了有正确的分析方法外,还需要把分析方法进行灵活运用.拿到一份数据,应该如何进行分析,总共有几个步骤,第一步第二步应 ...
- SPSSAU数据分析思维培养系列2:方法选择篇
大家好!在上篇文章中,我们一起学习了如何[掌握正确的数据处理思维].在完成数据准备和清理工作后,就要进入到正式分析阶段,而选择什么样的数据分析方法进行分析是关键. 想要进行科学和系统化的数据分析,分析 ...
- SPSSAU数据分析思维培养系列3:分析思路
本文章为SPSSAU数据分析思维培养的第3期文章. 上文讲解如何选择正确的分析方法,除了有正确的分析方法外,还需要把分析方法进行灵活运用.拿到一份数据,应该如何进行分析,总共有几个步骤,第一步第二步应 ...
- SPSSAU数据分析思维培养系列2:分析方法
大家好!在上篇文章中,我们一起学习了如何掌握正确的数据处理思维(文章链接:https://www.cnblogs.com/spssau/p/12523530.html).在完成数据准备和清理工作后,就 ...
- AI佳作解读系列(四)——数据增强篇
前言 在深度学习的应用过程中,数据的重要性不言而喻.继上篇介绍了数据合成(个人认为其在某种程度上可被看成一种数据增强方法)这个主题后,本篇聚焦于数据增强来介绍几篇杰作! (1)NanoNets : H ...
- python 抓取金融数据,pandas进行数据分析并可视化系列 (一)
终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说. 今天这篇写的是明白需求 ...
- Data - 数据思维
数据思维 数据思维全解析 如何建立数据分析的思维框架 做数据分析时,你的方法论是什么? 数据分析全流程资料,适合各路人马 百度内部培训资料PPT:数据分析的道与术 学会数据分析背后的挖掘思维,分析就完 ...
- 技术管理进阶——技术Leader需要数据思维
原创不易,求分享.求一键三连 假设我长得很漂亮,拥有众多追求者,但是初出闺房的我对这世界上的男人毫无认知,那么该如何选择呢?这真是一个问题! 妈妈说,愿意为我花钱的男人未必爱我,但不愿意为我花钱的男人 ...
随机推荐
- Kaggle 入门题-泰坦尼克号灾难存活预测
这个题目的背景概况来讲就是基于泰坦尼克号这个事件,然后大量的人员不幸淹没在这个海难中,也有少部分人员在这次事件之中存活,然后这个问题提供了一些人员的信息如姓名.年龄.性别.票价,所在客舱等等一些信息, ...
- 爬虫管理平台以及wordpress本地搭建
爬虫管理平台以及wordpress本地搭建 学习目标: 各爬虫管理平台了解 scrapydweb gerapy crawlab 各爬虫管理平台的本地搭建 Windows下的wordpress搭建 爬虫 ...
- 爬取图虫网 示例网址 https://wangxu.tuchong.com/23892889/
#coding=gbk import requests from fake_useragent import UserAgent from lxml import etree import urlli ...
- Python字典内置函数和方法
Python字典内置函数和方法: 注:使用了 items.values.keys 返回的是可迭代对象,可以使用 list 转化为列表. len(字典名): 返回键的个数,即字典的长度 # len(字典 ...
- 线程_multiprocessing异步
from multiprocessing import Pool import time import os def test(): print("---进程池中的进程---pid=%d,p ...
- 什么是 PHP 过滤器?
PHP 过滤器 PHP 过滤器用于验证和过滤来自非安全来源的数据,比如用户的输入. 什么是 PHP 过滤器? PHP 过滤器用于验证和过滤来自非安全来源的数据. 测试.验证和过滤用户输入或自定义数据是 ...
- Python os.isatty() 方法
概述 os.isatty() 方法用于判断如果文件描述符fd是打开的,同时与tty(-like)设备相连,则返回true, 否则False.高佣联盟 www.cgewang.com 语法 isatty ...
- linux之FTP服务搭建 ( ftp文件传输协议 VSFTPd虚拟用户)
FTP服务搭建 配置实验之前关闭防火墙 iptables -F iptables -X iptables -Z systemctl stop firewalld setenforce 0 1.ftp简 ...
- 埋在MySQL数据库应用中的17个关键问题!
作者:扎瓦陈序元 来源:https://blog.csdn.net/weixin_42882439 MySQL的使用非常普遍,跟MySQL有关的话题也非常多,如性能优化.高可用性.强一致性.安全.备份 ...
- 【FZYZOJ】「Paladin」瀑布 题解(期望+递推)
题目描述 CX在Minecraft里建造了一个刷怪塔来杀僵尸.刷怪塔的是一个极高极高的空中浮塔,边缘是瀑布.如果僵尸被冲入瀑布中,就会掉下浮塔摔死.浮塔每天只能工作 $t$秒,刷怪笼只能生成 $N$ ...