SPSS难吗?无非就是数据类型的区别后,就能理解应该用什么样的分析方法,对应着分析方法无非是找一些参考资料进行即可。甚至在线网页SPSS软件直接可以将数据分析结果指标人工智能地分析出来,这有多难呢?本文章将周老师(统计学专家)8年的数据分析经验浓缩,便于让不会数据分析的同学,在学习数据分析的过程中可以少走弯路,树立数据分析价值观,以及以数据进行决策的思维意识,并且可以快速的掌握数据分析。本文章分为四个板块进行说明,一是数据分析思维的培养。二是数据间的几类关系情况。三是数据分析方法的选择。四是数据研究的撰写等。

 

相对来讲,我们国家对于数据价值的重视是最近几年才开始,尤其是大数据时代的兴起,以及人工智能时代的国家战略情况。之前企业进行决策时基本均是凭借主观经验,老板的经验决定企业的成长,这也许叫做‘定性研究’较为适合,这种思路并没有错误。相对来讲,主观个人偏好性是这种经验意识的弊端,而数据思维是用真实的数据作为依据,相对来讲具有更强的科学客观性。但两种思维各有优缺点,数据还可以造假,以及人们还可能会错误的利用数据等。

但无论如何,西方的数据意识,以及数据价值客观存在。我们有必要对其进行重视。作为数据研究人员,首先需要确保的是对数据的敬仰,错误的数据绝对无法容忍,否则永远不会得出科学的结论。因而数据分析思维的素养第一层次即尊重数据。原始数据代表的意义,数据自身带来的属性等均应该逐一确认。

确认数据的真实准确性后,即完成数据清理后,可对数据类型进行区分,一切数据均可分为两种类型,包括定性和定量数据。如同’定性研究‘和’定量研究‘一样,定性数据是那些表示分类,通常使用百分比汇总,无法计算平均值的数据,比如性别,专业。性别仅为男和女,使用数字1和数字2表示,可以分别计算男和女的比例,但是不能算个平均分为1.2,得出性别平均为1.2这样的分析。

另外一种数据叫定量数据,定量数据是那些可以进行量化,通常使用平均值表示,比如年龄,身高,体重,满意度等。可以计算平均年龄,但通常不分分析每个年龄数字的选择百分比。

还有一类数据,其即可以计算百分比,也可以计算平均值,比如问卷研究中的满意度,数字1代表非常不满意,数字2代表比较不满意,数字3代表中立,数字4代表比较满意,数字5代表非常满意。这类数据可以计算各项的百分比,也可以计算平均值。具体此类数据如何应用,可结合实际情况进行即可,但通常的偏好是,如果可以看作为定量数据,则按照定量数据情况进行即可。

在基本的数据类型确认之后,接下来再讨论下数据研究的一些关系情况。如果是初学数据分析,常规的路径可能是开始理解数据算法的原理,然后就懂一个就去,接着再学习另外一个算法。这种方法是常规教科书式的学习路径,非常慢而且容易出现一个问题即懂了理论无法进行实践。

 

数据分析是挖掘数据间的关系情况,发现潜在的数据规律,找出数据后面潜在的商业价值等。本人将数据间的关系归纳汇总为以下三类。第一是差异关系;第二是相关关系。第三是其它关系。

第一类差异关系通常是研究不同类别的差异性,提到了不同类别,那就涉及到定性数据,差异关系可以包括定性和定量数据的差异性,定性和定性数据的差异性。自然地也就对应到几类研究方法。

第二类为相关关系。比如越如何越如何之类的关系。包括相关关系,还有影响关系等。X对于Y的影响关系情况如何等,此时影响关系又拆分出几种分析算法。

当然还有其它关系,比如数据的浓缩,聚类。此时又分涉及到对应的研究方法。

在进行数据研究时,首先需要想到的是“我想做什么?“,来回就只有三种关系,那么这种关系有着明显的区分性,对应确认关系情况,加上数据类型的判断,对应就会找出合理的数据研究方法。接下来一一概述。

 

上面两部分分别讲述了数据类型和数据关系情况。接着需要落地,即研究方法的使用。按照上一部分的思路,即三类关系情况进行阐述。

第一类为差异关系

· 定性和定性数据差异关系。比如性别和专业的差异关系,不同性别人群专业偏好上有没有差异呢?此时应该用卡方分析。

· 定性和定量数据差异关系。比如性别和身高的差异关系,不同性别人群身高有没有明显的差异性呢?此时应该用方差分析或者T检验。至于方差分析和T检验的区别上,比如性别为两类,则可以使用方差分析或者T检验;比如研究城市和身高的关系,一线,二线或者三线城市人群他们的身高有没有明显差异性。比较了三组人群,这时候只能用方差分析,不能用T检验。因为方差分析可以对比多组,而T检验只能对比两组。

· 定量数据和定量数据的差异。有时候做实验,比如新型教学方式的使用,在使用前和使用后,学生成绩有没有明显的变化呢?此时则应该使用配对T检验。配对T检验通常都是用于实验研究中,使用时相对需要注意下。

· 定量数据和数字的差异。比如中国人的平均身高是否明显的高于1.70。定量数据和一个数字的差异性,此时应该用单样本T检验。

· 当然还有其它一些研究方法,但先从基础的开始,懂了这些方法后,再逐一深入学习。明白了这几类差异关系,事实上已经理解一部分数据分析。比如差异关系研究时有时候会有非参数检验,这类研究都是和正态性,方差齐这两个名词紧密相关,后续的文章再慢慢剖析。

第二类为相关关系

· 定量和定量数据的相关关系。比如身高和体重之间有没有关系?此时则应该使用相关分析。至于相关分析,又可以再细分为pearson和spearman相关,这两类关系是结合数据正态性情况而定,正常情况下都默认使用pearson相关分析。

· 影响关系情况(X对Y的影响,Y为定量数据)。比如研究学历,年龄,收入,满意度等对于消费金额的影响。此时一般是使用回归分析,或者更多称作是线性回归分析。也有时候会使用到非线性回归分析,但这种情况相对较少。线性回归分析也可以再细分为2类,简单线性(一元线性)和多元线性,研究X对Y的影响,如果X仅为1个则称作简单线性(一元线性);如果X为多个,此时称作多元线性回归分析。如果Y的个数超过1个,可以多进行几次回归就好,更复杂的可以使用结构方程模型进行研究。线性回归时X可以为定性数据也可以为定量数据,如果是定性数据则需要进行虚拟变量(哑变量)设置。

· 影响关系情况(X对Y的影响,Y为定类数据)。比如研究学历,年龄,收入,满意度等对于是否购买iPhone X的影响。此时应该使用logistic回归分析。线性回归和logistic回归的区别在于,线性回归时,Y为定量数据;logistic回归分析时,Y是定类数据。当然logistic回归又区分为三类,分别是二元logistic回归,有序logistic回归,无序logistic回归;区别在于如果Y仅分为两类,比如愿意不愿意,购买不购买,喜欢不喜欢,此时Y只有2个类别则叫做二元logistic回归,此方法的使用频率非常高。比如Y分为三组分别是不喜欢,喜欢和喜欢,此时使用有序logistic回归(其实使用线性回归也是可以的,只是我们这里把Y当成是定类数据所以使用有序logistic回归而已);无序logistic回归时,Y一定是绝对的定性数据,比如出行方式的偏好(自行车,公共汽车,地铁,自驾),此时用无序logistic回归即可。

第三类为其它关系

实际情况中还会有比如数据的浓缩,样本的聚类等研究。

· 数据浓缩:比如说了20句话,是否可以把20句话概括归纳成4个词语表示呢?此时就应该用到数据浓缩,即使用因子分析(也或者主成分分析);以及记住,数据浓缩时,数据一定是定量数据。

· 样本聚类:比如游戏里面分了几种角色,游戏数据分析人员希望对收集到了1万个样本分成几类,便于进行游戏里面的角色定位。此时则需要使用聚类分析。

上述的方法选择,分别与数据关系,或者数据类型间的关联性思路。事实上与网页在线版本的SPSSAU(www.spssau.com),完全如出一辙。spssau即是使用这样的思路进行产品设计。确定好数据类型,理解了数据关系情况,即可选择出正确的数据研究方法。

 

如果已经理解了数据类型,数据关系,并且选择了正确的数据研究方法。最终无非是把数据研究方法得出的结论进行汇总整理,然后写成有逻辑性的报告,并且在结论基础上对应提出有意义有价值的建议措施等。

关于数据报告的撰写,单独从数据分析角度上看,建议以实际需求出发,比如研究差异关系,那么首先得需要知道有没有差异,接着有了差异,具体差异情况如何。有了差异或者没有差异时,对应的建议措施应该如何。按照这样的思路,相信数据研究报告的撰写并非难事。

如果是对具体数据研究方法的结论撰写有困难,可以直接使用spssau进行分析,直接参考里面的智能文字分析即可。以及需要特别注意在于,数据研究结论对应有什么意义,价值在哪里,对实际商业的价值或者指导在哪里?这才是重点。

快速掌握SPSS数据分析

快速掌握SPSS数据分析的更多相关文章

  1. SPSS数据分析方法不知道如何选择

      一提到数学,高等数学,线性代数,概率论与数理统计,数值分析,空间解析几何这些数学课程,头疼呀.作为文科生,遇见这些课程时,通常都是各种寻求帮助,班上有位宅男数学很厉害,各种被女生‘围观’,这数学为 ...

  2. 快速入门 Python 数据分析实用指南

    Python 现如今已成为数据分析和数据科学使用上的标准语言和标准平台之一.那么作为一个新手小白,该如何快速入门 Python 数据分析呢? 下面根据数据分析的一般工作流程,梳理了相关知识技能以及学习 ...

  3. SPSS数据分析—聚类分析

    多元分析的主要思想之一就是降维,我们已经讲过了很多降维的方法,例如因子分析.主成分分析,多维尺度分析等,还有一种重要的降维方法,就是聚类分析. 聚类分析实质上就是按照距离远近将数据分成若干个类别,使得 ...

  4. SPSS数据分析—多维尺度分析

    在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大.而我们的分析目的也 ...

  5. 快速学习 Python 数据分析包 之 pandas

    最近在看时间序列分析的一些东西,中间普遍用到一个叫pandas的包,因此单独拿出时间来进行学习. 参见 pandas 官方文档 http://pandas.pydata.org/pandas-docs ...

  6. 交完论文才发现spss数据分析做错了

    上周,终于把毕业论文交给导师了.然而,今天导师却邮件我,叫我到他办公室谈谈.具体是谈什么呢?我百思不得其解:对论文几次大修小修后,重复率已经低于学校的上限了,论文结构也很完整,我已经在做答辩的ppt了 ...

  7. SPSS数据分析—广义线性混合模型

    广义线性混合模型是目前线性模型范畴内最为完备的模型框架,它是广义线性模型的进一步延伸,进一步突破适用条件,因变量既 可以非正态,也可以非独立,由于其最为复杂,因此SPSS对其输出结果采用模型格式,而不 ...

  8. SPSS数据分析—广义线性模型

    我们前面介绍的一般线性模型.Logistic回归模型.对数线性模型.Poisson回归模型等,实际上均属于广义线性模型的范畴,广义 线性模型包含的范围非常广泛,原因在于其对于因变量.因变量的概率分布等 ...

  9. SPSS数据分析—对数线性模型

    我们之前讲Logistic回归模型的时候说过,分类数据在使用卡方检验的时候,当分类过多或者每个类别的水平数过多时,单元格会划分的非常细,有可能会导致大量单元格频数很小甚至为0,并且卡方检验虽然可以分析 ...

随机推荐

  1. windows上node开发注意事项

    windows上进行node.react开发的必要步骤: 1.使用nvm进行node及npm包管理工具,记得使用npm config set ...:2.另外react仅支持python3.0以下的版 ...

  2. http的无状态

    无状态协议是指协议对务处理没有记忆能力.缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大.另一方面,在服务器不需要先前信息时它的应答就较快. Http协议不 ...

  3. TIJ读书笔记-第21章-并发

    一本Think in java,从去年6月份开始读,读了快一年了,也快读完了,然而回头想想,却好像什么也不记得了,好记性不如烂笔头,那就从现在开始记录一下吧.由于现在在读的是并发,那就先从这章开始吧. ...

  4. [系列] Go - chan 通道

    目录 概述 声明 chan 写入 chan 读取 chan 关闭 chan 示例 推荐阅读 概述 原来分享基础语法的时候,还未分享过 chan 通道,这次把它补上. chan 可以理解为队列,遵循先进 ...

  5. MyBatis 核心配置综述之StatementHandler

    目录 MyBatis 核心配置综述之StatementHandler MyBatis 四大组件之StatementHandler StatementHandler 的基本构成 StatementHan ...

  6. JVM(二):画骨

    ### 概述 我们首先来认识一下`JVM`的运行时数据区域,如果说`JVM`是一个人,那么运行时数据区域就是这个人的骨架,它支撑着JVM的运行,所以我们先来学习一下运行时数据区域的分类和简单介绍. # ...

  7. S2:.net

    1.net框架结构 主要包含公共语言运行时(CLR)和框架类库(.NET Framework 类库 ,FCL) 2.CLR 1.对于一个将要面向.NET平台进行开发的人来说,了解一下.NET平台的整 ...

  8. Asp.NetCore源码学习[2-1]:配置[Configuration]

    Asp.NetCore源码学习[2-1]:配置[Configuration] 在Asp. NetCore中,配置系统支持不同的配置源(文件.环境变量等),虽然有多种的配置源,但是最终提供给系统使用的只 ...

  9. 并发编程(4)——AbstractQueuedSynchronizer

    AQS 内部类Node 等待队列是CLH有锁队列的变体. waitStatus的几种状态: static final int CANCELLED = 1; /** waitStatus value t ...

  10. 【POJ - 2236】Wireless Network (并查集)

    Wireless Network 这接翻译了 Descriptions 地震发生在东南亚.ACM(亚洲合作医疗团队)已经与膝上电脑建立了无线网络,但是一次意外的余震袭击,网络中的所有计算机都被打破了. ...