还记得上学那会老师专门敲了黑板,强调方差分析很重要。。单因素方差分析(Analysis of Variance, ANOVA),如果变量多,就是多因素方差分析,还需要考虑到多重共线性,

也就是线性代数里的那些知识了。

现在写paper,基本上要用两种不同的方法做数据分析相互验证。比如用R和SPSS或者SAS,DPS之类。

但不论用什么方法,基本原理都是一样的,结果应该也一样。

首先,做方差分析的三大前提条件:

1.独立性

各样本必须是相互独立的随机样本

样本含量尽可能相等或相差不大

2.正态性

样本的总体符合正态分布,偏态分布不适用于方差分析,对偏态分布应考虑用对数转换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态分布后再进行方差分析

3.方差齐性

各组样本具有相同的方差

接下来,就比较简单了。

把数据一拷贝,再选择线性回归,选择置信区间95%,就能的出结果啦

但是如果不满足方差齐性,需要勾选上tamhane

如果方差不齐,选择Tamhane选项。

2019-2-23更

又有同学问到了这个问题,方差分析和线性回归的区别

其实本质都是一样,

方差分析的用途,用来判定某个因素的多个水平处理对因变量的影响程度,比如说同种肥料的不同用量对作物的生长影响

见上图,通常,用于处理自变量都是离散的情形,比如性别,年份,季节,省份,当然连续变量也没问题,也可以做方差分析

核心思想是:组内方差和组间方差的比值,因为每个样本都是正态分布的话,恰好服从F分布,F分布也是个右偏分布,

假设组内差异和组件差异相等,F为1,然后求F值,也就是P值,当F值较大,P值较小时,拒绝原假设,也就是说因素显著地影响了因变量。

当自变量都是连续的,就可以直接用多元线性回归来分析了。此时,考虑到多重共线性,可以采用向前,向后逐步回归,当然一般的软件都给处理了,

同时他也做了方差分析,也就是哪个因素影响大,看P值就好了,哪个P值小,哪个因素就重要

当自变量都是连续,或者包含了离散值,但因变量是离散(二元),就用逻辑回归。逻辑回归实际上是个分类算法,另开一篇细说

2019-4-2更新,补一下spss做多因素方差分析的流程,spss有两个地方可以处理,一个是

第一个是针对自变量来说的,单个自变量的方差分析,第二个是针对因变量来说的,单个因变量,可以有多个自变量,适合做多因素方差分析

使用spss做方差分析的更多相关文章

  1. 用SPSS做时间序列

    用SPSS做时间序列 关于时间序列,有好多软件可以支持分析,大家比较熟悉的可能是EVIEWS.SPSS.还有STATA,具体用啥软件,结果都是一样的,但是SPSS作为一款学习简单,使用容易的软件还是值 ...

  2. 如何用SPSS做联合分析

    如何用SPSS做联合分析 如果产品的描述是由几个属性特征决定的,比如说mp3的音质.外形.容量.价格等等,商家为了确定哪个属性对消费者的影响最大,以及预测什么样的属性组合最受消费者的欢迎,选择的办法应 ...

  3. SPSS数据分析—单因素及多因素方差分析

    t检验可以解决单样本.两个样本时的均值比较问题,但是对于两个以上样本,就不能用t检验了,而要使用方差分析.t检验是借助t分布,方差分析是借助F分布,基于变异分解的思想进行. 在算法上,由于线性模型的引 ...

  4. SPSS数据分析—协方差分析

    我们在实际工作中为了准确的分析问题,经常会收集多个变量,这些变量之前存在相互影响,导致分析的因素混杂,影响分析结果,为了获得准确的实验效应,我们需要控制其中一些影响因变量的变量,这些变量称为就协变量, ...

  5. SPSS数据分析—相关分析

    相关系数是衡量变量之间相关程度的度量,也是很多分析的中的当中环节,SPSS做相关分析比较简单,主要是区别如何使用这些相关系数,如果不想定量的分析相关性的话,直接观察散点图也可以. 相关系数有一些需要注 ...

  6. 【数据分析 R语言实战】学习笔记 第八章 方差分析与R实现

    方差分析泛应用于商业.经济.医学.农业等诸多领域的数量分析研究中.例如商业广告宣传方面,广告效果可能会受广告式.地区规模.播放时段.播放频率等多个因素的影响,通过方差分析研究众多因素中,哪些是主要的以 ...

  7. SPSS分析技术:CMH检验(分层卡方检验);辛普森悖论,数据分析的谬误

    SPSS分析技术:CMH检验(分层卡方检验):辛普森悖论,数据分析的谬误 只涉及两个分类变量的卡方检验有些时候是很局限的,因为混杂因素总是存在,如果不考虑混杂因素,得出的分析结论很可能是谬误的,这就是 ...

  8. R数据分析:跟随top期刊手把手教你做一个临床预测模型

    临床预测模型也是大家比较感兴趣的,今天就带着大家看一篇临床预测模型的文章,并且用一个例子给大家过一遍做法. 这篇文章来自护理领域顶级期刊的文章,文章名在下面 Ballesta-Castillejos ...

  9. python数据分析入门学习笔记

    学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分 ...

随机推荐

  1. centOS 安装 Webmin

    http://www.webmin.com/rpm.html 修改配置文件在这里: /etc/webmin/miniserv.conf

  2. P2860 [USACO06JAN]冗余路径Redundant Paths tarjan

    题目链接 https://www.luogu.org/problemnew/show/P2860 思路 缩点,之后就成了个树一般的东西了 然后(叶子节点+1)/2就是答案,好像贪心的样子,lmc好像讲 ...

  3. HTTP协议请求类型介绍

    HTTP协议中共定义了八种方法或者叫"动作"来表明对Request-URI指定的资源的不同操作方式,具体介绍如下: OPTIONS: 返回服务器针对特定资源所支持的HTTP请求方法 ...

  4. oracle 之 伪列 rownum 和 rowid的用法与区别

    rownum的用法 select  rownum,empno,ename,job from emp where rownum<6 可以得到小于6的值数据 select rownum,empno, ...

  5. 论文笔记:Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

    Show, Attend and Tell: Neural Image Caption Generation with Visual Attention 2018-08-10 10:15:06 Pap ...

  6. 论文笔记:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

    Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 2017-10-25  16:38:23   [Proj ...

  7. 几个优化SQL查询的方法

    1.什么是执行计划 执行计划是数据库根据SQL语句和相关表的统计信息作出的一个查询方案,这个方案是由查询优化器自动分析产生的,比如一条SQL语句如果用来从一个 10万条记录的表中查1条记录,那查询优化 ...

  8. 【OData】使用Odata获取数据之后再次获取可能得不到最新的数据问题记录

    工作上遇到个问题是关于系统后台数据库更新了某数据后, 前台界面刷新显示的不是最新的数据.但是大约10分后再次刷新就能显示新的数据,或者重启IIS等web server host. 最开始认为可能是因为 ...

  9. Writing device drivers in Linux: A brief tutorial

    “Do you pine for the nice days of Minix-1.1, when men were men and wrote their own device drivers?”  ...

  10. mysql分区分表讲解

    为什么要分表和分区? 日常开发中我们经常会遇到大表的情况,所谓的大表是指存储了百万级乃至千万级条记录的表.这样的表过于庞大,导致数据库在查询和插入的时候耗时太长,性能低下,如果涉及联合查询的情况,性能 ...