本文简要的介绍了卡方分布、卡方概率密度函数和卡方检验,并通过SPSS实现了一个卡方检验例子,不仅对结果进行了解释,而且还给出了卡方、自由度和渐近显著性的计算过程。本文用到的数据"2.2.sav"链接为: https://url39.ctfile.com/f/2501739-875711187-f3dbb8?p=2096 (访问密码: 2096)

一.卡方分布

卡方分布是一种概率分布,若\(k\)个随机变量\(Z_1、......、Z_k\)是相互独立且符合标准正态分布的随机变量(数学期望为0、方差为1),那么随机变量\(Z\)的平方和\(X = \sum\limits_{i = 1}^k {Z_i^2}\)被称为服从自由度为\(k\)的卡方分布,记作:\(X \sim {\chi ^2}\left( k \right)\)。

二.卡方概率密度函数

卡方分布的概率密度函数为:

\[{f_x}\left( x \right) = \frac{1}{{{2^{\frac{k}{2}}}\Gamma \left( {\frac{k}{2}} \right)}}{x^{\frac{k}{2} - 1}}{e^{\frac{{ - x}}{2}}}
\]

其中,\(x \ge 0\),当\(x \le 0\)时\({f_x}\left( x \right) = 0\),\(\Gamma\)表示Gamma函数。

不同自由度情况下的卡方分布概率密度曲线图:



随着自由度\(k\)的增加,曲线逐渐趋于对称。当自由度\(k\)趋近于无穷时,卡方分布趋近正态分布。

三.卡方检验

卡方检验是非参数检验,以卡方分布为理论依据的假设检验方法,基本原理是通过样本的频数分布来推断总体是否服从某种理论分布。卡方检验的原假设为:样本所属总体的分布与理论分布之间不存在显著差异。卡方检验的检验统计量方程为:

\[{\chi ^2} = \sum\limits_{i = 1}^k {\frac{{{{\left( {{M_{oi}} - {M_{ei}}} \right)}^2}}}{{{M_{ei}}}}}
\]

\(\chi ^2\)统计量在大样本条件下逐渐服从自由度为\(k-1\)的卡方分布,\(M_{oi}\)表示观测频数,\(M_{ei}\)表示理论频数。\({\chi ^2}\)统计量越小,表示观测频数与理论频数越接近。如果小于由显著性水平和自由度确定的临界值,那么认为样本所属的总体分布与理论分布无显著差异。

四.卡方检验例子

实验目的:想知道不同年龄组的样本个数是否存在显著差异。如果\(p>0.05\),那么接受原假设,即不同年龄组的样本个数并不存在显著不同。

变量视图如下所示:



数据视图如下所示:



分析->非参数检验->旧对话框->卡方:



卡方检验结果如下所示:



重点说明下卡方、自由度和渐近显著性是如何计算的:

1.卡方计算

\[\frac{{{{\left( {45 - 50} \right)}^2}}}{{50}} + \frac{{{{\left( {51 - 50} \right)}^2}}}{{50}} + \frac{{{{\left( {52 - 50} \right)}^2}}}{{50}} + \frac{{{{\left( {52 - 50} \right)}^2}}}{{50}} = \frac{{25 + 1 + 4 + 4}}{{50}} = \frac{{34}}{{50}} = 0.68
\]

2.自由度计算

\(k-1\),\(k\)表示分类变量数。

3.渐近显著性计算

渐近显著性就是\(p\)值,\(p=1-F(卡方值,自由度)\)。使用Python代码计算:

from scipy.stats import chi2
# 第1个参数表示卡方值,第2个参数表示自由度
p = 1 - chi2.cdf(0.68, 3)
print(p) # 0.8778977619609463

在平时看的医学论文中,比较常见的场景是根据卡方检验来计算患者组和对照组的性别是否具有显著性差异:

参考文献:

[1]卡方分布:https://zh.wikipedia.org/zh-hans/卡方分布

[2]《SPSS统计分析入门与应用精解》

[3]卡方检验:https://www.ibm.com/docs/zh/spss-statistics/28.0.0?topic=tests-chi-square-test

[4]数据2.2.sav: https://url39.ctfile.com/f/2501739-875711187-f3dbb8?p=2096 (访问密码: 2096)

SPSS统计教程:卡方检验的更多相关文章

  1. SPSS详细教程:OR值的计算

    SPSS详细教程:OR值的计算 一.问题与数据 研究者想要探索人群中不同性别者喜欢竞技类或娱乐性体育活动是否有差异.研究者从学习运动医学的学生中随机招募50名学生,记录性别并询问他们喜欢竞技类还是娱乐 ...

  2. SPSS实例教程:多重线性回归,你用对了么

    SPSS实例教程:多重线性回归,你用对了么 在实际的医学研究中,一个生理指标或疾病指标往往受到多种因素的共同作用和影响,当研究的因变量为连续变量时,我们通常在统计分析过程中引入多重线性回归模型,来分析 ...

  3. SPSS统计功能与模块对照表

    SPSS统计功能 - 应用速查表第一列为统计方法,中间为统计功能,最后一列为所在模块 1 ANOVA Models(单因素方差分析:简单因子) : 摘要 描述 方差 轮廓 - SPSS Base 2 ...

  4. 因子分析spss怎么做 spss因子分析教程及结果解释

    因子分析spss怎么做 spss因子分析教程及结果解释 因子分析spss可以简化数据结构,将具有错综复杂关系的变量综合为数据较少的因子,在信息损失最小的情况下对变量进行分类,不过有些朋友多spss因子 ...

  5. SPSS 统计图形

    统计图能够简洁.直观地对主要的数据信息进行呈现,反映事物内在的规律和关联.当然难免会丢失数据的细节,鱼与熊掌不可兼得. 根据统计图呈现变量的数量将其分为单变量图.双变量图.多变量图,然后再根据测试尺度 ...

  6. spss C# 二次开发 学习笔记(六)——Spss统计结果的输出

    Spss的二次开发可以很简单,实例化一个对象,然后启用服务,接着提交命令,最后停止服务. 其中重点为提交命令,针对各种统计功能需求,以及被统计分析的数据内容等,命令的内容可以很复杂,但也可以简单的为一 ...

  7. SPSS python教程:[1]安装Python Essentials

    python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&ut ...

  8. Spss统计描述分析

    总觉得有些技能学会了是不会忘的,但是还是要记录一下,怕记忆力不像狗皮膏药,并不那么牢固. 1.文件的合并 两个数据文件的合并 点击添加个案,这一步按照自己的需求选择,也可以打开外部数据集,在这里打开的 ...

  9. SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类

    https://www.zhihu.com/topic/19582125/top-answershttps://wenku.baidu.com/search?word=spss&ie=utf- ...

  10. SPSS教程学习笔记1:K个独立样本秩和检验及多重比较 (转载) (非参数假设检验)

    本文地址:http://www.datasoldier.net/archives/173版权声明:本文为原创文章,版权归 数据小兵 所有,欢迎分享本文,转载请保留出处!     方差分析经常会出现不满 ...

随机推荐

  1. 二进制安装Kubernetes(k8s) v1.24.3 IPv4/IPv6双栈

    二进制安装Kubernetes(k8s) v1.24.3 IPv4/IPv6双栈 Kubernetes 开源不易,帮忙点个star,谢谢了 介绍 kubernetes(k8s)二进制高可用安装部署,支 ...

  2. day13:迭代器&高阶函数(map,reduce,filter,sorted)

    迭代器 1.迭代器的定义: 能被next调用,并不断返回下一个值的对象,叫做迭代器(对象) 2.迭代器的概念: 迭代器指的是迭代取值的工具,迭代是一个重复的过程, 每次重复都是基于上一次的结果而继续的 ...

  3. Yii初学者必看-yii 表单验证规则

    对yii深入了解总结出:希望对初学者有些帮助 Active Record (AR) 是一个流行的 对象-关系映射 (ORM) 技术. 每个 AR 类代表一个数据表(或视图),数据表(或视图)的列在 A ...

  4. Cesium加载ArcGIS Server4490且orgin -400 400的切片服务

    Cesium在使用加载Cesium.ArcGisMapServerImageryProvider加载切片服务时,默认只支持wgs84的4326坐标系,不支持CGCS2000的4490坐标系. 如果是A ...

  5. 从 API 网关聊到 API 管理

    在 API 管理中,通常会有这些痛点: 1.企业不清楚到底有多少个API,无法形成API资产管理等问题. 2.API在不同集群的生命周期问题. 3.API运行状态监控和告警问题. 4.API请求限流. ...

  6. 进程间通信WebSocket 服务端未启动时,客户端重连报错

    当WebSocket服务端未启动时,我们在客户端申请连接,会报 System.Net.Sockets.SocketException 异常. 当然,我们调试时异常设置默认是不勾选这个的.所以不影响正常 ...

  7. mapper中sql返回类型是integer,但是sql查询结果是null,报错

    1.出问题代码 当sql返回结果为null时报错    org.apache.ibatis.binding.BindingException: Mapper method 'com.yswl.scie ...

  8. Nginx常用基础模块

    Nginx常用基础模块 目录 Nginx常用基础模块 目录索引模块 配置方式 nginx的状态模块 配置方式 nginx访问控制模块 配置方式 nginx的访问限制模块 请求限制重定向 Nginx连接 ...

  9. 音视频八股文(8)-- h264 AnnexB三层结构

    NALU(Network Abstract Layer Unit) ⾳视频编码在流媒体和⽹络领域占有重要地位:流媒体编解码流程⼤致如下图所示: H264简介 H.264从1999年开始,到2003年形 ...

  10. 2022-04-25:给定两个长度为N的数组,a[]和b[] 也就是对于每个位置i来说,有a[i]和b[i]两个属性 i a[i] b[i] j a[j] b[j] 现在想为了i,选一个最

    2022-04-25:给定两个长度为N的数组,a[]和b[] 也就是对于每个位置i来说,有a[i]和b[i]两个属性 i a[i] b[i] j a[j] b[j] 现在想为了i,选一个最好的j位置, ...