中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象,最早的中心极限定理是讨论重点,伯努利试验中,事件A出现的次数渐近于正态分布的问题。

一、统计学根基——中心极限定理

中心极限定理有着有趣的历史。这个定理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史遗忘,所幸著名法国数学家拉普拉斯在1812年发表的巨著Théorie Analytique des Probabilités中拯救了这个默默无名的理论。拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。直到十九世纪末中心极限定理的重要性才被世人所知。1901年,俄国数学家里雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。如今,中心极限定理被认为是(非正式地)概率论中的首席定理。

设随机变量\(X_1\),\(X_2\),...,\(X_n\),...独立同分布,并且具有有限的数学期望和方差:\(E({X_i})=\mu\),\(D({X_i})\)=\(\sigma^2(i=1,2,...)\),则对任意\(x\),分布函数

\[F_n(x)=P\left\{\frac{\sum_{i=1}^n X_i-n \mu}{\sigma \sqrt{n}} \leq x\right\}
\]

满足

\[\lim _{n \rightarrow \infty} F_n(x)=\lim _{n \rightarrow \infty} P\left\{\frac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma} \leq x\right\}=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^x e^{-\frac{t^2}{2}} d t=\varnothing(x)
\]

该定理说明,当很大时,随机变量

\[Y_n=\frac{\sum_{i=1}^n X_i-n \mu}{\sqrt{n} \sigma}
\]

近似地服从标准正态分布N(0,1)。

从定理可知,期望为\(\mu\),方差为\(\sigma^2\)的独立同分布随机变量序列 \(X_1\),\(X_2\),...,\(X_n\)之和$$\sum\limits_{k=1}^nX_k$$​的标准化变量,当\(n\)足够大时,近似服从标准正态分布,即$$ \frac{\sum\limits_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\sim N(0,1) $$

由于

\[\frac{\sum_{\mathrm{k}=1}^{\mathrm{n}} \mathrm{X}_{\mathrm{k}}-\mathrm{n} \mu}{\sqrt{\mathrm{n}} \sigma}=\frac{\frac{1}{\mathrm{n}} \sum_{\mathrm{k}=1}^{\mathrm{n}} \mathrm{X}_{\mathrm{k}}-\mu}{\sigma / \sqrt{\mathrm{n}}}=\frac{\overline{\mathrm{X}}-\mu}{\sigma / \sqrt{\mathrm{n}}}
\]

因此有$$ \frac{\overline X-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \quad 或 \quad \overline X \sim N(\mu,\sigma^2/n)$$ 这是独立同分布的中心极限定理结果的另一个形式(Important!!!)。在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。

二、中心极限定理模拟

中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布,如下图:

2.1 指数分布

library(moments)
options(digits = 3)
options(scipen = 200) X = rexp(10000, rate=1) # 原始分布,可以随便设置,这里为指数分布
X_mean = mean(X) # 原始分布的均值
X_var= var(X) # 原始分布的方差 m=5000 # 抽取的次数
par(new=TRUE)
par(mfrow=c(3,3)) for(n in c(1,5,10,20,30,50,100,500,1000))
{
# 每次从原始分布里随机抽取样本的个数
s=c() for(j in 1:m)
{
sample=sample(X,n)# 从原始分布里随机选取n个样本
sample_mean = mean(sample)# 求样本的均值
s[j]=sample_mean
}
hist(s,breaks = 50,xlab ="",main = paste('n = ',n,sep=''))
}

2.2 二项分布

library(moments)
options(digits = 3)
options(scipen = 200) X = rbinom (10000,size=1,prob =0.7) # 原始分布,可以随便设置,这里为二项分布
X_mean = mean(X) # 原始分布的均值
X_var= var(X) # 原始分布的方差 m=1000 # 抽取的次数
par(new=TRUE)
par(mfrow=c(3,3)) for(n in c(1,5,10,20,30,50,100,500,1000))
{
# 每次从原始分布里随机抽取样本的个数
s=c() for(j in 1:m)
{
sample=sample(X,n)# 从原始分布里随机选取n个样本
sample_mean = mean(sample)# 求样本的均值
s[j]=sample_mean
}
hist(s,breaks = 50,xlab ="",main = paste('n = ',n,sep=''))
}

2.3 均匀分布

library(moments)
options(digits = 3)
options(scipen = 200) X = runif(10000, min=0,max = 2) # 原始分布,可以随便设置,这里为均匀分布
X_mean = mean(X) # 原始分布的均值
X_var= var(X) # 原始分布的方差 m=5000 # 抽取的次数
par(new=TRUE)
par(mfrow=c(3,3)) for(n in c(1,5,10,20,30,50,100,500,1000))
{
# 每次从原始分布里随机抽取样本的个数
s=c() for(j in 1:m)
{
sample=sample(X,n)# 从原始分布里随机选取n个样本
sample_mean = mean(sample)# 求样本的均值
s[j]=sample_mean
}
hist(s,breaks = 50,xlab ="",main = paste('n = ',n,sep=''))
}

三、总结

中心极限定理是统计学中的一个基本定理,它是一个非常简单的概念。当你进一步阅读时就会发现,这也是一个很重要的概念。在分析领域,我们每天都会遇到各种各样的数据,而源数据的分布并不总是被我们所知道的,但是,因为我们了解中心极限定理,所以我们甚至不需要关心源数据的分布,因为我们总是可以得到正态分布。

参考文献

1.(R语言绘图:直方图——hist)[https://blog.csdn.net/m0_53436190/article/details/120166197]

2.(R 语言与中心极限定理)[https://blog.csdn.net/Marionce/article/details/51484655]

中心极限定理的模拟—R实现的更多相关文章

  1. BZOJ.4909.[SDOI2017]龙与地下城(正态分布 中心极限定理 FFT Simpson积分)

    BZOJ 洛谷 https://www.luogu.org/blog/ShadowassIIXVIIIIV/solution-p3779# 正态分布 正态分布是随机变量\(X\)的一种概率分布形式.它 ...

  2. 中心极限定理 | central limit theorem | 大数定律 | law of large numbers

    每个大学教材上都会提到这个定理,枯燥地给出了定义和公式,并没有解释来龙去脉,导致大多数人望而生畏,并没有理解它的美. <女士品茶>有感 待续~ 参考:怎样理解和区分中心极限定理与大数定律?

  3. 中心极限定理&&正态分布 随想

    0-前言 笔者本来周末约好朋友出去骑行,不料天公不作美!哎,闲来无事来到了实验室,本来打算看看<天天向上>,而这一期又实在不好看(偶像剧).只好来做做一些小实验,脑海里突然想到“正态分布“ ...

  4. 中心极限定理(Central Limit Theorem)

    中心极限定理:每次从总体中抽取容量为n的简单随机样本,这样抽取很多次后,如果样本容量很大,样本均值的抽样分布近似服从正态分布(期望为  ,标准差为 ). (注:总体数据需独立同分布) 那么样本容量n应 ...

  5. 【概率论】6-3:中心极限定理(The Central Limit Theorem)

    title: [概率论]6-3:中心极限定理(The Central Limit Theorem) categories: - Mathematic - Probability keywords: - ...

  6. 抽样分布|t分布|中心极限定理|点估计|矩估计|最大似然法|

    生物统计与实验设计-统计学基础-2&区间估计-1 正态分布参数:均值和方差 其中,选择1d是因为好算:通常,95%区分大概率事件和小概率事件, 当总体是正态分布时,可以利用常用抽样分布估计出样 ...

  7. 中心极限定理|z分布|t分布|卡方分布

    生物统计学 抽样分布:n个样本会得到n个统计量,将这n个统计量作为总体,该总体的分布即是抽样分布 根据辛钦大数定律,从一个非正态分布的总体中抽取的含量主n的样本,当n充分大时,样本平均数渐近服从正态分 ...

  8. 中心极限定理(为什么y服从高斯分布)

    因为每一条数据都服从IID原则: 根据中心极限定理,当数据增加的时候,样本均值的分布慢慢变成正态分布 不管分布式什么分布,累加起来都是高斯分布 As sum increases, sum of non ...

  9. [转]概率基础和R语言

    概率基础和R语言 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语 ...

  10. 数据分析与R语言

    数据结构 创建向量和矩阵 函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差 函数mean(), sum(), min(), m ...

随机推荐

  1. 监控室NTP/GPS同步时钟解决方案

    深圳市立显电子有限公司,专业LED时钟生产厂家!--------[点击进入]  车站.机场.学校等场所监控室布置要求:   1.宜选择建筑物中环境噪声较小的声场所.如车站票务中心后台.机场保安值班室. ...

  2. 配置Nginx 反向代理 + go在windows 环境下编译运行在linux的文件

    在源码根目录下 创建build.bat: set GOOS=linux set GOARCH=amd64 go build -o build/myweb main.go 在终端执行: ./build. ...

  3. Spring 笔记一

    1.什么是框架? 框架,是一种半成品的软件,是高度抽取可重用代码的一种设计,多个可重用模块的集合,形成某个领域的整体解决方案. 2.Spring 框架 概述:Spring 是一个开源框架,一个容器框架 ...

  4. ZFBJ - 1 - 42 - NO.1

  5. Flask-Migrate数据库模型映射

    1.Flask-Migrate介绍 flask-migrate可以十分方便的进行数据库的迁移与映射,将我们修改过的ORM模型映射到数据库中.flask-migrate是基于Alembic进行的一个封装 ...

  6. 【随笔】Java处理异常输出对象Exception,转为String输出

    声明:这段代码也是从网上摘抄的,当时忘记记录地址了,此为转载,勿怪 public static String handleException(Exception e) { StringBuffer m ...

  7. Java VSCode 基础教学

    VSCode 超全设置1.下载2.插件安装3.项目创建4.设置5.快捷键6.优化7.导出 Jar 包 VSCode 超全设置 VSCode(Visual Studio Code) 是一款 Micros ...

  8. scrapy.Request callback不执行

    1.在scrapy.Request方法里边加上参数dont_filter=True(去重) 2.增加是不是allowed_domains范围内的url 3.yield Request 改为yield ...

  9. TCP长连接管道通信改消息队列涉及到的知识点

    1.队列,链表,STL 1.C++ STL标准库简介 长久以来,软件界一直希望建立一种可重复利用的东西,以及一种得以制造出"可重复运用的东西" 的方法,从函数(functions) ...

  10. ArcEngine(平板电脑墨迹错误代码。多次调用 RtpEnabled (异常来自 HRESULT:0x80040239))问题未有效解决

    测试数据库中的要素无法执行ITopologicOperater接口下的方法,错误如图 暂记,错误未解决 tip: 1.随便移动一个节点 也不报错/ 2.手动按照他的节点画一个也不报错 3.bufer参 ...