中心极限定理的模拟—R实现
中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象,最早的中心极限定理是讨论重点,伯努利试验中,事件A出现的次数渐近于正态分布的问题。
一、统计学根基——中心极限定理
中心极限定理有着有趣的历史。这个定理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史遗忘,所幸著名法国数学家拉普拉斯在1812年发表的巨著Théorie Analytique des Probabilités中拯救了这个默默无名的理论。拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。直到十九世纪末中心极限定理的重要性才被世人所知。1901年,俄国数学家里雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。如今,中心极限定理被认为是(非正式地)概率论中的首席定理。
设随机变量\(X_1\),\(X_2\),...,\(X_n\),...独立同分布,并且具有有限的数学期望和方差:\(E({X_i})=\mu\),\(D({X_i})\)=\(\sigma^2(i=1,2,...)\),则对任意\(x\),分布函数
\]
满足
\]
该定理说明,当很大时,随机变量
\]
近似地服从标准正态分布N(0,1)。
从定理可知,期望为\(\mu\),方差为\(\sigma^2\)的独立同分布随机变量序列 \(X_1\),\(X_2\),...,\(X_n\)之和$$\sum\limits_{k=1}^nX_k$$的标准化变量,当\(n\)足够大时,近似服从标准正态分布,即$$ \frac{\sum\limits_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\sim N(0,1) $$
由于
\]
因此有$$ \frac{\overline X-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \quad 或 \quad \overline X \sim N(\mu,\sigma^2/n)$$ 这是独立同分布的中心极限定理结果的另一个形式(Important!!!)。在实际工作中,只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。
二、中心极限定理模拟
中心极限定理告诉我们,当样本量足够大时,样本均值的分布慢慢变成正态分布,如下图:

2.1 指数分布
library(moments)
options(digits = 3)
options(scipen = 200)
X = rexp(10000, rate=1) # 原始分布,可以随便设置,这里为指数分布
X_mean = mean(X) # 原始分布的均值
X_var= var(X) # 原始分布的方差
m=5000 # 抽取的次数
par(new=TRUE)
par(mfrow=c(3,3))
for(n in c(1,5,10,20,30,50,100,500,1000))
{
# 每次从原始分布里随机抽取样本的个数
s=c()
for(j in 1:m)
{
sample=sample(X,n)# 从原始分布里随机选取n个样本
sample_mean = mean(sample)# 求样本的均值
s[j]=sample_mean
}
hist(s,breaks = 50,xlab ="",main = paste('n = ',n,sep=''))
}

2.2 二项分布
library(moments)
options(digits = 3)
options(scipen = 200)
X = rbinom (10000,size=1,prob =0.7) # 原始分布,可以随便设置,这里为二项分布
X_mean = mean(X) # 原始分布的均值
X_var= var(X) # 原始分布的方差
m=1000 # 抽取的次数
par(new=TRUE)
par(mfrow=c(3,3))
for(n in c(1,5,10,20,30,50,100,500,1000))
{
# 每次从原始分布里随机抽取样本的个数
s=c()
for(j in 1:m)
{
sample=sample(X,n)# 从原始分布里随机选取n个样本
sample_mean = mean(sample)# 求样本的均值
s[j]=sample_mean
}
hist(s,breaks = 50,xlab ="",main = paste('n = ',n,sep=''))
}

2.3 均匀分布
library(moments)
options(digits = 3)
options(scipen = 200)
X = runif(10000, min=0,max = 2) # 原始分布,可以随便设置,这里为均匀分布
X_mean = mean(X) # 原始分布的均值
X_var= var(X) # 原始分布的方差
m=5000 # 抽取的次数
par(new=TRUE)
par(mfrow=c(3,3))
for(n in c(1,5,10,20,30,50,100,500,1000))
{
# 每次从原始分布里随机抽取样本的个数
s=c()
for(j in 1:m)
{
sample=sample(X,n)# 从原始分布里随机选取n个样本
sample_mean = mean(sample)# 求样本的均值
s[j]=sample_mean
}
hist(s,breaks = 50,xlab ="",main = paste('n = ',n,sep=''))
}

三、总结
中心极限定理是统计学中的一个基本定理,它是一个非常简单的概念。当你进一步阅读时就会发现,这也是一个很重要的概念。在分析领域,我们每天都会遇到各种各样的数据,而源数据的分布并不总是被我们所知道的,但是,因为我们了解中心极限定理,所以我们甚至不需要关心源数据的分布,因为我们总是可以得到正态分布。
参考文献
1.(R语言绘图:直方图——hist)[https://blog.csdn.net/m0_53436190/article/details/120166197]
2.(R 语言与中心极限定理)[https://blog.csdn.net/Marionce/article/details/51484655]
中心极限定理的模拟—R实现的更多相关文章
- BZOJ.4909.[SDOI2017]龙与地下城(正态分布 中心极限定理 FFT Simpson积分)
BZOJ 洛谷 https://www.luogu.org/blog/ShadowassIIXVIIIIV/solution-p3779# 正态分布 正态分布是随机变量\(X\)的一种概率分布形式.它 ...
- 中心极限定理 | central limit theorem | 大数定律 | law of large numbers
每个大学教材上都会提到这个定理,枯燥地给出了定义和公式,并没有解释来龙去脉,导致大多数人望而生畏,并没有理解它的美. <女士品茶>有感 待续~ 参考:怎样理解和区分中心极限定理与大数定律?
- 中心极限定理&&正态分布 随想
0-前言 笔者本来周末约好朋友出去骑行,不料天公不作美!哎,闲来无事来到了实验室,本来打算看看<天天向上>,而这一期又实在不好看(偶像剧).只好来做做一些小实验,脑海里突然想到“正态分布“ ...
- 中心极限定理(Central Limit Theorem)
中心极限定理:每次从总体中抽取容量为n的简单随机样本,这样抽取很多次后,如果样本容量很大,样本均值的抽样分布近似服从正态分布(期望为 ,标准差为 ). (注:总体数据需独立同分布) 那么样本容量n应 ...
- 【概率论】6-3:中心极限定理(The Central Limit Theorem)
title: [概率论]6-3:中心极限定理(The Central Limit Theorem) categories: - Mathematic - Probability keywords: - ...
- 抽样分布|t分布|中心极限定理|点估计|矩估计|最大似然法|
生物统计与实验设计-统计学基础-2&区间估计-1 正态分布参数:均值和方差 其中,选择1d是因为好算:通常,95%区分大概率事件和小概率事件, 当总体是正态分布时,可以利用常用抽样分布估计出样 ...
- 中心极限定理|z分布|t分布|卡方分布
生物统计学 抽样分布:n个样本会得到n个统计量,将这n个统计量作为总体,该总体的分布即是抽样分布 根据辛钦大数定律,从一个非正态分布的总体中抽取的含量主n的样本,当n充分大时,样本平均数渐近服从正态分 ...
- 中心极限定理(为什么y服从高斯分布)
因为每一条数据都服从IID原则: 根据中心极限定理,当数据增加的时候,样本均值的分布慢慢变成正态分布 不管分布式什么分布,累加起来都是高斯分布 As sum increases, sum of non ...
- [转]概率基础和R语言
概率基础和R语言 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语 ...
- 数据分析与R语言
数据结构 创建向量和矩阵 函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差 函数mean(), sum(), min(), m ...
随机推荐
- 机器学习实战—搭建BP神经网络实现手写数字识别
看了几天的BP神经网络,总算是对它有一点点的理解了.今天就用python搭建了一个模型来实现手写数字的识别. 一.BP神经网络简介 BP(back propagation)神经网络是一种按照误差逆向传 ...
- 「AutoCAD2022」
「AutoCAD2022」https://www.aliyundrive.com/s/rxktpNqtHC5点击链接保存,或者复制本段内容,打开「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速 ...
- Jmeter七、jmeter中的参数化
参数化是为了更好的模拟真实的业务场景 CSV data set config组件 1.更容易使用和理解 2.适合大参数量场景 3.设置方便灵活 EOF=end of file 没有找到文件 comma ...
- php 解密 java des 密文
背景 对方系统java des 加密, 我们用 php 解密 模式基本介绍 ECB模式:电子密本方式,JAVA封装的DES算法的默认模式,就是将数据按照8个字节一段进行DES加密或解密得到一段8个字节 ...
- VUE keepAlive缓存问题之动态使用exclude(会使用到VUEX)
exclude是啥? 官方解释: 怎么用呢? 处理的问题是什么?(答:返回首页的时候清除B页面的缓存) 我遇到的问题是: 一开始状态:A(首页). B(列表).C(列表中的详情)三个页面,设置B页面的 ...
- Ubuntu系统设置普通用户最大文件打开数
背景: Elasticsearch启动报错: ERROR: bootstrap checks failedmax file descriptors [4096] for elasticsearch ...
- The first blog
这是一只爱碎觉的汪的第一篇博客. 下面就来简单介绍一下自己吧,爱好广泛,尤其热爱钢琴和运动,喜欢每个按键在手指间跳动的感觉,喜欢一个个音符连起来奏响的一曲曲优美的音乐,也喜欢运动后大汗淋漓的畅快感.肯 ...
- winIO介绍
WinIO程序库允许在32位的Windows应用程序中直接对I/O端口和物理内存进行存取操作.通过使用一种内核模式的设备驱动器和其它几种底层编程技巧,它绕过了Windows系统的保护机制. 因为需要加 ...
- nojejs 弹出子窗口,取值后返回
1.主窗口: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <ti ...
- decode procedure
1 test data preparation 1> select representative data voice to match real application scenario ...