本节内容

1:样本估计总体均值跟标准差,以及标准误

2:中心极限定理

3:如何查看数据是否是正态分布QQ图

4:置信区间的理解跟案例

5:假设检验

参考文章:

假设检验的学习和理解

一、样本估计总体均值跟标准差

多组抽样
估计总体均值 = mean(多组的各个均值)
估计总体标准差 = sd(多组的各个标准差)
标准误 = sd(多组的各个均值)
一组抽样
估计总体均值 = mean(一组的均值)
估计总体标准差 = sd(一组的标准差)
标准误 = 估计的标准差/ sqrt(n)
标准误:
真实的标准误 = 总体方差 / sqrt(n) ##n个样本的真实标准误
标准误==是描述样本均值的稳定性 标准误很重要:
  比如说让你去估计全校的平均身高,
  你给如个一个1.7,还要给出一个置信区间,可行程度有多少?
  怎么给呢?这就需要用到标准误了
  置信区间就是,样本均值跟标准误计算出来的。

代码实现样本估计总体

set.seed(1)
xset =rnorm(300,1.7,2.4) ##多组抽样估计总体均值和方差
ms = matrix(sample(xset,20*20,replace = T),20,20) ##一行就是一组抽样数据
me5 = mean(rowMeans(ms))
sde5 = numeric()
for (i in 1:20){
sde5[i] = sd(ms[i,])
print(sd(ms[i,]))
}
sde5 = mean(sde5)
print(me5) ## 1.749969
print(sde5) ##2.360055 ##只抽取一组估计均值和方差
data1 = sample(ms,20)
mean(data1) ##1.418414
sd(data1) ##2.43754 ##标准误--》说的是均值的标准误
#一组的标准误
(sd(data1))/sqrt(20) #0.5073691 #多组的标准误
sd(rowMeans(ms)) ##0.4417979 #一组数据真实的标准误
2.4/sqrt(29) ##0.4456688

二、中心极限定理

当样本量足够大的时候,样本的均值就服从正态分布!!!
当样本比较小的时候才会存在别的分布如t分布。

为什么要对数据进行取log

当你的数据分布是严重右偏的函数,我们要对数据取log,将数据分布变成偏向正态的分布。
为什么要这么做,就是为了让它更加的去适用于中心极限定理。

三:如何查看数据是否是正态分布QQ图

q = rnorm(4000)
s3 = sample(q,300)
qqnorm(s3)
qqline(s3) ##点离线越接近,越正态

四、置信区间的理解跟案例 

4.1:置信区间是什么意思:

比如说置信区间或者可信程度为95%,就是说100次的抽样,有95次在总体均值范围。

4.2:置信区间计算公式:

4.3:数据服从正态分布时统计量的计算

#当可信程度为95%的时候的统计量,我们说的95%是区间中间的百分95
qnorm(1-(1-0.95)/2))
#(1-0.95)/2
#求的是中间围绕95%的时候的累计概率是多少
#qnorm(累积概率) 得出对应的x轴数值 --》统计量

4.4:1-(1-pnorm(3))*2  怎么理解?

#三倍标准差所围绕中间的面积
#pnorm(3)求出来的是三倍标准差的累计概率是多少
#1-pnorm(3) 就求出了剩下的概率
#1-(1-pnorm(3))*2 1-剩下概率*2 就是三倍标准差所围绕中间的面积

4.5:案例

读取一份数据,是房价的增长率,作为增长率的95%的置信区间
head tail 读取文件的前【后】几行
hist(rate,freq=F) ##将直方图的y轴频数变成密度
lines(desity(rate)) ##做出密度曲线
mean(rate)+c(-1,1)*qnorm(1-(1-0.95)/2)*sd(rate)/sqrt(150)
##抽样的均值 加减 统计量*(标准误)

五、假设检验

5.1:假设检验,形式化的可以总结为以下6步:

  1. 确定原假设H0和备选假设H1
  2. 根据H0,确定统计量的概率分布和相关参数
  3. 确定显著性水平α和拒绝域
  4. 根据步骤2的参数,求出P值
  5. 查看P值是否位于拒绝域以内
  6. 做出判断,如果P值在拒绝域以内,那么拒绝H0接受H1。否则接受H0拒绝H1

5.2:假设检验出现的两种错误:

上面提到,假设检验不会100%确保检验结果正确,会出现上面的两类错误:

  • 第一类错误:错误的拒绝原假设。原假设正确,但是却错误的拒绝了,发生此事件的概率为α,也就是显著性水平。所以显著性水平越高,越容易发生。
  • 第二类错误:错误的接受原假设。原假设错误,但是却接受了原假设。发生此事件的概率需要根据统计量的分布,和被选项假设具有具体值来确定,这里先略过(《Head First Statistics》假设检验这一章中举了一个例子描述如何求解其概率)。

5.3:关于如何选取显著性水平:

显著性水平α一般为0.05,但是根据需要可以设为0.1或者0.01。当α较大时,第一类错误的概率增大,第二类错误的概率减少;α较小时,则相反。下面举几个例子:

一个汽车制造商正在考核新零件,该零件对车辆安全至关重要。目前正在抽样检测,你觉得α应该如何指定。

解答H0:新配件与原始配件的安全性能相同。H1:新配件比原始配件更安全。由于此配件关系用户声明安全,所以需要尽量使用较安全的配件,拒绝假设H0,那么可以设将α设置高一点,比如 0.1。

例2 一个机器中,有一个配件,替换成本十分高,但是如果该配件损坏了,对机器影响不大,请问显著性水平应该如何选取。

解答 H0:配件正常工作。H1:配件损坏。由于替换成本较高,所以需要确保零配件的确损坏才能替换,可以将α设置较小,比如0.01。

5.4:如何理解假设检验的两种错误

我们取了栗子:

问题1:原假设是什么?

原假设H0:这个人是女
备假设H1: 这个人是男

问题2:女士误杀为第一类错误,男士存活为第二类错误如何画图?

图中:

1:H0为女的分布,H1为男的分布。X轴是罩杯,我们判断大于等于B的是女,然后画红线。

2:H0的分布在红线右边是误杀的,H1的分布在红线左边是存活的。

3:我们就可以时理解说:女士误杀的为检验的第一类错误,男士存活为检验的第二类错误。

4:将男士存活的记作β(贝塔),女士误杀的为α(阿尔法),正确杀了男士的为统计功效=1-β

5:在统计学上:一般将α标记为0.05   β可容忍程度为20%,也就是1-β找出正确的概率为80%。

6:α和β,可以从图中看出,二者是有相关的,当α取的小就形成了---宁错杀不放过的寓意。

统计功效

是正确找出的概率
常常在医学等研究不仅仅给出p值就可以了,还需要给出统计功效。

问题3:对统计功效的延伸--》

很多时候我们不是说只是根据显著性就可以判断事件的,还要判断基数谬误的,特别是在医学上的一些问题。

如:我们有100种药物,有效的为5种,无效的为95种,利用统计学判断正确找出药物的概率

H0:这个药物无效

H1:这个药物有效

显著性取==0.05    --》那么也就是说我们允许有0.05的误差,会将无效药物看成有效药物有   95*0.05≈5种

统计功效==1-β=80%--》那么从正确的药物找出是有效的有 5*0.8 = 4种

也就是说我们一共找出了9种药物是有效的,可是实际仅仅只有5种,

那么我们这次的概率为5/9 = 44%的可信度,找出的9种药物它的可信程度只有44%

5.5:假设检验案例

  

R-2 - 正态分布-中心极限-置信区间-正态假设检验的更多相关文章

  1. 【译文】利用STAN做贝叶斯回归分析:Part 2 非正态回归

    [译文]利用STAN做贝叶斯回归分析:Part 2 非正态回归 作者 Lionel Hertzogn 前一篇文章已经介绍了怎样在R中调用STAN对正态数据进行贝叶斯回归.本文则将利用三个样例来演示怎样 ...

  2. 【R】正态检验与R语言

    正态检验与R语言 1.Kolmogorov–Smirnov test 统计学里, Kolmogorov–Smirnov 检验(亦称:K–S 检验)是用来检验数据是否符合某种分布的一种非参数检验,通过比 ...

  3. R 正态性检验:正态概率图

    检验模型是否满足正态性假设的方法: 1.正态概率图 这是我编写的画正态概率图的函数: #绘制正态概率图 plot_ZP = function(ti) #输入外部学生化残差 { n = length(t ...

  4. 正态QQ图的原理

    code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...

  5. 数据分布转换:非正态 -> 正态

    来源:丁香园论坛:SPSS上的把非正态分布数据转换为正态分布数据 一楼 可以应用变量变换的方法,将不服从正态分布的资料转化为非正态分布或近似正态分布.常用的变量变换方法有对数变换.平方根变换.倒数变换 ...

  6. c# 画正态分布图

    /// <summary> /// 提供正态分布的数据和图片 /// </summary> public class StandardDistribution { /// &l ...

  7. SciPy - 正态性 与 KS 检验

    假设检验的基本思想 若对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的:如果事件A真的发生了,则有理由怀疑这一假设的真实性,从而拒绝该假设: 假设检验实质 ...

  8. 在opencv3中实现机器学习之:利用正态贝叶斯分类

    opencv3.0版本中,实现正态贝叶斯分类器(Normal Bayes Classifier)分类实例 #include "stdafx.h" #include "op ...

  9. 【转帖】Sigma水平和缺陷率的对应关系:正态分布中心和1.5标准差偏移

    http://www.pinzhi.org/thread-5395-1-1.html Sigma水平和缺陷率的对应关系:正态分布中心和有1.5个标准差偏移 在过程稳定时,若给出了规范限,过程的平均与标 ...

随机推荐

  1. MySQL去重保留最大的那条记录(取最新的记录)

    以用户登录日志表为例,取用户最近登录的设备 1 SET NAMES utf8mb4; 2 ; 3 4 -- ---------------------------- 5 -- Table struct ...

  2. Spring cloud Feign 深度学习与应用

    简介 Spring Cloud Feign是一个声明式的Web Service客户端,它的目的就是让Web Service调用更加简单.Feign提供了HTTP请求的模板,通过编写简单的接口和插入注解 ...

  3. Python中定义只读属性

    Python是面向对象(OOP)的语言, 而且在OOP这条路上比Java走得更彻底, 因为在Python里, 一切皆对象, 包括int, float等基本数据类型. 在Java里, 若要为一个类定义只 ...

  4. Spring Boot Mybatis 最基本使用mysql存储过程

    首先声明:只是用最简单的方法大致了解如何用存储过程开发,如果需要查看存储过程创建语法的自行百度搜索 一.首先创建最基本的数据库 CREATE TABLE `t_user` ( `id` varchar ...

  5. mysql数据库创建用户、赋权、修改用户密码

    创建新用户 create user lisi identified by '123456'; 查看创建结果: 授权 命令格式:grant privilegesCode on dbName.tableN ...

  6. 二维数组中的查找(剑指offer_4)

    给定一个二维数组,其每一行从左到右递增排序,从上到下也是递增排序.给定一个数,判断这个数是否在该二维数组中. Consider the following matrix: [ [1, 4, 7, 11 ...

  7. 从壹开始[做贡献]之二 || 推荐VSCode多语言开发,支持一键JAVA

    缘起 哈喽大家周一好!好久不见鸭,最近在看一本书,很好,<人类简史>,适合夏日星空,仰观宇宙之大

  8. IPv6升级测试指南(Android/iOS/Mac)

    目录 我们升级到IPv6的原因 测试的时候的注意要点 Android/IOS/MAC测试总结 Android测试IPv6的方法 IOS端测试IPv6的方法 MAC浏览器端测试IPv6的方法 升级IPV ...

  9. git中报错---fatal: pathspec 'readme.txt' did not match any files

    1.git安装 git官网下载最新版本,一键安装或custom install. 2.会弹出一个类似的命令窗口的东西,就说明Git安装成功. 3.安装完成后,还需要最后一步设置,在命令行输入如下--- ...

  10. Gradle如何在任务失败后继续构建

    如果我们运行Gradle构建并且其中一项任务失败,则整个构建将立即停止.因此,我们可以快速反馈构建状态.如果我们不想这样做,并且希望Gradle执行所有任务,即使某些任务可能失败了,我们也可以使用命令 ...