Stat 345(April 11, 2019)

Chapter 7: Sampling Distributions and Point Estimation ofParameters

Topics:

  • General concepts of estimating the parameters of a population or a probability distribution
  • Understand the CLT(Central Limit Theorem)
  • Explain important properties of point estimators, including bias,variance, and mean square error

Overview

  • Identify a population of interest — for example, UNM freshmen female students' weight, height or entrance GPA.
  • Population parametersunknown quantities of the population that are of interest, say,

    population mean µ and population variance σ2 etc.
  • Random sample —- Select a random or representative sample from the population.

    — A sample consists random variables Y1, · · · , Yn, that follows aspecified distribution, say N(µ, σ2)
  • Statistic: a function of radom variables Y1, . . . , Yn, which does not depend on any unknown parameters
    • Observed sample: y1, y2, · · · , yn are observed sample values after data collection
    • We cannot see much of the population —- but would like to know what is typical in the population

      — The only information we have is that in the sample.

Goal: want to use the sample information to make inferences about the population and its parameters.

  • Statistical inference is concerned with making decisions about apopulation based on the information contained in a random sample from that population.

Suppose our goal is to obtain a point estimate of a population parameter,i.e. mean, variance, based a sample x1, . . . , xn.

  • Before we collected the data, we consider each observation as arandom variable, i.e. X1, . . . , Xn.
  • We assume X1, . . . , Xn are mutually independent random variables.

Point estimator: a point estimator is a function of X1, . . . , Xn.

Point estimate: a point estimate is a single numerical value of the point estimator based on an observed sample.

  • Population mean: µ
  • Sample mean: ¯ Y=Pni=1 Yi/n
  • Estimate of sample mean: the value of ¯ Y computed from data y=Pni=1 yi/n¯
  • Population variance: σ2I Sample variance: S2 =1n−1Pni=1(Yi − ¯ Y)2
  • Estimate of sample variance: the value of S2 computed from data s2 =1y)2n−1Pni=1(yi − ¯
  • Population standard deviation: σ
  • I Sample standard deviation (Standard error): S
  • Estimate of standard error: s, the value of S computed from data

  1. 北京大学工学院 的 统计概率课件PPT

    http://www2.coe.pku.edu.cn/tpic/file/20150430/201504300248004545.pdf





  2. 轻松学统计:

    https://zh-cn.statisticseasily.com/词汇表/什么是统计推断/

Statistical Inference: \(\large Sample\ \leftrightarrow\ Population\)

What is SI(统计推断)

SI(统计推断) 是统计学、数据分析和数据科学领域的一个基本概念,

样本推导出的数据更广大总体的参数之间的桥梁。

它涉及
使用由样本推导出的数据 对 更大的群(总)体 进行 概括或预测

因为它能
得出有意义结论,而无需分析整个总体(这通常是不可能的)。

SI(统计推断) 依赖于 Probability Theory(概率论的原理)

使从业者能够
quantify uncertainty(量化不确定性)**并根据 经验与证据 做出 理智的决策.

SI(统计推断)的类型

SI(统计推断) 主要有两种类型:

  • Estimation: 根据样本数据确定总体特征;

    • Point Estimation: 提供 总体的参数单一值估计;
    • Confidence Interval: 提供 可能包含该参数一系列值(包括区间)

      反映抽样固有不确定性
  • Testing Hypothesis: 一种用于检验 有关总体参数假设或主张方法

    • H0: Null Hypothesis
    • HA: Alternative Hypothesis

    然后** 使用样本数据** 确定 是否有足够的证据拒绝H0(零假设)支持HA(备择假设)

统计推断的应用

统计推断在各个领域都有广泛的应用,包括医疗保健、社会科学、营销和金融。例如,在医疗保健领域,研究人员使用统计推断根据临床试验数据确定新疗法的有效性。在营销领域,企业通过调查和实验分析消费者行为,以根据数据做出有关产品发布和广告策略的决策。从样本数据中得出有效结论的能力对于在这些领域和许多其他领域做出明智的决策至关重要。

统计推断的局限性

虽然统计推断是一种强大的工具,但它并非没有局限性。一个显著的局限性是依赖于样本代表总体的假设。如果样本有偏差或不是随机选择的,则得出的推断可能无效。此外,统计推断通常假设数据遵循特定分布,例如正态分布,但在实践中可能并不总是成立。研究人员必须谨慎解释并考虑其分析的背景,以避免得出误导性结论。

结论

统计推断是数据分析和科学研究的基石,使从业者能够根据样本数据做出明智的决策。通过理解估计、假设检验的原理以及 p 值和置信区间的相关概念,研究人员可以从有限的数据中有效地得出有关总体的结论。尽管统计推断存在局限性,但它仍然是提取见解和指导各个领域决策的重要工具。

Estimation

点估计

点估计是一种基于样本数据提供对总体参数的最佳猜测的技术。例如,如果研究人员想要估计某个城市成年男性的平均身高,他们可能会抽取一些男性样本并计算平均身高。这个平均值可作为人口平均身高的点估计值。但是,如果点估计不考虑数据中的变异性,则可能会产生误导。因此,它通常伴随着置信区间,从而更全面地反映出估计的可靠性。

置信区间

置信区间是统计推断的重要组成部分,它提供了人口参数可能落入的一系列值。例如,如果成年男性平均身高的 95% 置信区间计算为 (175 cm, 180 cm),则表明真实平均身高在此范围内的概率为 95%。置信区间的宽度受样本大小和数据变异性的影响;样本越大,区间越窄,表明估计值越精确。了解置信区间对于解释统计分析结果和做出明智决策至关重要。

Testing Hypothesis

假设检验

假设检验是一种系统方法,用于评估有关总体参数的主张。它首先要制定两个相互竞争的假设:零假设 (H0),表示没有影响或没有差异的陈述,以及备择假设 (H1),表示存在影响或差异。研究人员收集样本数据并进行统计测试,以确定证据是否足以拒绝零假设。常见的测试包括 t 检验、卡方检验和方差分析,每种方法都适用于不同类型的数据和研究问题。

P 值和显著性水平

在假设检验中,p 值在确定结果的显著性方面起着至关重要的作用。p 值表示假设零假设为真,获得至少与观察到的结果一样极端的结果的概率。p 值越小,反对零假设的证据就越强。研究人员通常将 p 值与预定的显著性水平 (alpha) 进行比较,该水平通常设置为 0.05。如果 p 值小于 alpha,则拒绝零假设,表明观察到的效应具有统计显著性。了解 p 值对于解释假设检验的结果和得出数据驱动的结论至关重要。

假设检验中的错误类型

统计推断并非没有缺陷,特别是在假设检验中,可能会出现两种类型的错误:第一类错误和第二类错误。当错误地拒绝零假设时,就会发生第一类错误,从而得出假阳性结论。相反,当零假设实际上是错误的,但未被拒绝时,就会发生第二类错误,从而错失识别真实效应的机会。在实验设计和统计结果解释中,平衡这些错误的风险是一个关键的考虑因素。

SciTech-Mathmatics-Probability+Statistics: Statistical Inference统计推断- Estimation估计 + Testing Hypotheses假设检验的更多相关文章

  1. 加州大学伯克利分校Stat2.3x Inference 统计推断学习笔记: Section 2 Testing Statistical Hypotheses

    Stat2.3x Inference(统计推断)课程由加州大学伯克利分校(University of California, Berkeley)于2014年在edX平台讲授. PDF笔记下载(Acad ...

  2. 统计推断(statistical inference)

    样本是统计推断的依据: 统计推断的基本问题可以分为两大类: 估计问题 点估计, 区间估计 假设检验 1. 点估计 设总体 X 的分布函数 F(x;θ) 的形式已知,θ 是待估参数.X1,X2,-,Xn ...

  3. 读书笔记 1 of Statistics :Moments and Moment Generating Functions (c.f. Statistical Inference by George Casella and Roger L. Berger)

    Part 1: Moments Definition 1 For each integer $n$, the nth moment of $X$, $\mu_n^{'}$ is \[\mu_{n}^{ ...

  4. 《统计推断(Statistical Inference)》读书笔记——第6章 数据简化原理

    在外行眼里统计学家经常做的一件事就是把一大堆杂七杂八的数据放在一起,算出几个莫名其妙的数字,然后再通过这些数字推理出貌似很靠谱的结论,简直就像是炼金术士用“贤者之石”把一堆石头炼成了金矿.第六章,应该 ...

  5. 《统计推断(Statistical Inference)》读书笔记——第5章 随机样本的性质

    有了前四章知识的铺垫,第五章进入了统计研究的正题——样本的研究.样本可以说是统计学研究中最基本的对象,样本的数学性质也是最重要的研究课题,统计学的一大任务就是从一大堆样本中提取出有价值的知识,正如对原 ...

  6. 《统计推断(Statistical Inference)》读书笔记——第4章 统计分布族

    数据分析工作中最常和多维随机变量打交道,第四章介绍了多维随机变量的基本知识,其中核心概念是条件分布和条件概率.条件分布和条件概率可以抽象出条件期望的概念,在随机分析的研究中,理解随机积分和鞅理论和关键 ...

  7. 《统计推断(Statistical Inference)》读书笔记——第3章 统计分布族

    在科学研究中最重要的两种思维范式是“简化”和“还原”,所谓“简化”是指人依据不太复杂的,可理解的规律认识世界:所谓“还原”是指任何复杂的现象归根结底可以由若干简单的机制解释.各种统计分布族就是统计学中 ...

  8. 《统计推断(Statistical Inference)》读书笔记——第2章 变换与期望

    第二章引入了两个重要问题,随机变量的期望和随机变量的变换.期望又引申出“矩”的概念,矩是统计学理论分析的一个重要关键词,而随机变量的变换是研究复杂统计现象的重要工具.下面是这一章的思维导图

  9. 《统计推断(Statistical Inference)》读书笔记——第1章 概率论

    第一章介绍了基本的概率论知识,以下是这一章的思维导图

  10. 加州大学伯克利分校Stat2.3x Inference 统计推断学习笔记: Section 3 One-sample and two-sample tests

    Stat2.3x Inference(统计推断)课程由加州大学伯克利分校(University of California, Berkeley)于2014年在edX平台讲授. PDF笔记下载(Acad ...

随机推荐

  1. 在postman中为每个测试用例添加相同的请求头

    最近在学习的时候看到可以在postman中可以为每个测试用例添加相同的请求头,这个就不用单独去设置了,可以说是非常好用,遂记录一下. 具体设置如下: https://postman.org.cn/

  2. maven配置jdk版本

    修改默认的jdk版本 在maven安装目录 apache-maven-3.6.1\conf\setting.xml 添加 <profile> <id>jdk18</id& ...

  3. 【记录】MATLAB|Python NumPy|两种语言的数组/矩阵中元素修改方式的总结和对比

    文章目录 二维矩阵 操作 1. 将数组大于0的数全部加1 2. 删除元素 ①删除单个元素 ②删除一列元素 3. 添加一行或多行 ①添加一行 ②添加多行 4. 获取行/列数 5. 格式化输出数组 结构数 ...

  4. 操作系统综合题之“用记录型信号量机制的wait操作和signal操作写出三个进程的同步代码(水果进箱问题-代码补充)”

    1.问题:假设一个水果赛选系统由三个进程A.B.C组成.进程A每次取一个水果,之后存放在货架F上,F的容量为每次只能存放一个水果.若货架上存放的是苹果则让进程B取出,并存放到苹果箱中:若货架上存放的是 ...

  5. Flex布局-容器项

    弹性盒子是一种用于 按行 或 按列的一维布局方法. 元素可以膨胀以填充额外的空间, 也可以 收缩 以适应更小的空间. flex 重点概览 对于 flex 重要的理解点在于: 主轴与交叉轴 换行与缩写 ...

  6. 理解 C# 中的各类指针

    目录 前言 对象引用(Object Reference) 指针(Pointer) 指针的声明和使用 指针可以指向的位置 可以声明指针的位置 指向值类型变量的指针 指向对象引用的指针 指向 GC Hea ...

  7. np.where与pd.Series.where,pd.DataFrame.where的用法及区别

    np.where与pd.Series.where及pd.DataFrame用法不一样,下面一一进行学习,总结: import numpy as np import pandas as pd help( ...

  8. Numpy 的广播机制

    广播机制在numpy中居于非常重要的位置,也是numpy高效计算的秘密武器,有必要进行深入彻底的理解,简而言之,它的规则如下: 规则1:如果两个数组在维度上不一样,那么维度低的数组用1(1个或者多个) ...

  9. PyYaml简单学习

    YAML是一种轻型的配置文件的语言,远比JSON格式方便,方便人类读写,它通过缩进来表示结构,很具有Python风格. 安装:pip insall pyyaml YAML语法 文档 YAML数据流是0 ...

  10. File与IO流之File基础

    File构造方法: public File(String pathname){} //将字符串路径变成File对象 public File(String parent , String chlid){ ...