https://zhuanlan.zhihu.com/p/674010971?utm_id=0

I Population and Sample 总体和样本

统计学提供了一种量化不确定性的方法,使我们能够有效地理解和解释数据

不只是数字和图表,更是正确地收集、分析和解释数据更好决策

First, focus on two basic concepts of the subject of Statistics: Sample and Population.

Abbreviations

SS(Subject of Statistics)

Definition: Population and Sample

Population( 统计学的 "Population" )

是要研究的"整个群体或集合".

  • 这个群体可是活的,比如一国所有居民,也可是非活的, 如所有制造的产品。
  • Population不一定非得是大量的或无限的;它也可是小的或有限的.
  • Population是要理解或推断objects, 它包含了所有可能观测值或个体.
  • Population的主特点isit includes All Objects for Research.

    例如, 如果研究要了解某种疾病在全球的发病率, 那么"Population"就是全世界所有人。

Sample( 统计学的 "Sample" )

是由Population****选取的一部分个体

  • the Goal of Sample is representing Population,

    so Research on Sample is enough to know and inference the Characteristics of Population.
  • Sample选择通常基于随机性,以确保Representativity.
  • Sample Size(the number of elements in a Sample)根据研究需要确定

    前面例子, 如果要研究某疾病的全球发病率, 不可能调查全世界的每个人,

    研究者可由不同国家和地区, 抽取一定数量的人作为Sample研究.

through understanding the \(\large Definition\ of\ Population\ and\ Sample\), 更好地把握统计学研究的出发点和目标。

\(\large Population:\ **要探索**的**全貌**,\ Sample:\ **接触全貌**的**窗口**.\)

Difference: Population and Sample

understanding the Differences between Population and Sample, is critical for master the principles of the Subject of Statistics. though they are closely connected, there also exists Key differences between them.

Difference 1: Scope(范围) and Quantity(数量)

  • Population: 包括与Topic of Research有关的All Elements. 它是广泛的, 有时甚至是无限的。

    例如, 研究某种汽车型号的可靠性,Population就包括市场上所有这一型号的汽车。
  • Sample:Only includes "Some Elements from the Population".

    Sample Size通常比Population Size小得多, 是出于研究成本、效率、时间和资源的考量.

    上述汽车的例子, Sample可能只包括几百辆汽车, 而不是市场上的所有车辆。

Difference 2: Purpose(目的) and Application(应用)

Population: 提供完整而全面的视角. 了解Population统计研究的Final Goal, 能提供最全面信息和洞察.

Sample: 估计或了解Population的Feasible and Practical Solution. 因为研究整个Population通常不实际.

Difference 3: Sampling(抽样) 和 Representativity(代表性)

  • Population: not involved in Sampling Process. it's Finallized(固定的) and is Defined(已定义好) already**.
  • Sample: Choose from the Population via the Sampling Process.

    the choose of Sampling Method is critical, 因为Sample 要尽可能地代表Population, 以便研究成果推广到全总体.
  • Sample representing Population, 但因 Sampling Method 或 Sample Size的不同而有 Bias and Error.

    因此,在进行统计分析时,考虑Sample 是否能够有效代表 Population 变得特别重要。

the Importance of Sample in the SS

Understanding why Sample is critical to Statistical Research, and how to inference Characteristic of Population by using the Sample, is the key point to master the Subject of Statistics.

Shouldn't always research Population

\(\large\bm{Feasibility}\)(可行性): 研究Population许多情况下是不现实的.

事实上, 调查所有人口, 或检测所有产品, 通常是不可能的; 要考虑到成本、时间和资源。

\(\large\bm{Accessibility}\)(可访问性): 有时无法接触或观察 Every Member of Population.

例如, 研究生物, 可能无法接触到所有的野生动物.

\(\large\bm{Destructive Testing}\)(破坏性测试): 某些情况, 测试本身可能会破坏oberserving object .

例如, 在测试产品耐用性时, 测试过程可能会损坏或销毁产品.

the Importance of Sample to Estimating Parameters of Population

Sample 使研究 一小部分总体成员 就能够推断整个总体的特征.

这种推断是基于以下几个假设和原则:

  • \(\large\bm{ Representativity }\)(代表性): if Sample was Randomly and Appropriately choosed from Population**, then it's enough to represent the Population. therefore, the Patterns and Trends observed from Samples can expand to the whole Population.
  • \(\large\bm{ Sampling\ Distribution}\)(抽样分布): Statisticians make Statistical Inference by constructing Sampling Distributions from the Statistics of Sample(Sample Mean, Proportion, and so on)。these distributions assures Accuracy and Reliability while inference Parameters of Population from Samples.
  • \(\large\bm{ Error\ Estimation}\)(误差估计): Through analysis of Sample data, we can estimate Sampling Error, the differences between Statistics of Sample and True Parameters of Population. Understanding and Quantifying this sort of Error is critical to make Accurate Inference.

总之, Sample不只是Population简化或近似, 而是要精心设计的方案,

Sample使我们能够有效地、准确地一部分数据推断整体的特性.

Sampling

When we estimating Parameters of Population by using Samples, Understanding Sampling{Bias, Error and Distribution} is critical.

These concepts help us to Quantifying the Uncertainty making inference from Sample to Population, 并为我们的结论提供了统计学意义。

Sampling Bias(抽样偏差)

Sampling Methods 的选取, 可能引入Sampling Bias;

Sampling Error(抽样误差)

Definition: 指由 Population 仅选择部分个体作为Sample而产生的Error。

换句话说,它是Statistics of Sample与对应的Parameters of Population之间的Error。

Source:这种误差的存在是因为每个样本都只是总体的一个近似,不同的样本可能会给出不同的结果。

Importance:了解抽样误差的大小和性质对于评估从样本数据得出的推断的可靠性至关重要。

Sampling Distribution(抽样分布)

Definition: 抽样分布是指如果从总体中反复抽取样本,并计算每个样本的统计量(例如样本平均值),那么这些统计量的分布就构成了抽样分布。

Function: 抽样分布提供了一个框架,用于理解当我们从总体中抽取一个样本时,样本统计量可能会有多大的变异。

Application: 通过分析抽样分布,我们可以计算出统计量(如样本平均值)与总体参数(如总体平均值)之间差异的概率。这是进行假设检验和构建置信区间等统计推断的基础。

理解抽样误差和抽样分布是实施有效统计推断的关键。它们使我们能够评估样本数据的可靠性和推断的精确度,从而做出更有信息和更可靠的决策。

Ending

在本篇《统计学入门(一):样本与总体》中,我们探讨了统计学的两个核心概念:总体(Population)和样本(Sample)。我们了解到,总体是指我们想要研究和理解的整个群体或集合,而样本则是从这个总体中选取的一部分个体。样本的重要性在于其使我们能够以更实际、高效的方式来估计和推断总体的特性。我们还讨论了抽样误差(Sampling Error)和抽样分布(Sampling Distribution),这些概念帮助我们理解从样本数据进行统计推断时的不确定性和准确性。

在我们系列的下一篇文章中,“统计量(Statistic)和参数估计(Parameter Estimation)”,我们将深入探讨如何利用样本数据来估计总体参数。这一部分将包括统计量的定义和类型、参数估计的方法(如最大似然估计、贝叶斯估计等),以及这些方法在实际统计分析中的应用。这篇文章将为您提供更深入的理解,关于如何使用统计方法来从数据中提取有意义的信息,并将这些信息应用于更广泛的总体。

本文主要集中在样本与总体的概念上,尚未涉及一些其他关键的统计学基础,如概率论的基本原理、不同类型的数据和变量、数据的图形表示等。这些概念将在后续的文章中详细介绍,为您提供一个全面的统计学基础。

感谢您的阅读,希望本文能帮助您在统计学的旅程上迈出坚实的第一步。请期待我们系列的下一篇文章,我们将继续在这个充满挑战和发现的领域中一起前行!

SciTech-Mathmatics-Probability+Statistics-I-Statistics:Quantifing Uncertainty + Population:Parameters and Sample:Statistics 总体和样本的更多相关文章

  1. [Math Review] Statistics Basic: Estimation

    Two Types of Estimation One of the major applications of statistics is estimating population paramet ...

  2. [转] 利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能

    首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...

  3. 利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能

    首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...

  4. Java 7 jstat – JVM Statistics Monitoring Tool【翻译】

    原文地址:Java 7 jstat 本文内容 语法 参数 描述 虚拟机标识符 选项 一般选项 输出选项 示例 先发出来,然后慢慢翻译~ 语法 jstat [ generalOption | outpu ...

  5. Pending Statistics

    Starting with the 11g Release 1 (11.1), when gathering statistics, you have the option to automatica ...

  6. Create STATISTICS,UPDATE STATISTICS

    该命令在一张表或者索引了的视图上更新查询优化统计数字信息. 默认情况下, 查询优化器已经更新了必要的用来提高查询计划的统计信息; 在某些情况下, 你可以通过使用UPDATE STATISTICS 命令 ...

  7. FAQ: Automatic Statistics Collection (文档 ID 1233203.1)

    In this Document   Purpose   Questions and Answers   What kind of statistics do the Automated tasks ...

  8. [Hive - LanguageManual] Statistics in Hive

    Statistics in Hive Statistics in Hive Motivation Scope Table and Partition Statistics Column Statist ...

  9. SQL Server 2016新特性:Live Query Statistics

    SSMS可以提供可以查看正在执行的计划.live query plan可以查看一个查询的执行过程,从一个查询计划操作到另外一个查询计划操作.live query plan提供了整体的查询运行进度和操作 ...

  10. 【译】SQLskills SQL101:Trace Flags、ERRORLOG、Update Statistics

    最近阅读SQLskills SQL101,将Erin Stellato部分稍作整理.仅提取自己感兴趣的知识点,详细内容请阅读原文. 一.Trace Flags推荐开启三个跟踪标记1118.3023.3 ...

随机推荐

  1. 10个 DeepSeek 神级提示词,建议收藏!

    在当下人工智能飞速发展的时代,DeepSeek 作为一款功能强大的 AI 工具,能够帮助我们实现各种创意和需求.然而,要充分发挥它的潜力,掌握一些巧妙的提示词至关重要.今天,就为大家精心整理了 15 ...

  2. 6.4K star!企业级流程引擎黑马,低代码开发竟能如此高效!

    嗨,大家好,我是小华同学,关注我们获得"最新.最全.最优质"开源项目和高效工作学习方法 AgileBPM 是一个基于Activiti7深度优化的企业级流程引擎开发平台,支持低代码. ...

  3. Web前端入门第 47 问:CSS @media 媒体查询不要只会视口宽度适配

    @media 媒体查询的出现解决了什么问题? 曾经,一个网页要兼容移动端和 PC 端,前端的代码复杂度嗖嗖嗖的飙升,需要使用多套代码对各种屏幕尺寸做适配. @media 的出现解决了 CSS 中无法适 ...

  4. QtWidget项目-仿腾讯QQ音乐

    本博客主要介绍本人写的个人项目 - QtWidget5 仿腾讯QQ音乐项目. 效果演示 项目详情 源码 Gitee地址:https://gitee.com/run-little-peach/my-qq ...

  5. 使用PocketFlowSharp创建一个Human_Evaluation示例

    效果 实践 有时候AI生成的结果我们并不满意在进入下一步之前,我们需要对AI生成的结果进行人工审核,同意了才能进入下一个流程. Human_Evaluation就是人工判断的一个简单示例. inter ...

  6. JVM垃圾回收为什么要分代

      分代的垃圾回收策略,是基于不同对象的生命周期不一样: 绝大多数对象都是朝生夕灭; 熬过越多次垃圾收集过程的对象就越难以消亡; 跨代引用相对于同代引用来说仅占极少数.   因此,不同生命周期的对象可 ...

  7. Innosetup 安装 VC_redist 运行时库

    #普通安装vc_redis.x86.exe(会提示用户做出选择),在innosetup的[Run]属性中添加下面这一行 Filename: "{app}VC_redist.x86.exe&q ...

  8. 代码随想录第十天 | 栈与队列part02

      第五章 栈与队列part02 150. 逆波兰表达式求值 本题不难,但第一次做的话,会很难想到,所以先看视频,了解思路再去做题 题目链接/文章讲解/视频讲解:https://programmerc ...

  9. CentOS 7.* 安装 python3.8.2 python3.10.2 步骤

    CentOS 7系列 安装 python3.8.2 步骤 1.在python官网下载linux源码包 地址:https://www.python.org/ftp/python/3.8.3/Python ...

  10. springboot中mybatis报错

    反正有关于mybatis报错的,问题肯定就是mybatis这几个文件之中. 要么就是Mapper类少注解,要么就是mybatis配置文件中的namespace java.lang.IllegalArg ...