1 问题: 什么是正态分布,为什么这么出名和重要?

1.1 名气大

  为什么叫“正态分布”,也有地方叫“常态分布”,这两个名字都不太直观,但如果我们各取一字变为“正常分布”,就很白话了,而这正是“正态分布”的本质含义,Normal Distribution。它太常见了,基本上能描述所有常见的事物和现象:正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢?就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见。

  你可能不禁要问,这是为什么?我们认为,这其实同质、变异的概念相关。因为我们研究的对象具有同质性(比如都是成年的中国男子),所以其特征往往是趋同的,即存在一个基准;但由于个体变异的存在(当然变异不会太大),这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征。

连续型随机变量研究区间概率

  了解了正态分布的基本思想,我们来看看实际应用中我们需要掌握的要点。首先,正态分布属于“连续型随机变量分布”的一类。我们知道,对于连续型随机变量,我们不关注“点概率”,只关注“区间概率”,这是什么意思?

  我们看这个例子,假定随机变量X指是“北京市成年男子的身高”,理论上它可以取任意正数,所以我们把它当做一个连续型随机变量(连续型变量,就是指可以取某一区间或整个实数轴上的任意一个值的变量)来看待。这里,我们先想一想如何计算P(X =1.87)? 即身高恰好完全exactly等于1.87的概率是多少,这就是所谓的“点概率”。更极端一点,让随机变量Y是[0,1]这个区间上的任意一点,那么Y的取值有多少个呢?无数多个,我们数不清楚,所以Y 取某一个具体的值的概率是1除以无数,即可以看做是0。于是,这里透露一个很重要的结论:连续型随机变量取任意某个确定的值的概率均为0。因此,对于连续型随机变量,我们通常不研究它取某个特定值的概率,而研究它在某一段区间上的取值,比如身高在1.70~1.80的概率。

概率密度函数(PDF Probability Density Function)

  对于初学者来讲,“概率密度”可能是最不友好的一个概念,直接谈概率不行吗,好好的为什么要生出一个“密度”?的确,没有太多数理基础,这个概念着实不太好理解。虽然文字和数学公式上你可能感觉很陌生,但我们特别熟知的那条中间高、两边低的“钟形曲线”恰恰就是正态分布的概率密度曲线。前面我们讲了区间概率,这里你就可以通过区间的角度来理解概率密度曲线:曲线越高,也就代表着这个区间的数据越密集,简单理解成在同样大小的房子里,这个房间的人数更多、更挤。除此之外,另一个关于概率密度函数的重要知识点是,积分(这里简单理解为“密度曲线下面积“即可)等于概率。随机变量X在某个区间比如(a,b)即a<X<b的概率,就是概率密度曲线在这个区间下的面积,数学上的表达就是密度函数在区间(a, b)上的积分。所以,概率的大小就是“概率密度函数曲线下的面积”的大小,这个不太起眼的概念实际上就决定了你日后是否能理解假设假设中所谓的“拒绝域”。

  下图中的三条曲线f(x),就是概率密度函数,各种形式的概率就是相对应的曲线下面积。这里,数学基础不太好的同学不用特别深挖积分的计算过程,但对这三张图与对应的概率表达形式,同学们要熟知。

  

 均数和标准差

  前面说对于正态分布的概率密度函数以及积分不用特别关注,那真正需要关注的是什么呢?就是均数和标准差。这里需要明确的是,一旦谈及正态分布,我们首先要想到它的两个参数:均数和标准差。每次一遇到正态分布就迅速找这两个概念,最好形成条件反射,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

  关于正态分布均数和标准差的性质,我们这里简单总结一下:

  1)概率密度曲线在均值处达到最大,并且对称;

  2)一旦均值和标准差确定,正态分布曲线也就确定;

  3)当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;

  4)正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 ;

  5)均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度:标准差越大,正态曲线越扁平;标准差越小,正态曲线越陡峭。这是因为,标准差越小,意味着大多数变量值离均数的距离越短,因此大多数值都紧密地聚集在均数周围,图形所能覆盖的变量值就少些(比如1±0.1涵盖[0.9,1.1]),于是都挤在一块,图形上呈现瘦高型。相反,标准差越大,数据跨度就比较大,分散程度大,所覆盖的变量值就越多(比如1±0.5涵盖[0.5,1.5]),图形呈现“矮胖型”。

  我们可以对照下图直观地看一下,图中黄色曲线为A,蓝色曲线为B,紫红色曲线为C。如图,我们可以看到均数的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦。A和B的均值一样,但标准差不同,所以形状不同,根据我们的描述,图形越瘦高,标准差越小,图形越扁平,标准差越大。确实如此,图中B的标准差是1/2,小于A的标准差1。

  • 正态分布的大名,如雷贯耳
  • 很多人一说到概率,除了想到丢骰子的古典概型,第二个会想到的就是正态分布了
  • 下图就是正态分布和标准正态分布曲线的图

  • 甚至大部分有区分度的考试(选拔筛选考试,而不是资格水平考试)
  • 学生成绩没呈现正态分布,可以说是试卷出卷和教学有问题

1.2 正态分布从哪儿来? 谁发明的?

名字:

  • 正态分布(Normal distribution)
  • 正常分布!一般的分布,完全可以这么翻译
  • 高斯分布(Gaussian distribution)
  • 钟形曲线  (bell curve)
  • 正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个极其常见的连续概率分布。因为正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
  • 高斯、拉普拉斯、棣莫弗、勒让德很多大神的作用一步步发展而来,高斯是发明了最小二乘方法
  • 正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布
  • 后来推广到其他概率分布,当样本量极大时接近无限,所有的分布都可以认为趋向于正态分布?
  • 哪些情况可以用正态分布?一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的

1.3 正态分布是概率论,还是统计?

  • 更多的是统计学
  • 因为都是从观测的数据,去反推这些数据服从什么  随机变量--概率的规律--也就是  概率密度曲线pdf,也就是概率的分布!

2 正态分布的基本概念内容介绍

2.1  正态分布

  • 正态分布,

  • 正态分布概率函数
  • f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)]
  • 正态分布的平均值  u,是理想的假设知道所有值之后的算术平均值?
  • 正态分布的期望? 就是均值吧
  • 正态分布的标准差  δ=np(1-p)
  • 正态分布的方差? 就是标准差的平方吧 δ^2

2.2 标准正态分布

  • 正态分布概率函数 f(x)=[1/(√2π)δ]*e^[-(x-u)^2/2(δ^2)]
  • 当u=0,δ=1 时,就是标准正态分布
  • 标准正态分布的概率公式更简洁

2.3 正态分布曲线  和 各种标准的意思

  • 第1置信区间: [-δ,δ] 之间,68.3%
  • 第2置信区间: [-2δ,2δ] 之间,95.4%
  • 第3置信区间: [-3δ,3δ] 之间,99.7%

2.4 正态分布的特点

  • 3个置信区间的
  • 第1置信区间: [-δ,δ] 之间,68.3%
  • 第2置信区间: [-2δ,2δ] 之间,95.4%
  • 第3置信区间: [-3δ,3δ] 之间,99.7%
  • 平均值就是期望
  • 极端值很少,在 [-3δ,3δ] 之外的数很少
  • 标准差小,则数据集中,钟形曲线瘦高个,如果是标准差大,那么钟形曲线就扁和矮。

2.5 正态分布的推论

  • 正态分布变量的和,一般也是正态分布
  • 正态分布相加,一般期望就等于2者期望之和,标准差等于2者标准差之和
  • 也就是正态分布相加,正态分布会变扁(因为标准差是求和变大了!越大越扁)
  • 正态分布还和柯西分布,k2分布有关系

3 哪些情况符合正态分布呢?

3.1 正态分布的适用范围

  • 正态分布,名字叫正常分布,适用面积非常的广
  • 常见的正态分布举例,比如WHO统计的儿童身高体重不就是正态分布的3个区间的数字么
  • 也就是一般就看 [-2δ,2δ] 之间,95.4% 就够了

3.2 哪些情况适合正态分布呢?

正态分布最初是从二项分布发展而来的,二项分布的pmf确实很像正态分布,后来推广到其他概率分布,当样本量极大时接近无限都可以认为趋向于正态分布?

哪些情况可以用正态分布?一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的

  • 正态分布,从离散的二项分布出发
  • 但是正态分布本身是一种连续分布
  • 正态分布是连续的,意味着单个点的概率p=0,只能关注区间概率
  • 哪些情况可以用正态分布?
  • 一般来说,据说是只要是针对同一类型的变量的试验,次数足够大的情况,都会趋向正态分布的,也就是正态分布具有普适性。。。
  • 生活中到处都是正态分布,试验次数很多的结果
  • 人们认为正态分布完美地诠释了讲到的“同质”和“变异”这两个概念。
  • 正是因为我们研究的对象具有同质性,所以其特征往往是趋同的,也即存在一个基准(均数),但由于个体变异的存在,这些特征又不是完全一致,

几个关键点

  • 只要是针对同一类型的变量的试验,这个说法,意味着一般是类伯努利试验,每次试验之间是独立的,互不影响
  • 也就是说这些随机元素,影响因素之间要独立
  • 而且一般说,影响的因素要比较多
  • 这些随机元素对结果的影响,一般是使用加法原理,用加和的方法求得。也就是这些因素对完成随机试验的结果,是并行的关系。
  • 举例子,用身高举例,遗传因素,环境因素,饮食因素,锻炼因素都是独立的(或者相关程度很低,不是强相关),他们对身高的影响都是可以用加法原理加和的。这样的就符合正态分布

3.3 哪些不适合正态分布呢?

  • 随机元素之间,不是独立的,而是有互相影响则可能不正态分布
  • 如果一些因素作用还可能有前后步骤,乘法原理的关系,就可能不是正态分布
  • 如果影响的因素毕竟少,不多,原因太单一可能不是正态分布

正态分布变成标准正态分布

我能不能理解标准化就是把图形σ倍缩小然后移动μ个位置啊

4  为什么呢?

4.1 极大似然估计

4.2 中心极限定理

4.3 最小二乘法

样本足够大则近似认为服从正态分布

样本量一般至少要超过30才可以认为可以近似正态分布

5 具体例题举例,还需要查表

查表

6 另外几个分布

  • k2分布
  • f分布
  • t分布等等

7  一些有趣的研究

  • 牛人们根据这个研究出,不同XX的人组合,就是正态分布的叠加,因此标准差会变大。。。。
  • 第一次看到这种角度,理解他们的想法了,脑洞好大啊

参考文献:概率论的学习和整理12: 正态分布_概率论正态分布-CSDN博客

一文搞懂“正态分布”所有重要知识点_正态分布值是占比吗-CSDN博客

正态分布——“牛而B之”的更多相关文章

  1. 一年三篇IF大于7的牛人告诉你怎么写SCI

    一年三篇IF大于7的牛人告诉你怎么写SCI 1 研究生必备四本 俗话说好记性不如烂笔头,所以一定要首先养成做笔记的好习惯!作为研究生下面这几个本子是必不可少的: 1.实验记录本(包括试验准备本),这当 ...

  2. 说一说python的牛比与不爽

    本人写了10年php了.今年开始改写python了.不是说php有什么不好,php在自己的势力范围内还是很牛比的.只是我已经不能满足于php那两亩地了. 习惯了脚本,所以很自然就过度到python了. ...

  3. discuz接入七牛sdk

    自己摸索了几天,找群里面的人各种问,都没有一个人回答我,哎,国内的开源精神呢...... 需要修改有以下几个: 1.替换 /source/class/class_core.php 文件   解释:就 ...

  4. 别语言之争了,最牛逼的语言不是.NET,也不是JAVA!

    谁都不用说,博客园明显的偏.NET,C#的讨论一出现,推荐讨论热火朝天,而发点JAVA的东西,应者寥寥.一旦有出现两大派系的竞争,那绝对是头条.每天都看,早就麻木了. 研二的我浸淫.NET已经三四年, ...

  5. 为什么我会认为SAP是世界上最好用最牛逼的ERP系统,没有之一?

    为什么我认为SAP是世界上最好用最牛逼的ERP系统,没有之一?玩过QAD.Tiptop.用友等产品,深深觉得SAP是贵的有道理! 一套好的ERP系统,不仅能够最大程度承接适配企业的管理和业务流程,在技 ...

  6. Android 7.0 Nougat牛轧糖 发布啦

    Android 7.0 Nougat牛轧糖 发布啦 Android 7.0 Nougat 牛轧糖于本月发布了. 从官方blog里可以了解到这个版本的新特性. Android 7.0 从2016年8月正 ...

  7. Android 千牛数据库分析

    标签(空格分隔): 千牛,逆向 问题:Android 千牛登陆后产生保存用户数据的db无法直接用sqlite3打开,需要解密. 反编译Apk后jd-gui查看源码.熟悉的sqlcrypto模块加密,阿 ...

  8. C语言产生标准正态分布或高斯分布随机数

    C语言 产生标准正态分布或高斯分布 随机数 产生正态分布或高斯分布的三种方法: 1. 运用中心极限定理(大数定理) #include #include #define NSUM 25 double g ...

  9. 前端js调用七牛制作评价页面案例

    一.需求 公司所有的上传页面都用七牛,前端不免要直接调用七牛的代码进行上传,以下是一个实现七牛上传的案例,制作一个常见的商品评价页面,页面需求很常见当上传到第五章图片的时候,上传按钮消失,上传需要显示 ...

  10. 一些牛逼哄哄的javascript面试题

    今天我们来对这5个题目详细分析一下,希望对大家有所帮助. 注: 问题来自大名鼎鼎的前端架构师Baranovskiy的帖子<So, you think you know JavaScript?&g ...

随机推荐

  1. 【转载】python的魔法方法———A Guide to Python's Magic Methods

    原文地址: https://rszalski.github.io/magicmethods/ ===================================================== ...

  2. vue之插槽-slot

    1.背景 2.slot简单使用 <!DOCTYPE html> <html lang="en"> <head> <meta charset ...

  3. impdp/expdp报错: ORA-39064: 无法写入日志文件 ORA-29285: 文件写入错误

    问题现象 Windows服务器导入/导出Oracle 11g数据库出现如下报错提示,输出的日志文件从报错位置往后不再输出. ORA-39064: 无法写入日志文件 ORA-29285: 文件写入错误 ...

  4. 基于SiliconCloud快速体验GraphRag.Net

    SiliconCloud介绍 SiliconCloud 基于优秀的开源基础模型,提供高性价比的 GenAI 服务. 不同于多数大模型云服务平台只提供自家大模型 API,SiliconCloud上架了包 ...

  5. 需要多久才能看完linux内核源码?

    代码中自由颜如玉!代码中自有黄金屋! 一.内核行数 Linux内核分为CPU调度.内存管理.网络和存储四大子系统,针对硬件的驱动成百上千.代码的数量更是大的惊人. 先说说最早的内核linux 0.11 ...

  6. Win32 自绘控件按钮类

    今天学了控件的自绘,初步偿试了下,蹂躏的不行不行的,查了好多的资料,头都弄大了, 有好多还是没弄明白,只是初步实现一个按钮的基本功能,好难呀, 先看下效果: 按下状态 弹起状态 按钮2按下状态 按钮2 ...

  7. zabbix报错大全

    zabbix报错 https://www.cnblogs.com/losbyday/category/876878.html作者总结的很全棒 1.在启动zabbix-agent 时系统日志输出 PID ...

  8. P10884 [COCI 2017-2018#2] San

    题目传送门:P10884 [COCI 2017-2018#2] San 看下标签 COCI(克罗地亚) 2017 啊 比我小4年的题 --------------------------------- ...

  9. webpack笔记-webpack基础用法(二)

    webpack 本质上是一个打包工具,它会根据代码的内容解析模块依赖,帮助我们把多个模块的代码打包. 一切文件:JavaScript.CSS.SCSS.图片.模板,在 Webpack 眼中都是一个个模 ...

  10. HTML / CSS – Email Marketing HTML Template

    前言 虽然现在的 Email Client 有在进步, 但是比起 browser 还是差太远了. 假如你用 HTML5 + CSS3 的方式去写 Email Template 的话是不行的. 这篇特地 ...