一般数学表示方法

  • 概率数学表示方法

    \(\large \begin{array}{rl} \\
    \bm{X}:& 符合某种概率分布的Random\ Variable(随机变量) \\
    \bm{x}:& \bm{rnorm}, 随机变量X的一个实例, , … \\
    \bm{f}:& \bm{pdf}, \bm{dnorm}, \text{Probability Distribution Function}\ of\ \text{Random Variable }X, … \\
    \bm{F}:& \bm{cdf}, \bm{pnorm}, \text{Cumulative Density Function}\ of\ \text{Random Variable }X, … \\
    \bm{P(X=k)}:& \bm{pmd}, \text{Probability Mass Distribution} \\
    \end{array}\)

  • 常用概率分布

    • Discrete(离散概率分布)

      • Discrete Uniform(离散均匀分布)
      • Bernoulli(伯努利分布)
      • Binomial(二项式分布)
      • Poisson(泊松分布)
      • Hypergeometric(超几何分布)
    • Continuous(连续概率分布)
      • Uniform(均匀分布)
      • Normal/Gaussian(正态分布)
      • Exponential(指数分布)
      • Gamma分布
      • Beta分布
      • Gumbel分布

离散概率分布

Discrete Uniform(离散均匀分布)

  • Definition:每次抽样存在多种可能结果,每种结果出现的概率完全一致.

    即 X的 Sample Space 为 a finite set \(\large S=\{k_1, k_2, \cdots, k_n\}\),

    且 $\large \ P(X=k_i)=\dfrac{1}{n}, \ \forall \ i\ \in [1,\ n], \ i \in N $

  • Example:

    • Roll a die(掷骰子):

      • Sample Space is a finite set: \(\large S=\{1, 2, \cdots, 6\}\)
      • ELO(Equally Likely Outcomes): $P(X=i) = \dfrac{1}{6}, \ \forall i \in {1, 2, \cdots, 6} $
  • R代码:

      >>> x <- sample(c(1,2,6,8,9), 10000, prob=rep(0.2,5),replace=TRUE)
    >>> table(x)## 另一种方法:用index
    >>> idx <- runif(10000,0,5); idx <- ceiling(idx)
    >>> x <- c(1,2,6,8,9)[idx]
    >>> table(x)

Bernoulli(伯努利试验)

  • Definition: 仅存在两种可能结果一次 experiment

  • Example:

    • Toss a coin(扔硬币) ONE TIME: H(Head, 正面朝上),T(Tail, 反面朝上)

      \(P(X=H) = \pi, \ \ P(X=T) = 1- \pi\)
  • R代码:

      >>>进行1000次伯努利试验
    >>> outcome <- sample(c(“T”,”F”), 1000, prob=c(0.8, 0.2), replace=TRUE)
    >>> ot <- table(outcome)
    >>> ot <- ot/sum(ot)

Binomial

  • Definition:

    • 重复 n次独立 Bernoulli 的 概率分布就是Binomial(二项式)分布:

      • Sample Space 为 \(\large {1, 0}\),
      • 出现 \(\large 1\) 的概率是 \(\large p\),
      • \(\large n\) 次结果有 \(\large X\) 次的 \(\large 1\),
      • \(\large X\) 的可能取值范围是 $\large [1,\ n] \ of \ N $
  • Notation: 记作 \(\large X \sim B(n,p)\)

  • p.f. of \(\large Binomial\):

    \(\large P(X)= C_n^X \pi^X (1-\pi)^{n-X})\)

    \(\large C_n^X = \dfrac{n! }{(n-X)! X!}\)

  • 图形特征

    • \(\large \pi\)接近 \(\large 0.5\) 时,图形是对称的;
    • \(\large \pi\)离 \(\large 0.5\) 愈远,对称性愈差, 但随 \(\large n\) 的增大, 分布趋于对称.
    • 当 n→∞ 时,只要 \(\large \pi\) 不太靠近 \(\large 0\) 或\(\large 1\),

      当 \(\large nP\) 和 \(\large n(1-P)\) 都大于 \(\large 5\) 时, 二项分布 近似于 正态分布
    • 二项分布的图形取决于 \(\large \pi\) 与 \(\large n\) ,高峰在 \(\large \mu = n \pi\) 处
  • \(\large Binomial\) 示例1

    一个袋子里有5个乒乓球,其中2个黄球,3个白球,我们进行有放回的摸球游戏。

    因此每一次摸到黄球的概率是0.4,摸到白球的概率是0.6。

    这个实验有三个特点:

    1. 各次摸球是彼此独立的;每次摸球只有二种可能的结果,或黄或白;
    2. 重复进行无穷次的相互独立试验。
    3. 每次摸到黄球(或摸到白球)的概率是固定的

    具备这三点后, n次有X次摸到黄球(或白球)的概率分布就是二项分布。

  • Application:

    医学研究上的应用医学研究,很多现象的观察结果是以两分类变量来表示的,

    如阳性与阴性、治愈与未愈、生存与死亡等等。

    如果:

    • 每个观察对象, Positive结果概率均为 \(\large \pi\),Negative结果概率均为 \(\large (1-\pi)\);
    • 而且各个观察对象的结果是相互独立的,
    • 重复观察 n个人,

    发生Positive结果的人数X的概率分布为二项分布,记作\(\large B(X; n,\pi)\).

SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_统计分析: SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_统计数据分析: PROBABILITY DISTRIBUTIONS(常用概率分布)的更多相关文章

  1. 《Pro SQL Server Internals, 2nd edition》的CHAPTER 3 Statistics中的Introduction to SQL Server Statistics、Statistics and Execution Plans、Statistics Maintenance(译)

    <Pro SQL Server Internals> 作者: Dmitri Korotkevitch 出版社: Apress出版年: 2016-12-29页数: 804定价: USD 59 ...

  2. 基本概率分布Basic Concept of Probability Distributions 1: Binomial Distribution

    PDF下载链接 PMF If the random variable $X$ follows the binomial distribution with parameters $n$ and $p$ ...

  3. Study note for Continuous Probability Distributions

    Basics of Probability Probability density function (pdf). Let X be a continuous random variable. The ...

  4. 关系型数据库工作原理-数据特征统计分析(翻译自Coding-Geek文章)

    本文翻译自Coding-Geek文章:< How does a relational database work>.原文链接:http://coding-geek.com/how-data ...

  5. linux统计分析流量-wireshark

    wireshark是一款带界面的开源抓包工具,可以用来对系统流量进行统计分析. 安装 由于wireshark是带界面的,所以一般在界面环境下运行,可以通过yum安装: $ yum install -y ...

  6. [Math Review] Statistics Basic: Estimation

    Two Types of Estimation One of the major applications of statistics is estimating population paramet ...

  7. Bayesian Statistics for Genetics | 贝叶斯与遗传学

    Common sense reduced to computation - Pierre-Simon, marquis de Laplace (1749–1827) Inventor of Bayes ...

  8. [转] 利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能

    首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...

  9. 利用SET STATISTICS IO和SET STATISTICS TIME 优化SQL Server查询性能

    首先需要说明的是这篇文章的内容并不是如何调节SQL Server查询性能的(有关这方面的内容能写一本书),而是如何在SQL Server查询性能的调节中利用SET STATISTICS IO和SET ...

  10. SQL Server里等待统计(Wait Statistics)介绍

    在今天的文章里我想详细谈下SQL Server里的统计等待(Wait Statistics),还有她们如何帮助你立即为什么你的SQL Server当前很慢.一提到性能调优,对我来说统计等待是SQL S ...

随机推荐

  1. EFCore多数据库合并查询分页

    EFCore多数据库合并查询分页 参照:二个表的数据 如何做分页?_两个表排序分页_深圳市热心市民市民的博客-CSDN博客 基本情况介绍:由于系统迭代,部分收藏表在老系统的数据库,部分在新api接口的 ...

  2. 什么是AC自动机?如何实现?

    什么是AC自动机? 是基于 Trie树 和 KMP失配指针 的一种高效多模式匹配算法.AC自动机能够一次构建,随后在遍历文本时同时匹配多个敏感词. AC自动机算法的典型应用是敏感词匹配,在各大社交媒体 ...

  3. 信息资源管理综合题之“某国企投资IT应用人员减少但生成率没有实质性变化的IT黑洞问题”

    一.某大型国企在IT应用上投资了2000万美元,虽然蓝领工人数量大幅减少,但实际生产率并未有实质性变化 1.企业在IT应用上的巨额投资并未达到预期目标的这种现象被称为什么? 2.产生这现象的原因有哪些 ...

  4. git管理Unity项目

    git管理Unity项目的正确打开方式 在创建仓库的时候进行初始化仓库,选择.gitignore模版的时候选择Unity,就能自动过滤不需要的文件 原文链接:https://blog.csdn.net ...

  5. 聊一聊 C# NativeAOT 多平台下的函数导出

    一:背景 1. 讲故事 昨晚训练营里有一位朋友提到一个问题,说 C# AOT程序能否编译为一个dll,供其他语言调用,其实这个是完全没有问题的,也确实我的的文章体系中没有涉及到这块,那今天就补充完整吧 ...

  6. web29~web39

    参考博客: https://blog.csdn.net/m0_62422842/article/details/125507970 https://www.cnblogs.com/amazingman ...

  7. 第2讲、Tensor高级操作与自动求导详解

    1. 前言 在深度学习模型中,Tensor是最基本的运算单元.本文将深入探讨PyTorch中两个核心概念: Tensor的广播机制(Broadcasting) 自动求导(Autograd)机制 这些知 ...

  8. Linux命令之Telnet的使用方法

    无论是linux还是windows,在命令行下,telnet命令都可以用于查看某个远端主机端口或者服务域名是否可以访问,语法糖如下: telnet IP 端口 telnet 域名 端口(即:telne ...

  9. GStreamer开发笔记(五):gstreamer创建组件、管道和总线实现简单的播放器

    前言   前面是自动构建管道.本篇实例化每个元素并将它们链接在一起来手动构建一个管道.  本篇创建管道分为:创建组件,连接组件,获取总线,阻塞提取需要的消息并处理.   Demo      管道图   ...

  10. 数栈SQL优化案例:OR条件优化

    本文整理自:袋鼠云技术荟 | SQL优化案例(2):OR条件优化 数栈是云原生-站式数据中台PaaS,我们在github上有一个有趣的开源项目:https://github.com/DTStack/f ...