在上一篇博文《Python中的随机采样和概率分布(一)》(链接:https://www.cnblogs.com/orion-orion/p/15647408.html)中,我们介绍了Python中最简单的随机采样函数。接下来我们更进一步,来看看如何从一个概率分布中采样,我们以几个机器学习中最常用的概率分布为例。

1. 二项(binomial)/伯努利(Bernoulli)分布

1.1 概率质量函数(pmf)

\[P(X = x;\space n, \space p)=\left(\begin{array}{c}n \\ x\end{array}\right) p^{x}(1-p)^{n-x}\\
x=0,1,2,...n; \space 0\leqslant p \leqslant 1
\]

当\(n=1\)时,则取到下列极限情况,是为参数为\(p\)的二项分布:

\[P(X = x;\space p)= p^{x}(1-p)^{1-x}\\
x=0,1; \space 0\leqslant p \leqslant 1
\]

二项分布\(P(X = x;\space n, \space p)\)可以表示进行独立重复试验\(n\)次,每次有两成功和失败可能结果(分别对应概率\(p\)和\(1-p\)),共成功\(x\)次的概率。

1.2 函数原型


random.binomial(n, p, size=None)

参数:

n: int or array_like of ints   对应分布函数中的参数 n,>=0,浮点数会被截断为整形。

p: float or array_like of floats   对应分布函数参数\(p\), >=0并且<=1。

size: int or tuple of ints, optional   如果给定形状为\((m, n, k)\),那么\(m\times n \times k\)个随机样本会从中抽取。默认为None,即返回一个一个标量随机样本。

返回:

out: ndarray or scalar  从带参数的概率分布中采的随机样本,每个样本表示独立重复实验\(n\)次中成功的次数。


1.3 使用样例

设进行独立重复实验10次,每次成功概率为0.5,采样样本表示总共的成功次数(相当于扔10次硬币,正面朝上的次数)。总共采20个样本。

import numpy as np
n, p = 10, .5
s = np.random.binomial(n, p, 20)
print(s) # [4 5 6 5 4 2 4 6 7 2 4 4 2 4 4 7 6 3 5 6]

可以粗略的看到,样本几乎都在5周围上下波动。

我们来看一个有趣的例子。一家公司钻了9口井,每口井成功的概率为0.1,所有井都失败了,发生这种情况的概率是多少?

我们总共采样2000次,来看下产生0结果的概率。

s = sum(np.random.binomial(9, 0.1, 20000) == 0)/20000.
print(s) # 0.3823

可见,所有井失败的概率为0.3823,这个概率还是蛮大的。

2. 多项(multinomial)分布

2.1 概率质量函数(pmf)

\[P(\bm{X} = \bm{x};\space n, \space \bm{p})=\frac{n !}{x_{1} ! \cdots x_{k} !} p_{1}^{x_{1}} \cdots p_{k}^{x_{k}}\\
\bm{x}=(x_1, x_2, ..., x_k), x_i \in \{0, ..., n\}, \space \sum_{i}{x_i}=n; \\
\bm{p}=(p_1, p_2, ..., p_k), 0\leqslant p_i \leqslant 1, \space \sum_{i}{p_i}=1
\]

当\(k=2\)时,则取到下列极限情况,是为参数为\(n\), \(p\)的二项分布:

\[P(X = x;\space n, \space p)=\frac{n !}{x !(n-x) !} p^{x}(1-p)^{n-x}\\
x=0,1,2,...n; \space 0\leqslant p \leqslant 1
\]

也就是说,多项分布式二项分布的推广:仍然是独立重复实验\(n\)次,但每次不只有成功和失败两种结果,而是\(k\)种可能的结果,每种结果的概率为\(p_i\)。多项分布是一个随机向量的分布,\(\bm{x}=(x_1, x_2, ..., x_k)\)意为第\(i\)种结果出现\(x_i\)次,\(P(\bm{X} = \bm{x};\space n, \space p)\)也就表示第\(i\)种结果出现\(x_i\)次的概率。

2.2 函数原型


random.multinomial(n, pvals, size=None)

参数:

n: int   对应分布函数中的参数 n

pvals: sequence of floats   对应分布函数参数\(\bm{p}\), 其长度等于可能的结果数\(k\),并且有\(0 \leqslant p_i \leqslant 1\)。

size: int or tuple of ints, optional   为输出形状大小,因为采出的每个样本是一个随机向量,默认最后一维会自动加上\(k\),如果给定形状为\((m, n)\),那么\(m\times n\)个维度为\(k\)的随机向量会从中抽取。默认为None,即返回一个一个\(k\)维的随机向量。

返回:

out: ndarray   从带参数的概率分布中采的随机向量,长度为可能的结果数\(k\),如果没有给定 size,则shape为 (k,)


2.3 使用样例

设进行独立重复实验20次,每次情况的概率为1/6,采样出的随机向量表示每种情况出现次数(相当于扔20次六面骰子,点数为0, 1, 2, ..., 5出现的次数)。总共采1个样本。

s = np.random.multinomial(20, [1/6.]*6, size=1)
print(s) # [[4 2 2 3 5 4]]

当然,如果不指定size,它直接就会返回一个一维向量了

s = np.random.multinomial(20, [1/6.]*6)
print(s) # [4 1 4 3 5 3]

如果像进行多次采样,改变 size即可:

s = np.random.multinomial(20, [1/6.]*6, size=(2, 2))
print(s)
# [[[4 3 4 2 6 1]
# [5 2 1 6 3 3]] # [[5 4 1 1 6 3]
# [2 5 2 5 4 2]]]

这个函数在论文<sup>[1]</sup>的实现代码<sup>[2]</sup>中用来设置每一个 client分得的样本数:

for cluster_id in range(n_clusters):
weights = np.random.dirichlet(alpha=alpha * np.ones(n_clients))
clients_counts[cluster_id] = np.random.multinomial(clusters_sizes[cluster_id], weights)
# 一共扔clusters_sizes[cluster_id]次筛子,该函数返回骰子落在某个client上各多少次,也就对应着该client应该分得的样本数

3.均匀(uniform)分布

3.1 概率密度函数(pdf)

\[p(x; \space a, \space b)=\frac{1}{b-a}
\]

均匀分布可用于随机地从连续区间\([a, b)\)内进行采样。

3.2 函数原型


random.uniform(low=0.0, high=1.0, size=None)

参数:

low: float or array_like of floats, optional   对应分布函数中的下界参数 a,默认为0。

high: float or array_like of floats   对应分布函数中的下界参数 b,默认为1.0。

size: int or tuple of ints, optional   为输出形状大小,如果给定形状为\((m, n, k)\),那么\(m\times n\times k\)的样本会从中抽取。默认为None,即返回一个单一标量。

返回:

out: ndarray or scalar   从带参数的均匀分布周采的随机样本


3.3 使用样例

s = np.random.uniform(-1,0,10)
print(s)
# [-0.9479594 -0.86158902 -0.63754099 -0.0883407 -0.92845644 -0.11148294
# -0.19826197 -0.77396765 -0.26809953 -0.74734785]

4. 狄利克雷(Dirichlet)分布

4.1 概率密度函数(pdf)

\[P(\bm{x}; \bm{\alpha}) \propto \prod_{i=1}^{k} x_{i}^{\alpha_{i}-1} \\
\bm{x}=(x_1,x_2,...,x_k),\quad x_i > 0 , \quad \sum_{i=1}^k x_i = 1\\
\bm{\alpha} = (\alpha_1,\alpha_2,..., \alpha_k). \quad \alpha_i > 0
\]

4.2 函数原型


random.dirichlet(alpha, size=None)

参数:

alpha: sequence of floats, length k   对应分布函数中的参数向量 \(\alpha\),长度为\(k\)。

size: int or tuple of ints, optional   为输出形状大小,因为采出的每个样本是一个随机向量,默认最后一维会自动加上\(k\),如果给定形状为\((m, n)\),那么\(m\times n\)个维度为\(k\)的随机向量会从中抽取。默认为None,即返回一个一个\(k\)维的随机向量。

返回:

out: ndarray   采出的样本,大小为\((size, k)\)。


4.3 使用样例

设\(\bm{\alpha}=(10, 5, 3)\)(意味着\(k=3\)),\(size=(2, 2)\),则采出的样本为\(2\times 2\)个维度为\(k=3\)的随机向量。

s = np.random.dirichlet((10, 5, 3), size=(2, 2))
print(s)
# [[[0.82327647 0.09820451 0.07851902]
# [0.50861077 0.4503409 0.04104833]] # [[0.31843167 0.22436547 0.45720285]
# [0.40981943 0.40349597 0.1866846 ]]]

这个函数在论文<sup>[1]</sup>的实现代码<sup>[2]</sup>中用来生成符合狄利克雷分布的权重向量

for cluster_id in range(n_clusters):
# 为每个client生成一个权重向量,文章中分布参数alpha每一维都相同
weights = np.random.dirichlet(alpha=alpha * np.ones(n_clients))
clients_counts[cluster_id] = np.random.multinomial(clusters_sizes[cluster_id], weights)

参考文献

Python中的随机采样和概率分布(二)的更多相关文章

  1. Python中的随机采样和概率分布(一)

    Python(包括其包Numpy)中包含了了许多概率算法,包括基础的随机采样以及许多经典的概率分布生成.我们这个系列介绍几个在机器学习中常用的概率函数.先来看最基础的功能--随机采样. 1. rand ...

  2. python中的随机模块random

    random模块是 python 中为随机数所使用的模块 ```import random # 随机生成0-1范围内的随机浮点数i = random.random()print(i) # 随机生成范围 ...

  3. 盘点 Python 中的那些冷知识(二)

    上一篇文章分享了 Python中的那些冷知识,地址在这里 盘点 Python 中的那些冷知识(一) 今天将接着分享!! 06. 默认参数最好不为可变对象 函数的参数分三种 可变参数 默认参数 关键字参 ...

  4. Python中的多进程与多线程(二)

    在上一章中,学习了Python多进程编程的一些基本方法:使用跨平台多进程模块multiprocessing提供的Process.Pool.Queue.Lock.Pipe等类,实现子进程创建.进程池(批 ...

  5. 在python中实现随机选择

    想从一个序列中随机抽取若干元素,或者想生成几个随机数. random 模块有大量的函数用来产生随机数和随机选择元素.比如,要想从一个序列中随机的抽取一个元素,可以使用random.choice() : ...

  6. python中生成随机整数(random模块)

    1.从一个序列中随机选取一个元素返回:   random.choice(sep)    2.用于将一个列表中的元素打乱   random.shuffle(sep)    3.在sep列表中随机选取k个 ...

  7. 【转】python中的一维卷积conv1d和二维卷积conv2d

    转自:https://blog.csdn.net/qq_26552071/article/details/81178932 二维卷积conv2d 给定4维的输入张量和滤波器张量来进行2维的卷积计算.即 ...

  8. 关于python中的随机种子——random_state

    random_state是一个随机种子,是在任意带有随机性的类或函数里作为参数来控制随机模式.当random_state取某一个值时,也就确定了一种规则. random_state可以用于很多函数,我 ...

  9. 『无为则无心』Python基础 — 42、Python中文件的读写操作(二)

    目录 (5)文件对象方法(重点) 1)写方法 2)读方法 3)seek()方法 4)tell()方法 (6)关闭 (7)综合练习:读取大文件 (5)文件对象方法(重点) 1)写方法 @1.语法 对象对 ...

随机推荐

  1. 线程池系列二:一张动图,彻底懂了execute和submit

    ​ 我们知道线程池通过execute方法执行提交的Runnable任务,但Runnable只是执行任务,没有返回任何信息. [线程池原理:线程池原来是个外包公司,打工人我悟了] 若是我们想在异步执行完 ...

  2. 要想玩转FPGA,按这4个步骤来

    FPGA 作为一种高新技术,由于其结构的特殊性,可以重复编程,开发周期较短,越来越受到电子爱好者的青睐,其应用已经逐渐普及到了各行各业.因此,越来越多的学生或工程师都希望跨进FPGA的大门掌握这门技术 ...

  3. Python之@property详解及底层实现介绍

    转自:https://blog.csdn.net/weixin_42681866/article/details/83376484 前文 Python内置有三大装饰器:@staticmethod(静态 ...

  4. c++中virtual 虚函数

    转载: https://www.cnblogs.com/weiyouqing/p/7544988.html 在面向对象的C++语言中,虚函数(virtual function)是一个非常重要的概念. ...

  5. 第06课 OpenGL 纹理映射

    纹理映射: 在这一课里,我将教会你如何把纹理映射到立方体的六个面. 学习 texture map 纹理映射(贴图)有很多好处.比方说您想让一颗导弹飞过屏幕.根据前几课的知识,我们最可行的办法可能是很多 ...

  6. 『学了就忘』Linux基础 — 17、远程服务器关机及重启时的注意事项

    目录 1.为什么远程服务器不能关机 2.远程服务器重启时需要注意两点 3.不要在服务器访问高峰运行高负载命令 4.远程配置防火墙时不要把自己踢出服务器 5.指定合理的密码规范并定期更新 6.合理分配权 ...

  7. 并发编程从零开始(十四)-Executors工具类

    并发编程从零开始(十四)-Executors工具类 12 Executors工具类 concurrent包提供了Executors工具类,利用它可以创建各种不同类型的线程池 12.1 四种对比 单线程 ...

  8. Swarm+Docker+Portainer(集群,图形化)

    参考文章 https://blog.csdn.net/u011781521/article/details/80469804 https://blog.csdn.net/u011781521/arti ...

  9. Python推导式详解,带你写出比较精简酷炫的代码

    Python推导式详解,带你写出比较精简酷炫的代码 前言 1.推导式分类与用法 1.1 列表推导 1.2 集合推导 1.3 字典推导 1.4 元组推导?不存在的 2.推导式的性能 2.1 列表推导式与 ...

  10. git clone报错处理

    git clone过大的仓库时会报以下错误 remote: aborting due to possible repository corruption on the remote side. fat ...