• 本文首发自公众号:RAIS,期待你的关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

概率论

机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。

概念

离散型

  • 概率质量函数:是一个数值,概率,\(0\leq P(x)\leq 1\);
  • 边缘概率分布:\(P(X=x)=\sum_{y} P(X=x, Y=y)\)
  • 期望:\(EX=\sum_xP(x)f(x)\)

连续型

  • 概率密度函数:是一个积分,\(F_X(x)=\int_{-\infty}^xf_X(t)dt\);
  • 边缘概率分布:\(p(x)=\int p(x,y)dy\)
  • 期望:\(EX=\int P(x)f(x)dx\)

条件概率

\[P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
\]

相互独立

\[P(X=x,Y=y)=P(X=x)P(Y=y)
\]

条件独立

\[P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)
\]

方差

\[D(X)=Var(X)=E\{[X-E(X)]^2\}
\]

标准差

\[\sigma(X)=\sqrt{D(X)}
\]

协方差

\[Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}
\]

相关系数

\[\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
\]

常用分布

分布 分布律或概率密度 期望 方差
(0-1)分布 \(P\{X=k\}=p^k(1-p)^{1-k},k=0,1\) \(p\) \(p(1-p)\)
二项分布 \(P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k}\) \(np\) \(np(1-p)\)
均匀分布 \(f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
几何分布 \(P\{X=k\}=(1-p)^{k-1}p\) \(\frac{1}{p}\) \(\frac{1-p}{p^2}\)
泊松分布 \(P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!}\) \(\lambda\) \(\lambda\)
指数分布 \(f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\theta\) \(\theta^2\)
正态分布 \(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\mu\) \(\sigma^2\)

这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。

以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。

范畴分布(Multinoulli 分布)

范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:

分布 英文名 试验次数 结果可能数 例子
伯努利分布 Bernoulli distribution 1 2 扔一次硬币,正面向上概率
二项分布 Binomial distribution 多次 2 扔多次硬币,正面向上次数
范畴分布 Multinoulli distribution 1 多个 扔一次骰子,3点向上概率
多项式分布 Multinmial distribution 多次 多个 扔3次骰子,分别为1,2,3点

Laplace 分布

拉普拉斯分布。与指数分布可以对比着来看,看图:

Dirac delta 函数

狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。

经验分布

是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。不懂可以查看:这里

\[F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases}
\]

高斯混合模型

混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。

常用函数有用性质

logistic sigmoid 函数

\[\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1}
\]

逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。

softplus 函数

\[\zeta(x)=ln(1+e^x)
\]

值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。

贝叶斯规则

\[P(x|y)=\frac{P(x)P(y|x)}{P(y)}
\]

总结

如上这些内容是《Deep Learning》中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。

  • 本文首发自公众号:RAIS,期待你的关注。

【Deep Learning读书笔记】深度学习中的概率论的更多相关文章

  1. The Activation Function in Deep Learning 浅谈深度学习中的激活函数

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激 ...

  2. 《Deep Learning》(深度学习)中文版 开发下载

    <Deep Learning>(深度学习)中文版开放下载   <Deep Learning>(深度学习)是一本皆在帮助学生和从业人员进入机器学习领域的教科书,以开源的形式免费在 ...

  3. Neural Networks and Deep Learning(神经网络与深度学习) - 学习笔记

    catalogue . 引言 . 感知器及激活函数 . 代价函数(loss function) . 用梯度下降法来学习-Learning with gradient descent . 用反向传播调整 ...

  4. 吴恩达 Deep learning 第一周 深度学习概论

    知识点 1. Relu(Rectified Liner Uints 整流线性单元)激活函数:max(0,z) 神经网络中常用ReLU激活函数,与机器学习课程里面提到的sigmoid激活函数相比有以下优 ...

  5. 浅谈深度学习中的激活函数 - The Activation Function in Deep Learning

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激活 ...

  6. Deep Learning深入研究整理学习笔记五

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  7. Deep Learning论文笔记之(一)K-means特征学习

    Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  8. 深度学习中的序列模型演变及学习笔记(含RNN/LSTM/GRU/Seq2Seq/Attention机制)

    [说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...

  9. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

随机推荐

  1. Appium移动自动化框架功能概括

    小编说:Appium 是一个移动端自动化测试开源工具,可以针对不同的平台用一套API 来编写测试用例.本文对Appium自动化测试框架的功能进行了概括. 本文选自<软件自动化测试开发>,了 ...

  2. 【TensorFlow】自主实现包含全节点Cell的LSTM层 Cell

    0x00 前言 常用的LSTM,或是双向LSTM,输出的结果通常是以下两个:1) outputs,包括所有节点的hidden2) 末节点的state,包括末节点的hidden和cell大部分任务有这些 ...

  3. WiredTiger运行时参数优化

    MongoDB的WiredTiger存储引擎,用了一段时间,遇到了一些问题,通过优化WT参数,也解决了一些问题,做个小结. cache_size 指定WT存储引擎内部cache的内存用量上限. 需要注 ...

  4. Jprofile解析dump文件使用详解

    1 Jprofile简介 官网 下载对应的系统版本即可 性能查看工具JProfiler,可用于查看java执行效率,查看线程状态,查看内存占用与内存对象,还可以分析dump日志. 2 功能简介 选择a ...

  5. linux同步当前网络时间

    [root@root ~]# yum install -y ntpdate 执行:ntpdate[root@root ~]# ntpdate 120.24.81.91或[root@root ~]# n ...

  6. 零基础JavaScript编码(一)

    任务目的 JavaScript初体验 初步明白JavaScript的简单基本语法,如变量.函数 初步了解JavaScript的事件是什么 初步了解JavaScript中的DOM是什么 任务描述 参考以 ...

  7. JZOJ 3929. 【NOIP2014模拟11.6】创世纪

    3929. [NOIP2014模拟11.6]创世纪 (Standard IO) Time Limits: 1000 ms Memory Limits: 65536 KB Description 上帝手 ...

  8. PC端如何下载B站里面的视频?

    此随笔只是记录一下:   PC端下载B站的视频,在blibli前面加上一个i 然后在视频上鼠标右键,视频另存为+路径即可 PS:网上其他的方法,比如在blibli前面加上kan,后面加上jj等,这些方 ...

  9. 【MySQL 原理分析】之 Explain & Trace 深入分析全模糊查询走索引的原理

    一.背景 今天,交流群有一位同学提出了一个问题.看下图: 之后,这位同学确实也发了一个全模糊查询走索引的例子: 到这我们可以发现,这两个sql最大的区别是:一个是查询全字段(select *),而一个 ...

  10. duid 配置监控

    web.xml中加入 <servlet> <servlet-name>DruidStatView</servlet-name> <servlet-class& ...