• 本文首发自公众号:RAIS,期待你的关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

概率论

机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。

概念

离散型

  • 概率质量函数:是一个数值,概率,\(0\leq P(x)\leq 1\);
  • 边缘概率分布:\(P(X=x)=\sum_{y} P(X=x, Y=y)\)
  • 期望:\(EX=\sum_xP(x)f(x)\)

连续型

  • 概率密度函数:是一个积分,\(F_X(x)=\int_{-\infty}^xf_X(t)dt\);
  • 边缘概率分布:\(p(x)=\int p(x,y)dy\)
  • 期望:\(EX=\int P(x)f(x)dx\)

条件概率

\[P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
\]

相互独立

\[P(X=x,Y=y)=P(X=x)P(Y=y)
\]

条件独立

\[P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)
\]

方差

\[D(X)=Var(X)=E\{[X-E(X)]^2\}
\]

标准差

\[\sigma(X)=\sqrt{D(X)}
\]

协方差

\[Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}
\]

相关系数

\[\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
\]

常用分布

分布 分布律或概率密度 期望 方差
(0-1)分布 \(P\{X=k\}=p^k(1-p)^{1-k},k=0,1\) \(p\) \(p(1-p)\)
二项分布 \(P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k}\) \(np\) \(np(1-p)\)
均匀分布 \(f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
几何分布 \(P\{X=k\}=(1-p)^{k-1}p\) \(\frac{1}{p}\) \(\frac{1-p}{p^2}\)
泊松分布 \(P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!}\) \(\lambda\) \(\lambda\)
指数分布 \(f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\theta\) \(\theta^2\)
正态分布 \(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\mu\) \(\sigma^2\)

这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。

以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。

范畴分布(Multinoulli 分布)

范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:

分布 英文名 试验次数 结果可能数 例子
伯努利分布 Bernoulli distribution 1 2 扔一次硬币,正面向上概率
二项分布 Binomial distribution 多次 2 扔多次硬币,正面向上次数
范畴分布 Multinoulli distribution 1 多个 扔一次骰子,3点向上概率
多项式分布 Multinmial distribution 多次 多个 扔3次骰子,分别为1,2,3点

Laplace 分布

拉普拉斯分布。与指数分布可以对比着来看,看图:

Dirac delta 函数

狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。

经验分布

是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。不懂可以查看:这里

\[F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases}
\]

高斯混合模型

混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。

常用函数有用性质

logistic sigmoid 函数

\[\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1}
\]

逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。

softplus 函数

\[\zeta(x)=ln(1+e^x)
\]

值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。

贝叶斯规则

\[P(x|y)=\frac{P(x)P(y|x)}{P(y)}
\]

总结

如上这些内容是《Deep Learning》中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。

  • 本文首发自公众号:RAIS,期待你的关注。

【Deep Learning读书笔记】深度学习中的概率论的更多相关文章

  1. The Activation Function in Deep Learning 浅谈深度学习中的激活函数

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激 ...

  2. 《Deep Learning》(深度学习)中文版 开发下载

    <Deep Learning>(深度学习)中文版开放下载   <Deep Learning>(深度学习)是一本皆在帮助学生和从业人员进入机器学习领域的教科书,以开源的形式免费在 ...

  3. Neural Networks and Deep Learning(神经网络与深度学习) - 学习笔记

    catalogue . 引言 . 感知器及激活函数 . 代价函数(loss function) . 用梯度下降法来学习-Learning with gradient descent . 用反向传播调整 ...

  4. 吴恩达 Deep learning 第一周 深度学习概论

    知识点 1. Relu(Rectified Liner Uints 整流线性单元)激活函数:max(0,z) 神经网络中常用ReLU激活函数,与机器学习课程里面提到的sigmoid激活函数相比有以下优 ...

  5. 浅谈深度学习中的激活函数 - The Activation Function in Deep Learning

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激活 ...

  6. Deep Learning深入研究整理学习笔记五

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  7. Deep Learning论文笔记之(一)K-means特征学习

    Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  8. 深度学习中的序列模型演变及学习笔记(含RNN/LSTM/GRU/Seq2Seq/Attention机制)

    [说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...

  9. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

随机推荐

  1. IOS常见语法解惑

    由于工作过程中经常需要查看IOS的Objective-C代码,遂把一些常见的.有疑问的OC语法列出,方便之后会看,提升效率. Objective-C中的@语法 @interface告诉编译器,我要声明 ...

  2. 831. KMP字符串

    给定一个模式串S,以及一个模板串P,所有字符串中只包含大小写英文字母以及阿拉伯数字. 模板串P在模式串S中多次作为子串出现. 求出模板串P在模式串S中所有出现的位置的起始下标. 输入格式 第一行输入整 ...

  3. 免密码 ssh 到其它机器

    背景:在配置 hadoop 的时候这样设置会比较方便.目标:A 机器上输入 ssh root@B 可以直接访问,不需要输入密码 步骤: 首先在 A 机器上生成密钥对,一路回车 1 ssh-keygen ...

  4. 添砖加瓦:简述ELK部署

    1.准备工作 ELK下载:https://www.elastic.co/downloads/ jdk version:1.8.0_162 2.环境搭建 ElasticSearch: (1)不能使用ro ...

  5. 手机视频APP将关闭 生态梦成空的三星如何自救?

    生态梦成空的三星如何自救?"> 三星如今的处境,只能用"屋漏偏逢连夜雨"来形容.继营收.利润.智能手机销量等大幅下滑之后,裁员也接踵而来,股价的下跌也自然在情理之中 ...

  6. 阿里投资Magic Leap 是美酒还是毒药?

    Leap 是美酒还是毒药?" title="阿里投资Magic Leap 是美酒还是毒药?"> 土豪阿里又摊上"大事"了!但这次不是让人头痛的假 ...

  7. android activity 启动过程分析(source code 4.4)

    说实话,android source code从2.3到4.4变化是蛮多的,尤其是media部分,虽然总的框架是没有多大变化,但是找起代码来看还是挺麻烦的.在android里面最受伤的是使用了java ...

  8. cmake引用包初探

    应要求使用的是 mediastreamer2 库.以前开发是在tools下注册了一个新的tool,现在应该另行建立一个项目. 好像 CMake 写的项目叫package??? 项目名字是 mstest ...

  9. [面试专题]前端需要知道的web安全知识

    前端需要知道的web安全知识 标签(空格分隔): 未分类 安全 [Doc] Crypto (加密) [Doc] TLS/SSL [Doc] HTTPS [Point] XSS [Point] CSRF ...

  10. ASP.NET Core中的Http缓存

    ASP.NET Core中的Http缓存 Http响应缓存可减少客户端或代理对web服务器发出的请求数.响应缓存还减少了web服务器生成响应所需的工作量.响应缓存由Http请求中的header控制. ...