• 本文首发自公众号:RAIS,期待你的关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

概率论

机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。

概念

离散型

  • 概率质量函数:是一个数值,概率,\(0\leq P(x)\leq 1\);
  • 边缘概率分布:\(P(X=x)=\sum_{y} P(X=x, Y=y)\)
  • 期望:\(EX=\sum_xP(x)f(x)\)

连续型

  • 概率密度函数:是一个积分,\(F_X(x)=\int_{-\infty}^xf_X(t)dt\);
  • 边缘概率分布:\(p(x)=\int p(x,y)dy\)
  • 期望:\(EX=\int P(x)f(x)dx\)

条件概率

\[P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
\]

相互独立

\[P(X=x,Y=y)=P(X=x)P(Y=y)
\]

条件独立

\[P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)
\]

方差

\[D(X)=Var(X)=E\{[X-E(X)]^2\}
\]

标准差

\[\sigma(X)=\sqrt{D(X)}
\]

协方差

\[Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}
\]

相关系数

\[\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
\]

常用分布

分布 分布律或概率密度 期望 方差
(0-1)分布 \(P\{X=k\}=p^k(1-p)^{1-k},k=0,1\) \(p\) \(p(1-p)\)
二项分布 \(P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k}\) \(np\) \(np(1-p)\)
均匀分布 \(f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
几何分布 \(P\{X=k\}=(1-p)^{k-1}p\) \(\frac{1}{p}\) \(\frac{1-p}{p^2}\)
泊松分布 \(P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!}\) \(\lambda\) \(\lambda\)
指数分布 \(f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\theta\) \(\theta^2\)
正态分布 \(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\mu\) \(\sigma^2\)

这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。

以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。

范畴分布(Multinoulli 分布)

范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:

分布 英文名 试验次数 结果可能数 例子
伯努利分布 Bernoulli distribution 1 2 扔一次硬币,正面向上概率
二项分布 Binomial distribution 多次 2 扔多次硬币,正面向上次数
范畴分布 Multinoulli distribution 1 多个 扔一次骰子,3点向上概率
多项式分布 Multinmial distribution 多次 多个 扔3次骰子,分别为1,2,3点

Laplace 分布

拉普拉斯分布。与指数分布可以对比着来看,看图:

Dirac delta 函数

狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。

经验分布

是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。不懂可以查看:这里

\[F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases}
\]

高斯混合模型

混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。

常用函数有用性质

logistic sigmoid 函数

\[\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1}
\]

逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。

softplus 函数

\[\zeta(x)=ln(1+e^x)
\]

值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。

贝叶斯规则

\[P(x|y)=\frac{P(x)P(y|x)}{P(y)}
\]

总结

如上这些内容是《Deep Learning》中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。

  • 本文首发自公众号:RAIS,期待你的关注。

【Deep Learning读书笔记】深度学习中的概率论的更多相关文章

  1. The Activation Function in Deep Learning 浅谈深度学习中的激活函数

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激 ...

  2. 《Deep Learning》(深度学习)中文版 开发下载

    <Deep Learning>(深度学习)中文版开放下载   <Deep Learning>(深度学习)是一本皆在帮助学生和从业人员进入机器学习领域的教科书,以开源的形式免费在 ...

  3. Neural Networks and Deep Learning(神经网络与深度学习) - 学习笔记

    catalogue . 引言 . 感知器及激活函数 . 代价函数(loss function) . 用梯度下降法来学习-Learning with gradient descent . 用反向传播调整 ...

  4. 吴恩达 Deep learning 第一周 深度学习概论

    知识点 1. Relu(Rectified Liner Uints 整流线性单元)激活函数:max(0,z) 神经网络中常用ReLU激活函数,与机器学习课程里面提到的sigmoid激活函数相比有以下优 ...

  5. 浅谈深度学习中的激活函数 - The Activation Function in Deep Learning

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激活 ...

  6. Deep Learning深入研究整理学习笔记五

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  7. Deep Learning论文笔记之(一)K-means特征学习

    Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  8. 深度学习中的序列模型演变及学习笔记(含RNN/LSTM/GRU/Seq2Seq/Attention机制)

    [说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...

  9. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

随机推荐

  1. JAVA SE Lesson 1

    1.  类是一种抽象的概念,对象是类的一种具体表示形式,是具体的概念.先有类,然后由类来生成对象(Object).对象又叫做实例(Instance).2.  类由两大部分构成:属性以及方法.属性一般用 ...

  2. java的23种设计模式之建造者模式

    场景和本质 场景 本质 案例 原理 应用场景 场景和本质 场景 我们要建造一个复杂的产品.比如:神州飞船,Iphone.这个复杂的产品的创建.有这样一个问题需要处理:装配这些子组件是不是有个步骤问题? ...

  3. AIDLservice

    有三种情况:如果直接使用服务,则没有必要进行绑定,但是如果要使用服务里面的方法,则要进行绑定.具体的启动情况有下: 其中很重要一点:bindService和unbindService是成对出现的. 1 ...

  4. 换到GitHub 博客了

    觉得还是github上面的代码风格看起来舒服些,所以决定把blog搬到github上面去了.以后这里就作为一个放资料的地方吧. github地址:http://l34rner.github.io/

  5. vuejs 踩坑及经验总结

    问题描述 在使用 v-for repeat 组件时控制台会出现警告: 解决方法 在组件标签上使用 v-for : 加 :key 使用 template 标签包裹该组件,再在 template 标签 上 ...

  6. 从0开发3D引擎(十):使用领域驱动设计,从最小3D程序中提炼引擎(上)

    目录 上一篇博文 下一篇博文 前置知识 回顾上文 最小3D程序完整代码地址 通用语言 将会在本文解决的不足之处 本文流程 解释本文使用的领域驱动设计的一些概念 本文的领域驱动设计选型 设计 引擎名 识 ...

  7. 7-29 jmu-python-不同进制数 (10 分)

    输入一个十进制整数,输出其对应的八进制数和十六进制数.要求采用print函数的格式控制进行输出,八进制数要加前缀0o,十六进制数要加前缀0x. 输入格式: 输入一个十进制整数,例如:10 输出格式: ...

  8. 正式学习MVC 05

    1.剃须刀模板razor的使用 1)混编 循环语法 @model List<MVCStudy.Models.Student> @{ ViewBag.Title = "List&q ...

  9. 【JavaScript】DOM之表单操作

    DOM 表单操作 1.获取表单 获取表单元素 以Document对象中forms属性来获取当前HTML页面所有表单集合以Document对象中表单的name属性值来获取表单元元素 <body&g ...

  10. PxCook+photoshop实现傻瓜式切图(推荐小白使用)

    确定需求 刚入门前端的小伙伴经过一个阶段的学习,已经准备小试牛刀了.但看到设计师给出的psd图,又头疼了,天啊撸,怎么办,我不会切图啊.今天我就带领小白学习傻瓜式切图.包学包会.( ̄▽ ̄)" ...