• 本文首发自公众号:RAIS,期待你的关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。

概率论

机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。

概念

离散型

  • 概率质量函数:是一个数值,概率,\(0\leq P(x)\leq 1\);
  • 边缘概率分布:\(P(X=x)=\sum_{y} P(X=x, Y=y)\)
  • 期望:\(EX=\sum_xP(x)f(x)\)

连续型

  • 概率密度函数:是一个积分,\(F_X(x)=\int_{-\infty}^xf_X(t)dt\);
  • 边缘概率分布:\(p(x)=\int p(x,y)dy\)
  • 期望:\(EX=\int P(x)f(x)dx\)

条件概率

\[P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
\]

相互独立

\[P(X=x,Y=y)=P(X=x)P(Y=y)
\]

条件独立

\[P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)
\]

方差

\[D(X)=Var(X)=E\{[X-E(X)]^2\}
\]

标准差

\[\sigma(X)=\sqrt{D(X)}
\]

协方差

\[Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}
\]

相关系数

\[\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
\]

常用分布

分布 分布律或概率密度 期望 方差
(0-1)分布 \(P\{X=k\}=p^k(1-p)^{1-k},k=0,1\) \(p\) \(p(1-p)\)
二项分布 \(P\{X=k\}=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k}\) \(np\) \(np(1-p)\)
均匀分布 \(f(x)=\begin{cases}\frac{1}{b-1},\,\,\,\,\,a<x<b\\0,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\frac{a+b}{2}\) \(\frac{(b-a)^2}{12}\)
几何分布 \(P\{X=k\}=(1-p)^{k-1}p\) \(\frac{1}{p}\) \(\frac{1-p}{p^2}\)
泊松分布 \(P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!}\) \(\lambda\) \(\lambda\)
指数分布 \(f(x)=\begin{cases}\frac{1}{\theta}e^{-\frac{x}{\theta}},\,\,x>0\\0,\,\,\,\,\,\,\,\,\,\,\,\,其他\end{cases}\) \(\theta\) \(\theta^2\)
正态分布 \(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) \(\mu\) \(\sigma^2\)

这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。

以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。

范畴分布(Multinoulli 分布)

范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:

分布 英文名 试验次数 结果可能数 例子
伯努利分布 Bernoulli distribution 1 2 扔一次硬币,正面向上概率
二项分布 Binomial distribution 多次 2 扔多次硬币,正面向上次数
范畴分布 Multinoulli distribution 1 多个 扔一次骰子,3点向上概率
多项式分布 Multinmial distribution 多次 多个 扔3次骰子,分别为1,2,3点

Laplace 分布

拉普拉斯分布。与指数分布可以对比着来看,看图:

Dirac delta 函数

狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。

经验分布

是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。不懂可以查看:这里

\[F_n(x)=\begin{cases}0,\,\,\,\,\,\,x<x_1\\\frac{k}{n},\,\,\,\,\,\,x_k\leq x<x_{k+1},k=1,2,...,n-1\\1,\,\,\,\,\,\,x_n\leq x\end{cases}
\]

高斯混合模型

混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。

常用函数有用性质

logistic sigmoid 函数

\[\sigma(x)=\frac{1}{1+e^{-x}}=\frac{e^x}{e^x+1}
\]

逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。

softplus 函数

\[\zeta(x)=ln(1+e^x)
\]

值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。

贝叶斯规则

\[P(x|y)=\frac{P(x)P(y|x)}{P(y)}
\]

总结

如上这些内容是《Deep Learning》中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。

  • 本文首发自公众号:RAIS,期待你的关注。

【Deep Learning读书笔记】深度学习中的概率论的更多相关文章

  1. The Activation Function in Deep Learning 浅谈深度学习中的激活函数

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激 ...

  2. 《Deep Learning》(深度学习)中文版 开发下载

    <Deep Learning>(深度学习)中文版开放下载   <Deep Learning>(深度学习)是一本皆在帮助学生和从业人员进入机器学习领域的教科书,以开源的形式免费在 ...

  3. Neural Networks and Deep Learning(神经网络与深度学习) - 学习笔记

    catalogue . 引言 . 感知器及激活函数 . 代价函数(loss function) . 用梯度下降法来学习-Learning with gradient descent . 用反向传播调整 ...

  4. 吴恩达 Deep learning 第一周 深度学习概论

    知识点 1. Relu(Rectified Liner Uints 整流线性单元)激活函数:max(0,z) 神经网络中常用ReLU激活函数,与机器学习课程里面提到的sigmoid激活函数相比有以下优 ...

  5. 浅谈深度学习中的激活函数 - The Activation Function in Deep Learning

    原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用 首先,激活函数不是真的要去激活 ...

  6. Deep Learning深入研究整理学习笔记五

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  7. Deep Learning论文笔记之(一)K-means特征学习

    Deep Learning论文笔记之(一)K-means特征学习 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  8. 深度学习中的序列模型演变及学习笔记(含RNN/LSTM/GRU/Seq2Seq/Attention机制)

    [说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![认真看图][认真看图] [补充说明]深度学习中的序列模型已经广泛应用于自然语言处理(例如机器翻 ...

  9. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

随机推荐

  1. Future 异步多线程

    进来接手一个任务,需要做异步多线程数据源调用,数据源的配置和使用请阅读相关文章: https://www.cnblogs.com/haoliyou/p/9604452.html 配置好数据源后,实质上 ...

  2. 中国的规模优势,有望帮助AI芯片后来者居上?

    ​芯片一直是个神奇的东西,表面上看是电脑.笔记本.智能手机改变了世界,其实,真正改变世界的硬件内核是芯片,芯片相关的技术才是科技界最实用.最浪漫的基础技术,也正因如此,谁掌握了芯片基础技术,谁就能立于 ...

  3. javascript中变量命名规则

    前言 变量的命名相对而言没有太多的技术含量,今天整理有关于变量命名相关的规则,主要是想告诉大家,虽然命名没有技术含量,但对于个人编码,或者说一个团队的再次开发及阅读是相当有用的.良好的书写规范可以让你 ...

  4. usb设备枚举过程

    USB主机在检测到USB设备插入后,就要对设备进行枚举了.为什么要枚举呢?枚举就是从设备读取一些信息,知道设备是什么样的设备,如何进行通信,这样主机就可以根据这些信息来加载合适的驱动程序.调试USB设 ...

  5. pem文件转换pub

    security CRT在key登陆的时候只能使用.pub文件,所以需呀将.pem转换成.pub 生成公密钥 .pub 文件.ssh-keygen -e -f key.pem >> key ...

  6. Slog64_项目上线之ArthurSlog个人网站上线3

    ArthurSlog SLog-64 Year·1 Guangzhou·China September 9th 2018 ArthurSlog Page GitHub NPM Package Page ...

  7. HTML5前期学习准备(一)

    HTML简介 1.html的基本概念 HTML:HyperTextMarket language,超文本标记语言(所谓"超文本"就是指页面内可以包含图片.链接,甚至音乐.程序等非文 ...

  8. 一步步去阅读koa源码,整体架构分析

    阅读好的框架的源码有很多好处,从大神的视角去理解整个框架的设计思想.大到架构设计,小到可取的命名风格,还有设计模式.实现某类功能使用到的数据结构和算法等等. 使用koa 其实某个框架阅读源码的时候,首 ...

  9. day06可变与不可变类型,if判断,运算符

    1:可变不可变类型 2.什么是条件?什么可以当做条件?为何要要用条件? 显式布尔值:True.False 隐式布尔值:所有数据类型,其中0.None.空为假 3:逻辑运算符:用来 # not. and ...

  10. SQLi-Labs之1~6关 - 常规注入与盲注

    年初五 财神入 第一关 联合注入 1.准备 2.加'截断 3.order by 判断查询列数 4.同上 5.联合查询判断字段位置 6.查数据库名 7.1 查表名 7.2 查列名 8.查数据 第二关 不 ...