概率和信息论。

概率论,表示不确定性声明数学框架。提供量化不确定性方法,提供导出新不确定性声明(statement)公理。人工智能领域,概率法则,AI系统推理,设计算法计算概率论导出表达式。概率和统计理论分析AI系统行为。概率论提出不确定声明,在不确定性存在情况下推理。信息论量化概率分布不确定性总量。Jaynes(2003)。
机器学习经常处理不确定量,有时处理随机(非确定性)量。20世纪80年代,研究人员对概率论量化不确定性提出信服论据。Pearl(1998)。

不确定性来源。被建模系统内存的随机性。不完全观测,确定系统不能观测到所有驱动系统行为变量,也呈随机性。不完全建模,模型舍弃观测信息,导致预测不确定性。简单而不确定规则比复杂而确定规则更实用,即使真正规则是确定的并且建模型系统足够精确容纳复杂规则。

概率论分析事件发生频率。事件可以重复。结果发生概率p,反复无限次,有p比例会导致某个结果。概率表示信任度(degree of belief)。直接与事件发生的频率相联系,频率派概率(frequentist probability)。涉及到确定性水平,贝叶斯概率(Bayesian probability)。不确定性常识推理,列出若干条期望性质,满足唯一方法是贝叶斯概率和频率概率等同。Ramsey(1926)。概率,处理不确定性逻辑扩展。逻辑提供形式化规则,给定命题真假,判断另一些命题真假。概率论提供形式化规则,给定命题似然,计算其他命题为真似然。

随机变量(random variable)。

随机取不同值变量。无格式字体(plain typeface)小写字母表示随机变量,手写体小写字母表示随机变量取值。随机变量对可能状态描述。伴随概率分布批定每个状态可能性。随机变量可以离散或连续。离散随机变量有限或可数无限多状态。可能没有数值。连续随机变量伴随实数值。

概率分布(probability distribution)。

随机变量或一簇随机变量每个状态可能性大小。描述概率分布方式取决随机变量离散还是连续。

离散型变量和概率质量函数。离散弄变量概率分布用概率质量函数(probability mass function,PMF)描述。大写字母P表示概率质量函数。每个随机变量有一个不同概率质量函数,根据随机变量推断所用PMF。概率质量函数将随机变量每个状态映射到随机变量取该状态概率。x=x概率用P(x)表示,概率1表示x=x确定,概率0表示x=x不可能发生。明确写出随机变量名称,P(x=x)。定义随机变量,用~符号说明遵循分布,x~P(x)。概率质量同时作用多个随机变量。多个变量概率分布为联合概率分布(joint probability distribution)。P(x=x,y=y)表示x=x和y=y同时发生概率。简写P(x,y)。函数P是随机变量x的PMF,P定义域必须是x所有可能状态集合。FORALL(x) ELEMENT(X),0<=P(x)<=1。不可能发生事件概率为0,不存在概率更低状态。确保一定发生事件概率为1,不存在概率更高状态。SUM(x ELEMENT(X),P(x))=1。归一化(normalized)。

离散型随机变量x有k个不同状态,x均匀分布(uniform distribution),每个状态均等可能。PMF,P(x=x i)=1/k。所有i成立。k是一个正整数,1/k是正的。SUM(i, P(x=x i))=SUM(i, 1/k)=k/k=1。分布满足归一化条件。
连续型变量和概率密度函数。连续型随机变量,概率密度函数(probability density function,PDF)描述概率分布。函数p是概率密度函数。p定义域是x所有可能状态集合。FORALL(x) ELEMENT(X),P(x)>=0,不要求p(x)<=1。INTEGRAL(p(x)dx)=1 。概率密度函数p(x)给出落在面积为DELTA(x)无限小区域内概率为p(x)DELTA(x)。概率密度函数求积分,获得点集真实概率质量。x落在集合S中的概率,p(x)对集合求积分得到。单变量,x落在区间[a,b]概率是INTEGRAL([a,b],p(x)dx) 。

实数区间均匀分布。函数u(x;a,b),a和b 是区间端点,满足b>a。符号";"表示以什么为参数。x作函数自变量,a和b作定义函数参数。确保区间外没有概率,所有x NOTELEMENT([a,b]),令u(x;a,b)=0。在[a,b]内,u(x;a,b)=1/(b-a)。任何一点都非负。积分为1。x~U(a,b)表示x在[a,b]上均匀分布。

边缘概率。

定义在子集上的概率分布为边缘概率分布(marginal probability distribution)。离散型随机变量x和y,知道P(x,y),求和法则(sum rule)计算FORALL(x) ELEMENT(X),P(x=x)=SUM(y,P(x=x,y=y)) 。边缘概率名称来源手算边缘概率计算过程。P(x,y)每个值被写在每行表示不同x值、每列表示不同y值网格中,对网络中每行求和,求和结果P(x)写在每行右边纸边缘处。连续型变量,用积分替代求和,p(x)=INTEGRAL(p(x,y)dy。

条件概率。

某个事件上在给定其他事件发生时出现概率。给定x=x,y=y发生条件概率记P(y=y|x=x)。P(y=y|x=x)=P(y=y,x=x)/P(x=x)。条件概率只在P(x=x)>0有定义。不能计算给定在永远不会发生事件上上的条件概率。不要把条件概率和计算当采用某个动作后会发生什么相混淆。

条件概率链式法则。

任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。P(x (1) ,…,x (n) )=P(x (1) )PRODUCT(i=2,n,P(x (i) |x (i) ,…,x (i-1) ))。概率链式法则(chain rule)或乘法法则(product rule)。从条件概率定义得到,使用两次定义得到,P(a,b,c)=P(a|b,c)P(b,c)。P(b,c)=P(b|c)P(c)。P(a,b,c)=P(a|b,c)P(b|c)P(c)。

独立性和条件独立性。

两个随机变量x和y,概率分布表示成两个因子乘积形式,一个因子只包含x,另一个因子只包含y,两个随机变量相互独立(independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y)=p(x=x)p(y=y)。x和y的条件概率分布对于z的每一个值都写成乘积形式,随机变量x和y在给定随机变量z时条件独立(conditionally independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y|z=z)=p(x=x|z=z)p(y=y|z=z)。简化形式表示独立笥和条件独立性,x UPTACK(y)表示x和y相互独立,x UPTACK(y)|z表示x和y在给定z时条件独立。

期望、方差和协方差。

函数f(x)关于某分布P(x)的期望(expectation)或期望值(expected value),当x由P产生,f作用于x,f(x)的平均值。对于离散型随机变量,求和得到,E x~P [f(x)]=SUM(x,P(x)f(x))。连续型随机变量,求积分得到,E x~p [f(x)]=INTEGRAL(p(x)f(x)dx) 。概率分布在上下文指明,只写出期望作用随机变量名称简化,Ex[f(x)]。期望作用随机变量明确,不写脚标,E[f(x)]。默认,假设E[.]表示对方括号内所有随机变量值求平均。没有歧义时,可以省略方括号。期望线性,E x [af(x)+bg(x)]=aEx[f(x)]+bE x [g(x)]。a和b不依赖x。

方差(variance)衡量,x依据概率分布采样时,随机变量x函数值差异。Var(f(x))=E[(f(x)-E[f(x)]) 2 ]。方差很小时,f(x)值形成簇比较接近期望值。方差的平方根为标准差(standard deviation)。

协方差(covariance),给出两个变量线性相关性强度及变量尺度。Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]。协方差绝对值很大,变量值变化很大,距离各自的均值很远。协方差为正,两个变量倾向于同时取得相对较大值。协方差为负,一个变量倾向于取较大值,另一个变量倾向于取较小值。其他衡量指标,相关系数(correlation),每个变量贡献归一化,只衡量变量相关性,不受各个变量尺度大小影响。

协方差和相关性有联系,是不同概念。联系。两个变量互相独立,协方差为零。两个变量协义差不为零,一定相关。独立性和协方差性质完全不同。两个变量协方差为零,一定没有相互依赖,但具有零协方差可能。从区间[-1,1]均匀分布采样一个实数x,对一个随机变量s采样。s以1/2概率值为1,否则为-1。令y-sx生成一个随机变量y。x和y不相互独立,x完全决定y尺度.Cov(x,y)=0。

随机向量x ELEMENT(R n )协方差矩阵(convariance matrix)是n*n矩阵,满足,Cov(x) i,j =Cov(x i ,x j )。协方差矩阵对角元是方差,Cov(x i ,x i )=Var(x i )。

参考资料:

《深度学习》

欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi

我有一个微信群,欢迎一起学深度学习。

学习笔记DL008:概率论,随机变量,概率分布,边缘概率,条件概率,期望、方差、协方差的更多相关文章

  1. BZOJ 2038: [2009国家集训队]小Z的袜子(hose)【莫队算法裸题&&学习笔记】

    2038: [2009国家集训队]小Z的袜子(hose) Time Limit: 20 Sec  Memory Limit: 259 MBSubmit: 9894  Solved: 4561[Subm ...

  2. 【Deep Learning读书笔记】深度学习中的概率论

    本文首发自公众号:RAIS,期待你的关注. 前言 本系列文章为 <Deep Learning> 读书笔记,可以参看原书一起阅读,效果更佳. 概率论 机器学习中,往往需要大量处理不确定量,或 ...

  3. 【算法学习笔记】概率与期望DP

    本文学习自 Sengxian 学长的博客 之前也在CF上写了一些概率DP的题并做过总结 建议阅读完本文再去接着阅读这篇文章:Here 前言 单纯只用到概率的题并不是很多,从现有的 OI/ACM 比赛中 ...

  4. TensorFlow学习笔记5-概率与信息论

    TensorFlow学习笔记5-概率与信息论 本笔记内容为"概率与信息论的基础知识".内容主要参考<Deep Learning>中文版. \(X\)表示训练集的设计矩阵 ...

  5. 学习笔记TF048:TensorFlow 系统架构、设计理念、编程模型、API、作用域、批标准化、神经元函数优化

    系统架构.自底向上,设备层.网络层.数据操作层.图计算层.API层.应用层.核心层,设备层.网络层.数据操作层.图计算层.最下层是网络通信层和设备管理层.网络通信层包括gRPC(google Remo ...

  6. 概率图模型学习笔记:HMM、MEMM、CRF

    作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  7. Deep Learning(深度学习)学习笔记整理系列之(七)

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  8. Deep Learning(深度学习)学习笔记整理系列之(六)

    Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04 ...

  9. OpenCV之Python学习笔记

    OpenCV之Python学习笔记 直都在用Python+OpenCV做一些算法的原型.本来想留下发布一些文章的,可是整理一下就有点无奈了,都是写零散不成系统的小片段.现在看 到一本国外的新书< ...

随机推荐

  1. 正则表达式判断QQ号格式是否正确

    #正在表达式匹配QQ号格式是否正确#QQ号假如长度为5-11位,纯为数字 import rewhile 1: qq=input("请输入QQ号:") result=re.finda ...

  2. C++ Coroutine简明教程

    在C++里,一个函数如果其函数体实现中包含co_await.co_yield.co_return中任何一个关键字,那么这个函数就是一个coroutine.其中: co_await:挂起当前的corou ...

  3. Linux监控

    第三十次课 Linux监控 目录 一. Linux监控平台介绍 二. zabbix监控介绍 三. 安装zabbix 四. 忘记Admin密码如何做 五. 主动模式和被动模式 六. 添加监控主机 七. ...

  4. UBUNTU 16.04 安装AVD "An error occurred while running "android create avd

    安装库即可sudo apt-get install lib32stdc++6

  5. Oracle学习DayFour(高级子查询)

    一.高级子查询 1.多列子查询 定义:主查询与子查询返回的多个列进行比较 多列子查询中的比较分为两种:成对比较:不成对比较 实例:查询与141号或174号员工的manager_id和departmen ...

  6. react native获取组件高度,宽 度等

    import React,{Component} from 'react'import { View, Text, Image, StyleSheet, TouchableHighlight, Tou ...

  7. js 回调函数理解

    function A(callback) { console.log('我是主函数'); setTimeout(function () { callback("我是主函数传出的") ...

  8. vi编辑器之删除操作

    参见 1.vi列删除 方法一: ctrl+v进入列编辑模式: 将光标定位子想要删除的起始列: 移动光标至结束列(直接通过移动光标选中,对列不对齐时,可能比较长的行,无法全部选中,尤其是需要一直删除到行 ...

  9. java web从入门到精通

    1.Springboot配置 1.1mybatis mapper.xml所在的目录必须为resource的资源文件夹,如果xml文件在java的package里面,需要修改文件夹类型 idea修改方式 ...

  10. 震惊!!!源程序特征统计程序——基于python getopt库

    项目github地址:https://github.com/holidaysss/WC PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟 ...