作业目的: 体会条件独立

1、现需要设计一个根据一个人是否是学生$S$(布尔变量)和其体重$W$(连续变量)判断该人的性别$G$(布尔变量)。假设在给定$G$的情况下$S$和$W$独立,且假设概率分布 $p(W|G=female)$和$p(W|G=male)$为高斯分布且二者的方差相等。
(a)可以用朴素贝叶斯分类器实现吗?
(b)如果可以用朴素贝叶斯分类器的话,需要估计从训练数据中估计哪些分布的哪些参数。

(a)、

由条件独立性假设可是,可以用朴素贝叶斯分类,并且有:

$ p(G | S, W) \propto p(S, W | G)\cdot p(G)$

给定$G$的情况下$S$和$W$独立可得,

$p(G | S, W) \propto p(S | G)\cdot p(W | G)\cdot p(G)$

(b)、

$p(G = female | S, W) \propto p(S | G = female)\cdot p(W | G = female)\cdot p(G = female)$

$p(G = male | S, W) \propto p(S | G = male)\cdot p(W | G = male)\cdot p(G = male)$

其中,

$p(G) = Ber(\theta _{1})$ (伯努利分布)

$p(S | G = female) = Ber(\theta _{2}), p(S | G = male) = Ber(\theta _{3})$

$p(W | G = female) = N(\theta _{4}, \theta _{5}), p(W | G = female) = N(\theta _{6}, \theta _{5})$ (均满足正态分布,且具有相同的方差)

$\theta _{1}$到$\theta _{6}$就是需要估计的参数。

2、体会条件独立带来模型参数的减少考虑一个$C$个类别的产生式分类器,其中类条件概率密度为$p(x|y) $,假设类先验$p(y)$为均匀分布。假设$D$维特征均为二值变量,即$x_{j} \epsilon \left \{ 0, 1 \right \}$。假设在给定类别的条件下,各个特征独立(朴素贝叶斯假设),我们可以记$p(X|y=c,\theta ) = \prod_{j=1}^{D}Ber(x_{j}|\theta_{jc})$,模型共需要$DC$个参数。

(a) 考虑一个不同的“全”模型,即所有变量都相关。则条件概率$p(X|y = c)$应该是什么样子?表示$p(X|y = c)$需要多少个参数?
(b) 当样本数目N较小时,条件独立模型和全模型哪个模型的性能会更好?
(c) 当样本数目N较大时,上述两个模型哪个模型的性能更好?

      (a)、

      将$D$维随机变量$X$表示为$(X_{1}, X_{2}, \cdots , X_{D})$

      $p(X|y=c) = p(X_{1}|y=c)\cdot p(X_{2}|X_{1},y=c)\cdot p(X_{3}|X_{1},X_{2},y=c)\cdots p(X_{D}|X_{1},X_{2},\cdots ,X_{D-1},y=c)$

      其中,$p(X_{1}|y=c)$服从伯努利分布,需要1个参数。$p(X_{2}|X_{1},y=c)$需要估计$p(X_{2}|X_{1}=0,y=c)$,$p(X_{2}|X_{1}=1,y=c)$两个伯努利分布,因此需要2个参数。

      同理有$p(X_{3}|X_{1},X_{2},y=c)$需要4个参数,$p(X_{D}|X_{1},X_{2},\cdots ,X_{D-1},y=c)$需要$2^{D-1}$的参数

      为表示$p(X|y=c)$,所需参数个数:$1+2+4+\cdots +2^{D-1} = 2^{D}-1$

      (b)、(c)、

      当样本数目很小时,由于全模型考虑到了更多的样本信息,应该会好一些吧。如果样本数不小时,全概率模型由于需要估计太多参数,难以计算。

      

概率与统计推断第二讲homework的更多相关文章

  1. 概率与统计推断第一讲homework

    1. 假设在考试的多项选择中,考生知道正确答案的概率为$p$,猜测答案的概率为$1-p$,并且假设考生知道正确答案答对题的概率为1,猜中正确答案的概率为$\frac{1}{m}$,其中$m$为多选项的 ...

  2. 【题解】歌唱王国(概率生成函数+KMP)+伦讲的求方差

    [题解]歌唱王国(概率生成函数+KMP)+伦讲的求方差 生成函数的本质是什么呀!为什么和It-st一样神 设\(f_i\)表示填了\(i\)个时候停下来的概率,\(g_i\)是填了\(i\)个的时候不 ...

  3. POI教程之第二讲:创建一个时间格式的单元格,处理不同内容格式的单元格,遍历工作簿的行和列并获取单元格内容,文本提取

    第二讲 1.创建一个时间格式的单元格 Workbook wb=new HSSFWorkbook(); // 定义一个新的工作簿 Sheet sheet=wb.createSheet("第一个 ...

  4. Stanford机器学习---第二讲. 多变量线性回归 Linear Regression with multiple variable

    原文:http://blog.csdn.net/abcjennifer/article/details/7700772 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归 ...

  5. 【军哥谈CI框架】之入门教程之第二讲:分析CI结构和CI是怎么工作的

    [军哥谈CI框架]之入门教程之第二讲:分析CI结构和CI是怎么工作的   之入门教程之第二讲:分析CI结构和CI是如何工作的大家好!上一节,我们共同部署了一个CI网站,做到这一点非常简单,但是,亲们, ...

  6. 《ArcGIS Engine+C#实例开发教程》第二讲 菜单的添加及其实现

    原文:<ArcGIS Engine+C#实例开发教程>第二讲 菜单的添加及其实现 摘要:在上一讲中,我们实现了应用程序基本框架,其中有个小错误,在此先跟大家说明下.在“属性”选项卡中,我们 ...

  7. 基于微信公众平台的开发(清华大学第二讲)_Alien的笔记

    基于微信公众平台的开发(清华大学第二讲)_Alien的笔记 基于微信公众平台的开发(清华大学第二讲)

  8. 32位汇编第二讲,编写窗口程序,加载资源,响应消息,以及调用C库函数

    32位汇编第二讲,编写窗口程序,加载资源,响应消息,以及调用C库函数 (如果想看所有代码,请下载课堂资料,里面有所有代码,这里会讲解怎么生成一个窗口程序) 一丶32位汇编编写Windows窗口程序 首 ...

  9. 常见注入手法第二讲,APC注入

    常见注入手法第二讲,APC注入 转载注明出处 首先,我们要了解下什么是APC APC 是一个简称,具体名字叫做异步过程调用,我们看下MSDN中的解释,异步过程调用,属于是同步对象中的函数,所以去同步对 ...

随机推荐

  1. "《算法导论》之‘图’":最小生成树(无向图)

    本文主要参考自<算法>. 加权图是一种为每条边关联一个权值或是成本的图模型.这种图能够自然地表示许多应用.在一幅航空图中,边表示航线,权值则可以表示距离或是费用.在一幅电路图中,边表示导线 ...

  2. Struts-ValueStack和OGNL总结

    (1)ValueStack是一个借口,在Struts2中使用OGNL表达式实际上是使用实现了ValueStack接口类的OgnlValueStack,它是ValueStack的默认实现类. (2)Va ...

  3. Erlang cowboy 处理简单的HTTP请求

    Erlang cowboy 处理简单的HTTP请求 原文出自: Handling plain HTTP requests 处理请求的最简单的方式是写一个简单的HTTP处理器.它的模型参照Erlang/ ...

  4. UITabbar的一些常规用法(总结)

    往往系统自带的UITabbar 不能满足我们的样式或者颜色设计,所以需要调整UITabbar. 1.自定义UITabbar,也是我学到的第一种方式(简单暴力). 先记录一下思路: 首先,隐藏系统自带的 ...

  5. linux下64位汇编的系统调用(2)

    知道了syscall调用号之后还不算完,还要搞清楚2件事: 1 每种调用号需要传递哪些参数: 2 调用如何传递参数以及结果如何返回: 第一个问题的答案是: 在linux系统中某个程序执行时进行的系统调 ...

  6. 在Mac中使用「dd」指令烧录ISO镜像文件到U盘

    作者:超級efly   發布:2014-07-26 20:22   分類:電腦   閱讀:442   11條評論    大家在Windows系統下可以方便的使用UltraISO程式來燒錄「.ISO」, ...

  7. async/await 的基本实现和 .NET Core 2.1 中相关性能提升

    前言 这篇文章的开头,笔者想多说两句,不过也是为了以后再也不多嘴这样的话. 在日常工作中,笔者接触得最多的开发工作仍然是在 .NET Core 平台上,当然因为团队领导的开放性和团队风格的多样性(这和 ...

  8. pc端页面打包成安卓apk

    一.phoneGap PhoneGap是一个采用HTML,CSS和JavaScript的技术,创建移动跨平台移动应用程序的快速开发平台.它使开发者能够在网页中调用IOS,Android,Palm,Sy ...

  9. Java开源生鲜电商平台-盈利模式详解(源码可下载)

    Java开源生鲜电商平台-盈利模式详解(源码可下载) 该平台提供一个联合买家与卖家的一个平台.(类似淘宝购物,这里指的是食材的购买.) 平台有以下的盈利模式:(类似的平台有美菜网,食材网等) 1. 订 ...

  10. Hession集成Spring + maven依赖通讯comm项目 + 解决@ResponseBody中文乱码

    hessian结合spring的demo         hessian的maven依赖: <!-- hessian --> <dependency>         < ...