2.4 statistical decision theory

在讲完最小二乘（linear regression）和K近邻后，进入本节。

引入符号：

$X\in R^p$ X为维度为p的输入向量

$Y\in R$ Y为输出，实数

$P(X,Y)$ 为两者的联合概率分布

$f(X)$ 为预测函数，给定X，输出Y

a.使用squared error loss(L2)作为损失函数

$L(Y,f(X))={(Y-f(X))}^2$

EPE（excepted prediction error）为

$EPE(f)=E({(Y-f(X))}^2) \\ \ \ =\int \int {[y-f(x)]}^2 P(x,y) dxdy=\int [\int {[y-f(x)]}^2 P(y|x) dy]p(x)dx \\ \ \ =E_XE_{Y|X}({[Y-f(X)]}^2|X)$

最小化EPE，在每个点上f(x)需要满足：

$f(x)={argmin}_c E_{Y|X}({[Y-c]}^2|X=x)\\ \ \ ={argmin}_c \int [y^2-2yc+c^2]P(y|X=x)dy={argmin}_c E_{Y|X}(Y^2)-2cE_{Y|X}(Y)+c^2$

对上式的c求导，置为0：

$c=E(Y|X=x)$

所以，当squared error loss时，给定X，最好的预测为条件均值

K近邻实际给出的是(1)对条件均值的点估计(2)X=x被模拟为在某近似区域

linear regression则假设这些条件均值能用线性函数近似

b.使用L1作为损失函数

$L(Y,f(X))={|Y-f(X)|}$

$f(x)={argmin}_c E_{Y|X}({|Y-c|}|X=x)\\ \ \ ={argmin}_c \int_{-\infty}^c(y-c)P(y|X=x)dy+\int_c^{\infty}(c-y)P(y|X=x)dy\\ \ \ ={argmin}_c \int_{-\infty}^c yP(y|X=x)dy-c\int_{-\infty}^c P(y|X=x)dy+c\int_c^{\infty}P(y|X=x)dy-\int_c^{\infty}yP(y|X=x)dy$

对c求导，置为0：

第一部分：$cP(y=c|X=x)$

第二部分：$-\int_{-\infty}^c P(y|X=x)dy-cP(y=c|X=x)$

第三部分：$\int_{c}^{\infty}P(y|X=x)dy-cP(y=c|X=x)$

第四部分：$cP(y=c|X=x)$

有$\int_{c}^{\infty}P(y|X=x)dy=\int_{-\infty}^c P(y|X=x)dy$

所以，当为L1作为损失函数时，给定X，最好的预测为条件中値

2.4 statistical decision theory的更多相关文章

决策论 | 信息论 | decision theory | information theory
参考: 模式识别与机器学习(一):概率论.决策论.信息论 Decision Theory - Principles and Approaches 英文图书 What are the best begi ...
【PRML读书笔记-Chapter1-Introduction】1.5 Decision Theory
初体验: 概率论为我们提供了一个衡量和控制不确定性的统一的框架,也就是说计算出了一大堆的概率.那么,如何根据这些计算出的概率得到较好的结果,就是决策论要做的事情. 一个例子: 文中举了一个例子: 给定 ...
[PR & ML 5] [Introduction] Decision Theory
统计决策——贝叶斯决策理论（Bayesian Decision Theory）
(本文为原创学习笔记,主要参考<模式识别(第三版)>(张学工著,清华大学出版社出版)) 1.概念将分类看做决策,进行贝叶斯决策时考虑各类的先验概率和类条件概率,也即后验概率.考虑先验概率 ...
Random/Stochastic
---恢复内容开始--- ===================================================== A random variable's possible valu ...
机器学习经典书籍&论文
原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语 ...
Image Processing and Analysis_8_Edge Detection：Statistical edge detection_ learning and evaluating edge cues——2003
此主要讨论图像处理与分析.虽然计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以及它们的出处,没有把它们纳入到图像处理与分析中来.同样,这里面也有 ...
【原】对频率论（Frequentist）方法和贝叶斯方法（Bayesian Methods）的一个总结
注: 本文是对<IPython Interactive Computing and Visualization Cookbook>一书中第七章[Introduction to statis ...
R Language
向量定义:x1 = c(1,2,3); x2 = c(1:100) 类型显示:mode(x1) 向量长度:length(x2) 向量元素显示:x1[c(1,2,3)] 多维向量:multi-dimen ...

随机推荐

查看mysql 服务器上的连接进程
SHOW PROCESSLIST #展示全部的连接进程 select * from information_schema.processlist where db='qwuliu' #可以进行筛选查 ...
Linux系统启动过程介绍
Linux系统启动过程介绍学习操作系统有必要了解一下系统的启动过程,这样在面对各种系统故障的时候能快速定位解决问题,下面以Centos来分析linux系统的启动过程. 1.BIOS自检:当开机的时候 ...
开源欣赏wordpress之用户新增user-new.php
require_once( dirname( __FILE__ ) . '/admin.php' ); 引入根文件. if ( is_multisite() ) { if ( ! current_us ...
App开发革命进阶路
APP开发的成败,或许不是程序编辑的多么完美,界面设计的多么精致,其实这就是一场用户体验的革命. APP的使用场景是移动设备,人机交互以单指手“触点”为主,大段文字输入是交互的禁区.因此,APP带来了 ...
二分搜索（Binary Search）
当我们在字典中查找某个单的时候,一般我们会翻到一个大致的位置(假设吧,翻到中间位置),开始查找.如果翻到的正好有我们要的词,那运气好,查找结束.如果我们要找的词还在这个位置的前面,那我们对前面的这一半 ...
图的深度优先遍历DFS
图的深度优先遍历是树的前序遍历的应用,其实就是一个递归的过程,我们人为的规定一种条件,或者说一种继续遍历下去的判断条件,只要满足我们定义的这种条件,我们就遍历下去,当然,走过的节点必须记录下来,当条件 ...
rsync常用参数详解
rsync常用参数详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在linux中,一切皆是文件,包括你的终端,硬件设备信息,目录,内核文件等等.所以工作中我们难免会遇到拷贝文件 ...
Python 练习 —— 2048
1. 引言 2048 这段时间火的不行啊,大家都纷纷仿造,"百家争鸣",于是出现了各种技术版本号:除了手机版本号,还有C语言版.Qt版.Web版.java版.C#版等,刚好我接触P ...
使用spring 并加载模板发送Email 发邮件 java 模板
以下例子是使用spring发送email,然后加载到固定的模板,挺好的,大家可以试试需要使用到spring-context 包和 com.springsource.org.apache.veloc ...
购买DigtalOcean VPS 以及连接Linux
1.DigtalOcean简介 digitalocean是一家成立于2012年的总部设置在纽约的云主机商家,眼下在荷兰的阿姆斯特丹(AMS1.AMS2).美国的纽约(NYC1.NYC2)和旧金山(SF ...

2.4 statistical decision theory

2.4 statistical decision theory的更多相关文章

随机推荐

热门专题