透过表象看本质!?之二——除了最小p乘,还有PCA
如图1所示,最小p乘法求得是,而真实值到拟合曲线的距离为
。那么,
对应的是什么样的数据分析呢?
图1 最小p乘法的使用的误差是。真实值到拟合曲线的距离为
假如存在拟合曲线,设直线方程为。真实值
到该曲线的投影点为
。p=2时,则两点之间的距离为
(37)
(38)
点在直线上,同时
。这两个条件构成如下方程组
(39)
联立上述方程组求得
(40)
代入式(37)(38)得
(41)
上式两边对b求偏导,令偏导数为零得
(42)
化简为
(43)
(44)
令
(45)
(46)
将式(45)(46)代入式(44)得
(47)
(48)
因此,该直线通过均值点,投影点可以改写为
(49)
其中e是直线方向的单位向量。将式(49)代入式(38)得
化简为
(50)
其中。上式中等号右边的第二项是个常量,不影响I取得极值时对应的e,可以去掉。同时,我们假设e是单位向量,则
。重写I如下
(51)
上式两边对e求导得
(52)
化简得
(53)
上式成立时,u取得最大值,I取得最小值。对上两边同时除以(n-1),得到数据矩阵的协方差矩阵。/(n-1)是协方差矩阵的特征值,e是对应的特征向量。上述推导过程可以较为简单的推广到m维空间。对特征值按降序排列,
,其中m为数据变量的维度。
对应着数据的主方向。经过特征向量矩阵的映射,将协方差矩阵投影为对角阵,变量之间的相关性被消除,而数据方差最大的方向就是主方向。
当计算出数据协方差矩阵的特征向量后,我们计算贡献率
(54)
求出
(55)
使用前个特征值和特征向量压缩原来的数据的表达空间,同时还能保证压缩后的数据矩阵损失最小。上述方法就是我们熟悉的PCA。
主方向线通过数据矩阵的均值点,这个点对应的是使用PCA做人脸识别时求出的均值脸。
总结一下PCA的推导过程,
1、去数据变量样本间的均值,并将该均值从数据矩阵中减去,得到零均值矩阵。
2、求零均值数据矩阵的协方差矩阵。
3、求协方差矩阵的特征向量和特征值。
4、按照一定的比例选择特征值和特征向量,实现降维。
上面推导的是线性关系的PCA,对于非线性的数据上面的方法可能会失效。解决方法,使用核函数将数据映射到高维再进行上述分析,这貌似就是kernel PCA。
同时,PCA分析的主方向通过数据的均值。而数据的均值很采样数据紧相关,如果数据中存在粗大误差,那么此时的均值不能反应真实的数据均值。如果不进行预处理,后续的PCA分析很可能会是错误的,达不到预期的效果。因此,对数据进行预处理是很必要的,剔除粗大误差后再进行PCA分析,貌似就是robust PCA。
在PCA推导的过程中,我们可以较为清晰地看到,如果将数据标签揉到推导中,修改优化的目标函数,我们应该能推导出SVM。因此,不同的误差定义,不同的优化目标函数推导出了不同的数据分析方法。无论这些怎么变换花样,其依托的数学思想都是一致的。
说到这里,我们差不多吧数据拟合相关的数据分析方法说了遍,但是说来说去关键问题还是没有触及,我们最关心最希望自动化的东西没有设计,那就是数据的模式,线性的还是非线性的,一阶的还是二阶的等等问题。因为,我们明明可以看到数据在图像上或者几何上呈现出了某种分布,但是却不能通过数学推导自动化的把它从数据中挖出来。
到底能不能是一个终极问题,这个系列的文章只能做个抛砖引玉,希望能够激发出大家的进一步迭代思考,也许这种模式对应的数学公式就在不远处。
透过表象看本质!?之二——除了最小p乘,还有PCA的更多相关文章
- 透过表象看本质!?之三——Kalman滤波
数据拟合能够估计出数据变化的趋势,另外一个同等重要的应用是如何利用这一趋势,预测下一时刻数据可能的值.通俗点儿说,你观察苍蝇(蚊子,蜜蜂)飞了几秒,你也许会想“它下一个时刻可能在哪儿”,“呈现出什么样 ...
- hihoCoder #1127 : 二分图二·二分图最小点覆盖和最大独立集
#1127 : 二分图二·二分图最小点覆盖和最大独立集 Time Limit:10000ms Case Time Limit:1000ms Memory Limit:256MB 描述 在上次安排完相亲 ...
- PRML读书会第十二章 Continuous Latent Variables(PCA,Principal Component Analysis,PPCA,核PCA,Autoencoder,非线性流形)
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是 ...
- 再看.net本质(二)
3.[HTTP协议] 当浏览器寻找到Web服务器的地址之后,浏览器将帮助我们把对服务器的请求转换为一系列参数发送给Web服务器.服务器收到浏览器的请求对数之后,将会分析这些数据并进行处理,然后向浏览 ...
- 从问题看本质: 研究TCP close_wait的内幕
Socket应用服务器TomcatOSUbuntu /* * @author: ahuaxuan * @date: 2010-4-30 */ 最近遇到的一个关于socket.close的问题,在某个 ...
- block本质探寻二之变量捕获
一.代码 说明:本文章须结合文章<block本质探寻一之内存结构>和<class和object_getClass方法区别>加以理解: //main.m #import < ...
- 从问题看本质:socket到底是什么?
一.问题的引入——socket的引入是为了解决不同计算机间进程间通信的问题 1.socket与进程的关系 1).socket与进程间的关系:socket 用来让一个进程和其他的进程互通信息(IPC ...
- 从问题看本质:socket到底是什么(问答式)? .
转自:http://blog.csdn.net/yeyuangen/article/details/6799575 一.问题的引入——socket的引入是为了解决不同计算机间进程间通信的问题 1.so ...
- Web API 处理机制剖析 --- 拨开迷雾看本质
前言 最近开发了几个项目,用到了web api,也通过项目加深了对web api的理解.本文试图从内部原理讲解web api的本质.透过重重迷雾,看清本质,就能更好的把握和利用好web api. 1 ...
随机推荐
- count()与sum()
介绍Mysql中的count()与sum()区别 CREATE TABLE `result` ( `name` varchar(20) default NULL, `subject` varchar( ...
- Win7/Win8.1预订升级Win10失败临时解决方案
很多Win7/Win8.1用户在今天凌晨通过微软官方推送的方式升级Win10,但这一过程中遇到了“安装失败”等问题,导致升级无法进行.鉴于这种情况,很多用户选择进入Windows10预下载安装文件夹打 ...
- 零基础Visual Fox Pro 6.0自学笔记(VFP6.0图文教程)
序:有个哥们读大一,学的金融,由于考试需要去学VFP.拜托我帮忙找教程,发觉网上没有合适的,教学视频多半要收费,优秀文档很少.微软官方也不重视VFP了,真可惜.遂生出写一个入门教程的想法.图文并茂的可 ...
- MySql免安装版配置方法
第1步:下载如下图安装包 第2步:解压mysql压缩包,然后进入解压后的安装包 将my-default.ini复制一份,并改名为my.ini(我已经完成) 把下面内容复制到my.ini,并保存 [cl ...
- 关于web项目中中文乱码问题的总结
关于post和get的中文乱码处理 get: (1)转码:String username=request.getParameter("username"); Strin ...
- HDU_2014 青年歌手大奖赛_评委会打分
Problem Description 青年歌手大奖赛中,评委会给参赛选手打分.选手得分规则为去掉一个最高分和一个最低分,然后计算平均得分,请编程输出某选手的得分. Input 输入数据有多组,每 ...
- ASP.NET全局文件与防盗链
添加Web→全局应用程序类,注 文件名不要改 Global.asax 全局文件是对Web应用声明周期的一个事件响应的地方,将Web应用启动时初始化的一些代码写到 Application_Start中, ...
- web api 跨域请求,ajax跨域调用webapi
1.跨域问题仅仅发生在Javascript发起AJAX调用,或者Silverlight发起服务调用时,其根本原因是因为浏览器对于这两种请求,所给予的权限是较低的,通常只允许调用本域中的资源,除非目标服 ...
- c#中创建类(更新中)
类是最常见的一种引用类型,最简单的定义如下 class YouClassNam {} 复杂的类可能包含一下内容 类属性 类属性以及类修饰符. 非嵌套的类修饰符有:public,internal,ab ...
- MySQL数据库的热备份和冷备份
冷备份(off, 慢, 时间点上恢复)冷备份发生在数据库已经正常关闭的情况下,当正常关闭时会提供给我们一个完整的数据库.冷备份是将关键性文件拷贝到另外位置的一种说法.对于备份数据库信息而言,冷备份是最 ...