Andrew Ng-ML-第十五章-降维
1.数据压缩
数据压缩不仅能够减小存储空间,并且能够加速学习算法。那么什么是数据压缩呢?下面给出了一个简单的例子:

图1.数据压缩的概念
举了两个例子,一个是横轴x1是厘米,纵轴特征x2是英尺,这明显是冗余的,但是在真正的实施过程中,这并不常见,这并不是一个好例子。
另一个例子是,横轴是驾驶员的技术,纵轴是驾驶员的快乐程度,曲线的含义是驾驶员的能力,那么比较明显的是,可以舍去驾驶员的快乐程度这个特征。即将数据集从2维转向1维。

图2.二维数据压缩
在图中,将绿线投影到一个轴上,那么如果点的排列方式能够一一对应,并且反映原来的顺序,那么就可以用其中一个特征来表示两个,从x(1)二维转换到z(1)一维,从而实现了数据压缩。这种方法能让算法运行的更快,同时也能够减少数据存储空间。

图2.三维数据压缩
在实际中,有将1000维压缩到100维的,但是不方便进行画图展示。如图中,三维的可以观察出数据基本上同一平面内,所以图2中就新构建了一个二维的平面图,将数据都投影到二维平面上,将三维降低到二维。
2.可视化

图3.高维数据
比如得到了各个国家的一个高维数据图,有很多指标,那么如何来进行可视化呢?如下图,选取几个指标来表示国家,比如两个:

图4.二维数据可视化
比如横轴表示国家的大小/GDP,纵轴表示,人均GDP的数量,从图中可对点进行现实意义的分析。
3.主成分分析问题规划1

图5.主成分问题规划
将数据从二维到一维,需要找到一个向量的方向,将其他点投影,这个方向是满足最小化投影误差。那么就可将数据降维。
从三维降到二维,需要两个投影向量组成一个平面,将其他点投影,作最小化投影误差。
从n维降到k维,就需要选k个向量进行投影,并且最小化投影误差。
那么从左图中看,PCA似乎和线性回归很像,那么二者之间有何关系呢?
实际两者是完全不同的算法,PCA是找到一个低维的平面进行数据的投影,以便最小化投影误差。
4.主成分分析问题规划2

图6.数据预处理
首先求出m个数据的均值每个维度的均值,并且对i个数据,每个对应的维度都变成平均的,图中下边给的公式是在有监督学习中,每个数据的i维-均值,并且除以s_j,通常是max-min或者是均方误差。这样让不同含义的数据都能够进行归一,又可以比较的值。

图7.主成分分析算法
首先,第一个公式中,左边的Σ不是求和符号,而是表示矩阵,那么它是一个n*n的矩阵,也就是协方差矩阵。
然后再计算协方差矩阵Σ的特征向量,可以使用svd函数。令协方差矩阵是正定矩阵。现在就可以用[U,S,V]是用svd命令来计算协方差矩阵。

图8.算法
取U的前k列,得到一个U_reduce是n*k的,那么用它的T*训练集中的每个x,最终会得到一个k维的向量,这个就是投影压缩之后的。
Andrew Ng-ML-第十五章-降维的更多相关文章
- 15第十五章UDF用户自定义函数(转载)
15第十五章UDF用户自定义函数 待补上 原文链接 本文由豆约翰博客备份专家远程一键发布
- 《Linux命令行与shell脚本编程大全》 第十五章 学习笔记
第十五章:控制脚本 处理信号 重温Linux信号 信号 名称 描述 1 HUP 挂起 2 INT 中断 3 QUIT 结束运行 9 KILL 无条件终止 11 SEGV 段错误 15 TERM 尽可能 ...
- CSS3秘笈复习:十三章&十四章&十五章&十六章&十七章
第十三章 1.在使用浮动时,源代码的顺序非常重要.浮动元素的HTML必须处在要包围它的元素的HTML之前. 2.清楚浮动: (1).在外围div的底部添加一个清除元素:clear属性可以防止元素包围浮 ...
- Gradle 1.12用户指南翻译——第四十五章. 应用程序插件
本文由CSDN博客貌似掉线翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...
- Gradle 1.12 翻译——第十五章. 任务详述
有关其他已翻译的章节请关注Github上的项目:https://github.com/msdx/gradledoc/tree/1.12,或访问:http://gradledoc.qiniudn.com ...
- Gradle 1.12用户指南翻译——第二十五章. Scala 插件
其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Github上的地址: https://g ...
- Gradle 1.12用户指南翻译——第三十五章. Sonar 插件
本文由CSDN博客万一博主翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...
- “全栈2019”Java多线程第三十五章:如何获取线程被等待的时间?
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
- “全栈2019”Java多线程第二十五章:生产者与消费者线程详解
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
随机推荐
- 【JVM译文】JVM问题定位前的准备工作有哪些
一.序 最近在学习jvm工具时,不少链接直指oracle官网.才发现有不少好东西. 本文翻译自: https://docs.oracle.com/javase/8/docs/technotes/gui ...
- Ubuntu下Chrome运行Silverlight程序
Ubuntu 14.04.1下运行Terminal,安装Pipelight输入以下命令: sudo add-apt-repository ppa:pipelight/stable sudo apt-g ...
- shell 中的$0 $1 $* $@ $# $$ $? $() $(())
$0: 脚本本身文件名称 : 命令行第一个参数,$2为第二个,以此类推 $*: 所有参数列表 $@: 所有参数列表 $#: 参数个数 $$: 脚本运行时的PID $?: 脚本退出码 ∗与@的区别 当命 ...
- Docker Compose 版本过高(Docker版本不匹配),降低docker-compose版本
通过docker-compose启动容器,报错: ERROR: The Docker Engine version is less than the minimum required by Compo ...
- 23种设计模式之组合模式(Composite)
组合模式又称为整体-部分(Part-whole)模式,属于对象的结构模式.在组合模式中,通过组合多个对象形成树形结构以表示整体-部分的结构层次.组合模式对单个对象(即叶子对象)和组合对象(即容器对象) ...
- python nose测试框架全面介绍四
四.内部插件介绍 1.Attrib 标记,用于筛选用例 在很多时候,用例可以分不同的等级来运行,在nose中很增加了这个功能,使用attrib将用例进行划分 有两种方式: ef test_big_do ...
- Unity3D笔记十七 Unity3D生命周期
一个游戏组件的脚本有一个生命周期——一开始实例化,直到结束实例被销毁.在这期间,他们有时候处于激活状态,有时候处于非激活状态:对于活动,对用户有时候可见,有时候不可见 本文主要讨论常见脚本的的生命周期 ...
- Mybatis generator使用小记
Mybatis generator可以使用命令行,eclipse插件和maven配置实现自动生成代码的功能,主要来看看使用eclipse插件生成代码方法. 先安装插件: maven加载mysql驱动: ...
- Xcode 6 下添加pch头文件
没错了,Xcode 6 有着许多坑,例如新建的工程里没有默认的pch文件,当然本质上应该是为了提高编译的速度,但却让开发略微有点不方便. 话不多说,其实新建很简单 1.先新建一个PCH文件 2.设置头 ...
- Quartz学习——SSMM(Spring+SpringMVC+Mybatis+Mysql)和Quartz集成详解(转)
通过前面的学习,你可能大致了解了Quartz,本篇博文为你打开学习SSMM+Quartz的旅程!欢迎上车,开始美好的旅程! 本篇是在SSM框架基础上进行的. 参考文章: 1.Quartz学习——Qua ...