SIGAI机器学习第九集数据降维2

讲授LDA基本思想，寻找最佳投影矩阵，PCA与LDA的比较，LDA的实际应用

大纲：

非线性降维算法
流形的概念
流形学习的概念
局部线性嵌入
拉普拉斯特征映射
局部保持投影
等距映射
实验环节

非线性降维算法：

上节介绍了经典的PCA算法，它虽然在很多问题上取得了成功，但是它有它的局限性，因为在现实世界中我们要处理的很多数据它是非线性的，而PCA本身是一个线性化的算法，用线性算法处理非线性问题是不太合适的，所以我们要有非线性的降维技术。

通过一个非线性的函数将x映射到另一个空间中去，得到一个向量y，x的维度一般比y大很多。

非线性降维技术有很多经典的实现：

①核主成分分析，它用一个函数把向量映射到另外一个空间里去处理。

②神经网络，如自动编码器E，受限玻尔兹曼机RBM等。

③流行学习

流形的概念：

英文是manifold，流行是微分几何和拓扑里边的一个概念，可以认为是高维空间里的一个几何结构，如三维空间里边的一个球面，二维空间的曲线，是曲线，曲面在高维空间中的推广。

流形学习的概念：

假设数据在高维空间的分布服从某种几何形状，利用这种几何约束来完成对数据的处理，如降维，分类，聚类。

下面介绍几种经典的流行学习算法，这里是要完成数据降维任务的：

局部线性嵌入
[1] Roweis, Sam T and Saul, Lawrence K. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500). 2000: 2323-2326.
拉普拉斯特征映射
[2] Belkin, Mikhail and Niyogi, Partha. Laplacian eigenmaps for dimensionality reduction and data representation. Neural computation. 15(6). 2003:1373-1396.
局部保持投影
[3] He Xiaofei and Niyogi, Partha. Locality preserving projections. NIPS. 2003:234-241.
等距映射
[4] Tenenbaum, Joshua B and De Silva, Vin and Langford, John C. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500). 2000: 2319-2323.

其中拉普拉斯特征映射和局部保持投影都是一种基于图论的算法。

局部线性嵌入：LLE

[1] Roweis, Sam T and Saul, Lawrence K. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500). 2000: 2323-2326.

是整个流行学习算法的开端和鼻祖，有举足轻重的地位。

高维空间中的每个样本点可以由它周围的点近似的线性组合，用周围几个点的加权平均近似表达它，投影到低维空间里还是要保持这种局部的线性关系。

每个样本可以用它邻居的线性组合近似重构：，点数是有限制的，如限定为距离它最近的k个点来表达它，这体现了局部性，同PCA一样让所有样本x_i的重构误差最小化，

求解下面的最优化问题可以得到重构系数：。第一个约束是：当x_i和x_j的距离||x_i-x_j||≤ε时它的重构权重w_ij非0否则为0，还有一种就是把x_i最近的k个点挑出来让这些点的w_ij非0其他的点为0。第二个约束是权重矩阵的每一行权重系数加起来等于1。基于这些假设最终求解最优化问题得到重构洗漱w_ij。

得到重构系数之后，就要完成向低维空间的投影，将向量映射到低维空间，保持这种线性重构关系：，求解该关系的最优化问题。由于局部线性嵌入会保留原始数据的拓扑结构，故降维得到的低维数据具有同高维数据一样的局部线性结构，即w_ij已知求低维空间的映射向量y，y还有别的约束条件，最终将y求出。

以下推理来自https://www.cnblogs.com/pinard/p/6266408.html?utm_source=itdadao&utm_medium=referral

拉普拉斯特征映射：

它是一种基于图论的方法。
用样本构造图，然后计算拉普拉斯矩阵，最后对矩阵进行特征值分解。

把样本n维空间中的点构造成一张图G，用图论中的手段解决数据降维问题。

边的权重代表相似度或距离。

图的拉普拉斯矩阵是对称半正定矩阵：

有了以上概念，就可以构造出拉普拉斯数据降维算法了。

算法流程：
①构造带权重的图
②计算图的拉普拉斯矩阵
③求解广义特征值问题，求解出特征值最大的前d个对应的特征向量，这些向量按行或按列摆开成一个矩阵（同PCA），这个矩阵就是投影矩阵，用这个矩阵左乘X，把X映射到d维空间中去。

构造带权重的图（V,E,W）：

两个点连通性判定，就是判定联通权重是否为0：1.||x_i-x_j||<ε，如果距离小于某个值视为联通否则不连通，2.如果是k邻近点视为联通否则非联通

权重只的计算：

求解广义特征值问题：（？不明白为什么要这样做能得到映射矩阵）

拉普拉斯特征映射核心：构造图——>计算图的拉普拉斯矩阵——>对矩阵进行特征值分解（同PCA算法一样也是求特征值问题）

局部保持投影：

它也是一种基于图论的算法，它和拉普拉斯映射相似，前面几步是一样的（构造图，计算拉普拉斯矩阵），然后它也是求解一个广义特征值问题：

X是所有样本按照列排起来形成的矩阵，同样可证明所有特征值都大于等于零，然后得到特征值对应的特征向量，组成映射矩阵A，让A左乘向量x映射到l维空间，这和拉普拉斯映射、PCA是一样的。

等距映射：

利用微分几何里的测地线（测地线是地球表面两点之间最短弧线距离）的概念，将数据投影到低维空间之后，尽量保持原有的距离关系。

首先构造图
然后计算两点间的最短距离-Dijkstra算法：D_G={d_G(i,j)}，这样就可以计算流行M上任意两点之间的最短距离了d_G(i,j)了。
然后求解下面的最优化问题：

，y_i、y_j是x_i、x_j投影后对应的点，投影后它们之间的距离和投影之前的距离的差异尽可能的小，即有了最优化问题，求解之后得到映射后的向量y，和局部线性嵌入有一点点像。

实验环节：

流行学习算法从2000年诞生之后，很多搞机器学习的人去搞流行学习了，数学上面看上去是非常优美的，实际应用中很少有成功的案例，美但不是很实用。

本集总结：

介绍了非线性降维的概念和主要的算法

流行、流行学习概念

四种算法：LLE、拉普拉斯特征映射、局部保持投影、等距映射

LLE主要思想是，每个样本可以由它周围的几个样本来近似的线性表达，把它投影到d维空间里之后还要这种局部线性表达的关系。拉普拉斯特征映射和局部保持投影都是一种基于图论的算法，都是对图的拉普拉斯矩阵进行广义特征值分解，得到一些特征值和特征向量，然后把最大的一些特征值和特征向量取出来，用特征向量组成投影矩阵完成投影，这和PCA有一点像。等距映射用了微分几何中测距线（非欧式空间的直线距离，而是流行上面的测地距离）的概念，把这些样本投影到d维空间里之后还要保持他们在高维空间里面的相对远近关系。

流行学习虽然数学上看起来很美，但少有成功案例。

SIGAI机器学习第九集数据降维2的更多相关文章

SIGAI机器学习第八集数据降维1
讲授数据降维原理,PCA的核心思想,计算投影矩阵,投影算法的完整流程,非线性降维技术,流行学习的概念,局部线性嵌入,拉普拉斯特征映射,局部保持投影,等距映射,实际应用大纲: 数据降维问题PCA的思想 ...
SIGAI机器学习第一集机器学习简介
讲授机器学习的基本概念.发展历史与典型应用大纲: 人工智能简介机器学习简介为什么需要机器学习机器学习的发展历史机器学习的典型应用人工智能主要的公司本课程讲授的算法机器学习并不是人工智能一上来就采用 ...
SIGAI机器学习第四集基本概念
大纲: 算法分类有监督学习与无监督学习分类问题与回归问题生成模型与判别模型强化学习评价指标准确率与回归误差ROC曲线交叉验证模型选择过拟合与欠拟合偏差与方差正则化半监督学习归类到有监督学习中去. 有 ...
机器学习实战（Machine Learning in Action）学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维
关键字:SVD.奇异值分解.降维.基于协同过滤的推荐引擎作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harr ...
[机器学习]-PCA数据降维：从代码到原理的深入解析
&*&:2017/6/16update,最近几天发现阅读这篇文章的朋友比较多,自己阅读发现,部分内容出现了问题,进行了更新. 一.什么是PCA:摘用一下百度百科的解释 PCA(Prin ...
斯坦福机器学习视频笔记 Week8 无监督学习：聚类与数据降维 Clusting & Dimensionality Reduction
监督学习算法需要标记的样本(x,y),但是无监督学习算法只需要input(x). 您将了解聚类 - 用于市场分割,文本摘要,以及许多其他应用程序. Principal Components Analy ...
SIGAI机器学习第二十四集聚类算法1
讲授聚类算法的基本概念,算法的分类,层次聚类,K均值算法,EM算法,DBSCAN算法,OPTICS算法,mean shift算法,谱聚类算法,实际应用. 大纲: 聚类问题简介聚类算法的分类层次聚类算法 ...
SIGAI机器学习第十集线性判别分析
讲授LDA基本思想,寻找最佳投影矩阵,PCA与LDA的比较,LDA的实际应用前边讲的数据降维算法PCA.流行学习都是无监督学习,计算过程中没有利用样本的标签值.对于分类问题,我们要达到的目标是提取或 ...
python大战机器学习——数据降维
注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中 1.主成分分析(PCA) 将n ...

随机推荐

2019php面试大全
一 .PHP基础部分 1.PHP语言的一大优势是跨平台,什么是跨平台? PHP的运行环境最优搭配为Apache+MySQL+PHP,此运行环境可以在不同操作系统(例如windows.Linux等)上配 ...
Django 关联查询
查询id=1的XXXXX关联的YYYYY信息 a = XXXXX.objects.get(id=1) a.YYYYY.all() 查询id=1的YYYYY关联的XXXXX信息 b = YYYYY.ob ...
Python使用datetime来判断近七天
目录 strptime 使用strptime来格式化字符串 datetime.datetime.strptime("2019-10-02", "%Y-%m-%d" ...
【计算几何】Water Testing
Water Testing 题目描述 You just bought a large piece of agricultural land, but you noticed that – accord ...
Unity UGUI动态生成控件
一. 首先你得先清楚RectTransform组件的一些程序控制 1. 先得到UGUI控件上面的RectTransform组件 RectTransform rtr = gameObject.GetCo ...
WebApi 全局异常与局部异常
全局异常过滤器 public class ApiExceptionFilter:ExceptionFilterAttribute { private IHostingEnvironment _env; ...
sql 基础语句
一.基础 2 31.说明:创建数据库 4Create DATABASE database-name 5 62.说明:删除数据库 7drop database dbname 8 93.说 ...
Linux增加虚拟内存
Docker容器启动Mysql镜像报错,提示无法分配内存,报错信息如下: 由此我们看到Swap为0,考虑适当增加swap. Linux开启swap空间有好几种方法,在这里只介绍比较常用的两种. 使用交 ...
nexus 匿名用户的问题。
为了做到安全和不浪费我们自己的服务器资源,要绝对拒绝匿名用户进行访问: 1,不允许匿名用户访问 2,禁用匿名的账号以下是这2点的设置图. ============================== ...
PHP常见函数
有时候,运行nginx和PHP CGI(PHP FPM)web服务的Linux服务器,突然系统负载上升,用top命令查看,很多phpcgi进程的CPU利用率接近100%后来通过跟踪发现,这种情况与PH ...

SIGAI机器学习第九集 数据降维2

SIGAI机器学习第九集 数据降维2的更多相关文章

随机推荐

热门专题

SIGAI机器学习第九集数据降维2

SIGAI机器学习第九集数据降维2的更多相关文章