转自：http://blog.csdn.net/u012162613/article/details/45920827

1.流形学习的概念

流形学习方法(Manifold Learning)，简称流形学习，自2000年在著名的科学杂志《Science》被首次提出以来，已成为信息科学领域的研究热点。在理论和应用上，流形学习方法都具有重要的研究意义。

假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。

以上选自百度百科

简单地理解，流形学习方法可以用来对高维数据降维，如果将维度降到2维或3维，我们就能将原始数据可视化，从而对数据的分布有直观的了解，发现一些可能存在的规律。

官方代码思想是一遍聚类一遍降维，其实也是一种比较好的自动聚类方法。

高维数据每个数据点被认为是一种正太分布数据（正太有三好），低维数据同样，然后让高维数据和低维数据相似度最大。又因为t分布好算而且和正太分布逼近，所以用了t分布来算就成了tsne方法。

2.流形学习的分类

可以将流形学习方法分为线性的和非线性的两种，线性的流形学习方法如我们熟知的主成份分析（PCA），非线性的流形学习方法如等距映射（Isomap）、拉普拉斯特征映射（Laplacian eigenmaps，LE）、局部线性嵌入(Locally-linear embedding，LLE)。

当然，流形学习方法不止这些，因学识尚浅，在此我就不展开了，对于它们的原理，也不是一篇文章就能说明白的。对各种流形学习方法的介绍，网上有一篇不错的读物（原作已找不到）：流形学习 (Manifold Learning)

3.高维数据降维与可视化

对于数据降维，有一张图片总结得很好（同样，我不知道原始出处）：

图中基本上包括了大多数流形学习方法，不过这里面没有t-SNE,相比于其他算法，t-SNE算是比较新的一种方法，也是效果比较好的一种方法。t-SNE是深度学习大牛Hinton和lvdmaaten（他的弟子？）在2008年提出的，lvdmaaten对t-SNE有个主页介绍：tsne,包括论文以及各种编程语言的实现。

接下来是一个小实验，对MNIST数据集降维和可视化，采用了十多种算法，算法在sklearn里都已集成，画图工具采用matplotlib。大部分实验内容都是参考sklearn这里的example，稍微做了些修改。

Matlab用户可以使用lvdmaaten提供的工具箱: drtoolbox

- 加载数据

MNIST数据从sklearn集成的datasets模块获取，代码如下，为了后面观察起来更明显，我这里只选取n_class=5，也就是0～4这5种digits。每张图片的大小是8*8，展开后就是64维。

digits = datasets.load_digits(n_class=5) X = digits.data y = digits.target printX.shape n_img_per_row = 20 img = np.zeros((10 * n_img_per_row, 10 * n_img_per_row))for i in range(n_img_per_row): ix = 10 * i + 1 for j in range(n_img_per_row): iy = 10* j + 1 img[ix:ix + 8, iy:iy + 8] = X[i * n_img_per_row + j].reshape((8, 8))plt.imshow(img, cmap=plt.cm.binary) plt.title('A selection from the 64-dimensional digits dataset')

运行代码，获得X的大小是(901,64)，也就是901个样本。下图显示了部分样本：

- 降维

以t-SNE为例子，代码如下，n_components设置为3，也就是将64维降到3维，init设置embedding的初始化方式，可选random或者pca，这里用pca，比起random init会更stable一些。

print("Computing t-SNE embedding") tsne = manifold.TSNE(n_components=3, init='pca', random_state=0) t0 = time() X_tsne = tsne.fit_transform(X)plot_embedding_2d(X_tsne[:,0:2],"t-SNE 2D") plot_embedding_3d(X_tsne,"t-SNE 3D (time %.2fs)" %(time() - t0))

降维后得到X_ tsne，大小是(901,3)，plot_ embedding_ 2d()将前2维数据可视化，plot_ embedding_ 3d()将3维数据可视化。

函数plot_ embedding_ 3d定义如下：

def plot_embedding_3d(X, title=None): #坐标缩放到[0,1]区间 x_min, x_max = np.min(X,axis=0), np.max(X,axis=0) X = (X - x_min) / (x_max - x_min) #降维后的坐标为（X[i, 0], X[i, 1],X[i,2]），在该位置画出对应的digits fig = plt.figure() ax = fig.add_subplot(1, 1, 1, projection='3d') for i in range(X.shape[0]): ax.text(X[i, 0], X[i, 1], X[i,2],str(digits.target[i]), color=plt.cm.Set1(y[i] / 10.), fontdict={'weight': 'bold', 'size': 9}) if title is not None: plt.title(title)

- 看看效果

十多种算法，结果各有好坏，总体上t-SNE表现最优，但它的计算复杂度也是最高的。下面给出PCA、LDA、t-SNE的结果:

- 代码获取

MachineLearning/ManifoldLearning/DimensionalityReduction_DataVisualizing

下文转自：http://blog.csdn.net/zhangweiguo_717/article/details/70188517

SNE、TSNE

TSNE是由SNE衍生出的一种算法，SNE最早出现在2002年，它改变了MDS和ISOMAP中基于距离不变的思想，将高维映射到低维的同时，尽量保证相互之间的分布概率不变，SNE将高维和低维中的样本分布都看作高斯分布，而Tsne将低维中的坐标当做T分布，这样做的好处是为了让距离大的簇之间距离拉大，从而解决了拥挤问题。从SNE到TSNE之间，还有一个对称SNE，其对SNE有部分改进作用。

SNE算法
对称SNE算法
TSNE算法（***）

1、SNE

高维数据用X表示，Xi表示第i个样本，低维数据用Y表示，则高维中的分布概率矩阵P定义如下：

P(i,j)表示第i个样本分布在样本j周围的概率。delta是依据最大熵原理来决定，entropy=sum(pi*log(pi))，以每个样本点作为中心的delta都需要使得最后分布的熵较小，通常以log(k)为上限，k为你所决定的邻域点的个数。

低维中的分布概率矩阵计算如下：

这里我们把低维中的分布看作是均衡的，每个delta都是0.5，由此可以基本判断最后降维之后生成的分布也是一个相对均匀的分布。

随机给定一个初始化的Y，进行优化，使得Y的分布矩阵逼近X的分布矩阵。我们给定目的函数，用KL散度来定义两个不同分布之间的差距：

则可以计算梯度为：

每次梯度下降的步长可设定固定或者自适应、随机等，也可以加上一个动量的梯度，初始值一般设为1e-4的随机正态分布。

2、对称SNE

顾名思义，就是让高维和低维中的概率分布矩阵是对称的，能方便运算，但是对拥挤问题无改进。

同样采用KL散度作为两个分布之间的差异标准，只是梯度有一些改变：

3、TSNE

TSNE对高维中的分布采用对称SNE中的做法，低维中的分布则采用更一般的T分布，也是对称的，我们可以发现sum(P)=sum(Q)=1。

TSNE算法流程如下：

自TSNE极大改良了SNE，但它们都有一个非常通用的毛病，耗时耗力。样本较多时，构建网络及其困难，梯度下降太慢，TSNE的程序及可视化见下一篇，TSNE的改良Largevis见下下篇。

TSNE——目前最好的降维方法的更多相关文章

机器学习笔记----四大降维方法之PCA（内带python及matlab实现）
大家看了之后,可以点一波关注或者推荐一下,以后我也会尽心尽力地写出好的文章和大家分享. 本文先导:在我们平时看NBA的时候,可能我们只关心球员是否能把球打进,而不太关心这个球的颜色,品牌,只要有3D效 ...
matlab 工具之各种降维方法工具包，下载及使用教程，有PCA， LDA，等等。。。
最近跑深度学习,提出的feature是4096维的,放到我们的程序里,跑得很慢,很慢.... 于是,一怒之下,就给他降维处理了,但是matlab 自带的什么pca( ), princomp( )函数, ...
降维方法PCA与SVD的联系与区别
在遇到维度灾难的时候,作为数据处理者们最先想到的降维方法一定是SVD(奇异值分解)和PCA(主成分分析). 两者的原理在各种算法和机器学习的书籍中都有介绍,两者之间也有着某种千丝万缕的联系.本文在简单 ...
特征向量、特征值以及降维方法（PCA、SVD、LDA）
一.特征向量/特征值 Av = λv 如果把矩阵看作是一个运动,运动的方向叫做特征向量,运动的速度叫做特征值.对于上式,v为A矩阵的特征向量,λ为A矩阵的特征值. 假设:v不是A的速度(方向) 结果如 ...
机器学习降维方法概括， LASSO参数缩减、主成分分析PCA、小波分析、线性判别LDA、拉普拉斯映射、深度学习SparseAutoEncoder、矩阵奇异值分解SVD、LLE局部线性嵌入、Isomap等距映射
机器学习降维方法概括版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u014772862/article/details/52335970 最近 ...
借用数组对象的prototype给数组扩充降维方法
原理:只要是一个对象,他都有一个prototype原型对象,保存共有的属性和方法. <!DOCTYPE html> <html lang="en"> < ...
R语言-混合型数据聚类
利用聚类分析,我们可以很容易地看清数据集中样本的分布情况.以往介绍聚类分析的文章中通常只介绍如何处理连续型变量,这些文字并没有过多地介绍如何处理混合型数据(如同时包含连续型变量.名义型变量和顺序型变量 ...
使用t-SNE做降维可视化
最近在做一个深度学习分类项目,想看看训练集数据的分布情况,但由于数据本身维度接近100,不能直观的可视化展示,所以就对降维可视化做了一些粗略的了解以便能在低维空间中近似展示高维数据的分布情况,以下内容 ...
【机器学习基础】无监督学习（2）——降维之LLE和TSNE
在上一节介绍了一种最常见的降维方法PCA,本节介绍另一种降维方法LLE,本来打算对于其他降维算法一并进行一个简介,不过既然看到这里了,就对这些算法做一个相对详细的学习吧. 0.流形学习简介在前面PC ...

随机推荐

HDU 5493 Queue 树状数组+二分
Queue Problem Description N people numbered from 1 to N are waiting in a bank for service. They all ...
使用VMware搭建3台一模一样的Linux虚拟机
转自:https://www.linuxidc.com/Linux/2014-08/105909.htm 简介:VMware可以在个人本地一台笔记本机器上同时运行二个或更多Windows.DOS.LI ...
将字符串序列化Object格式
using Newtonsoft.Json; 首先引用 Newtonsoft.Json; 定义一个字符串 string str = "[{'ID':8.0,'PAGEID':201.0,' ...
vue中 router-link 传递参数以及获取
将所遇见的问题一步一步记录下来,不久便会成长今天在修改前端(vue) BUG的时候遇见 router-link标签,传递参数到另一个页面,确不知道参数在另一个页面怎么接收,于是找度娘需求解决办法,最 ...
ffmpeg键盘命令响应程序详解
一.对终端进行读写当一个程序在命令提示符中被调用时, shell负责将标准输入和标准输出流连接到你的程序, 实现程序与用户间的交互. 1. 标准模式和非标准模式在默认情况下, 只有用户按下回车 ...
Combox程序中自定义数据源
有combox控件,命名为cbxPutStatus,在程序中为其手工定义数据源,并绑定 private void POrderSplitFrm_Load(object sender, EventArg ...
有关PHP数组
在PHP中,数组就是关键字和值的集合,我们可以使用array关键字创建: $arr=array[100,200,300,400,500]: //这是一个自定义数组,数组里面的值是自 ...
（转）Django学习之第二章：Django快速上手
安装Python 安装Django非常容易.因为Django可以运行在任何可以运行Python的环境中,所以可以以多种方式进行配置. 在本章我们将尝试覆盖几种常见的Django安装场景. Djang ...
CDR实例教程-高考789，敢拼就能赢！
本教程是我去年做的一个案例,本来今年想要在做一个,突然意识到今天就是高考日了,没来的及,所以大家将就看些.7.8.9是值得一生纪念的日子,也是以后的每年都会怀念的日子,因为是全国都在上演史诗大剧“决战 ...
Springboot统一异常处理(@ControllerAdvice)
import org.springframework.web.bind.annotation.ControllerAdvice; import org.springframework.web.bind ...

TSNE——目前最好的降维方法