用t-SNE进行流形学习（digits数据集）

流行学习算法：

是一类用于可视化的算法，它允许进行更复杂的映射，通常也可以给出更好的可视化。
t-SNE算法是其中一种。

PCA是用于变换数据的首选方法，也可以进行可视化，但它的性质（先旋转然后减少方向）限制了有效性。因此，我们可以使用流形学习算法进行数据可视化。

1、什么是t-SNE

t-SNE算法：

主要思想：找到数据的一种二维表示，尽可能保持数据点之间的距离（高内聚，低耦合）。
- 这种方法不知道类别标签，是完全无监督的。
- 它只能变换用于训练的数据，不支持新数据（没有transform方法），即不能用于测试集。
- 具有调节参数（perplexity、early_exaggeration），通常默认参数的效果就很好。

2、将t-SNE应用于手写数字数据集

（1）了解一下digits数据集

  from sklearn.datasets import load_digits

  from matplotlib import pyplot as plt

  from sklearn.decomposition import PCA

  from sklearn.model_selection import train_test_split

  import numpy as np

  digits = load_digits()

  fig,axes = plt.subplots(2,5,figsize=(10,5),subplot_kw={'xticks':(),'yticks':()})

  #展示前10张图片

  for ax,img in zip(axes.ravel(),digits.images):

      ax.imshow(img)

  print(digits.images.shape)

  print(digits.data.shape)

  print(digits.target_names.shape)

  输出：

  (1797, 8, 8)

  (1797, 64)

  (10,)

在这个数据集中，包含1797张8*8灰度的图像。每个数据点都是一个数字，共有10种类别（数字0~9）

（2）使用PAC作为一个对比

使用PCA将数据集将至二维，并将其可视化。对pca变换后的数据的前两个主成分作图

pca = PCA(n_components=2)

pca.fit(digits.data) #t-SNE只能用于训练集

#将数据样本用pca进行转换

digits_pca = pca.transform(digits.data)

plt.figure(figsize=(10,10))

plt.xlim(np.min(digits_pca[:,0]),np.max(digits_pca[:,0]))

plt.ylim(np.min(digits_pca[:,1]),np.max(digits_pca[:,1]))

#将数据点绘制成文本

for i in range(len(digits.data)):

    plt.text(digits_pca[i,0],digits_pca[i,1],str(digits.target[i]))

plt.xlabel("First Principal component")

plt.ylabel("Second Principal cpmponent")

用pca可以将数据digits.data降到2维，没分别利用主成分1和主成分2，将数据点可视化至平面（只有两个特征才可作图到二维平面，便于观察）
利用pca前两个主成分可以把数字0,6,4相对较好地分开，但仍有重叠，其他大部分数字大量重叠。

（3）使用t-SNE

  from sklearn.manifold import TSNE

  tsne = TSNE(random_state=42)

  digits_tsne = tsne.fit_transform(digits.data)

  plt.figure(figsize=(10,10))

  plt.xlim(np.min(digits_tsne[:,0]),np.max(digits_tsne[:,0])+1)

  plt.ylim(np.min(digits_tsne[:,1]),np.max(digits_tsne[:,1])+1)

  #将数据点绘制成文本

  for i in range(len(digits.data)):

      plt.text(digits_tsne[i,0],digits_tsne[i,1],str(digits.target[i]))

  plt.xlabel("t-SNE feature 0")

  plt.ylabel("t-SNE feature 1")

可以发现t-SNEde结果很棒，所有的类别都被明确地分开，形成密集的组
找到数据的一种二维表示，仅根据原始空间中数据点之间的靠近程度就能将各个类别明确分开

（4）关于matplotlib.pylot.text

在本次实验代码中，用到了plt.text（）方法将降维后的数据在二维平面上用文本画出。

用法详见plt.text官方文档

ps：

利用散点图也能可视化我们上述的二维数据，但是不直观，因为类别太多了。

用t-SNE进行流形学习（digits数据集）的更多相关文章

Scikit-Learn模块学习笔记——数据集模块datasets
scikit-learn 的 datasets 模块包含测试数据相关函数,主要包括三类: datasets.load_*():获取小规模数据集.数据包含在 datasets 里 datasets.fe ...
流形学习之等距特征映射（Isomap）
感觉是有很久没有回到博客园,发现自己辛苦写的博客都被别人不加转载的复制粘贴过去真的心塞,不过乐观如我,说明做了一点点东西,不至于太蠢,能帮人最好.回校做毕设,专心研究多流形学习方法,生出了考研的决心. ...
Manifold learning 流形学习
Machine Learning 虽然名字里带了 Learning 一个词,让人乍一看觉得和 Intelligence 相比不过是换了个说法而已,然而事实上这里的 Learning 的意义要朴素得多. ...
Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) ...
流形学习（manifold learning）的一些综述
流形学习(manifold learning)的一些综述讨论与进展 issue 26 https://github.com/memect/hao/issues/26 Introduction htt ...
机器学习算法总结(十二)——流形学习（Manifold Learning）
1.什么是流形流形学习的观点:认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的.由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上这些数据只要比较低的维度就能唯一的表示 ...
流形学习（manifold learning）综述
原文地址:https://blog.csdn.net/dllian/article/details/7472916 假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低 ...
流形学习 (Manifold Learning)
流形学习 (manifold learning) zz from prfans............................... dodo:流形学习 (manifold learning) ...
ML:流形学习
很多原理性的东西需要有基础性的理解,还是篇幅过少,所以讲解的不是特别的清晰. 原文链接:http://blog.sciencenet.cn/blog-722391-583413.html 流形(man ...

随机推荐

JBOSS 7.1.1上的DB2和Orcale数据库配置
将IBM DB2和Oracle数据源配置到JBOSS 7.1.1 第1步: 打开Standalone.xml文件将以下代码添加到数据源的子系统中,并根据数据库URL和数据源的用户名和密 ...
js原生的Ajax
js原生的Ajax其实就是围绕浏览器内内置的Ajax引擎对象进行学习的,要使用js原生的Ajax完成异步操作,有如下几个步骤: 1)创建Ajax引擎对象 2)为Ajax引擎对象绑定监听(监听服务器已 ...
记一次dotnet拆分包,并希望得大佬指点
记一次dotnet拆分包,并希望得大佬指点之前做了一个用于excel导入导出的包, 定义了一些接口, 然后基于 NPOI EPPlus MiniExcel 做了三种实现接口大概长下面这样(现在可以 ...
[ThinkPHP]2-Rce buuoj
[ThinkPHP]2-Rce 进来是这个页面构造路径. 好,构造正确,但是服务器拦截了对该操作的访问打开提示网站,看到关键信息分析正则老版本的正则可以用 '@'符号表示模式.以下正则是模式e ...
Linux磁盘分区fdisk命令操作(简洁版)
实例(环境为: CentOS Linux release 7.2.1511 (Core), 3.10.0-327.el7.x86_64) 选择要具体操作的第二块磁盘(linux下一切是文件形式对应): ...
GEOS 使用记录
GEOS 使用记录官网 https://trac.osgeo.org/geos/ https://libgeos.org/ 下载地址 https://libgeos.org/usage/downlo ...
PostgreSQL常用初级技能树
1.创建表需要id自增设置serial即可,示例: id serial not null 2.创建表没有设置后面想要再设置自增给test表设置一个自增序列test_id_seq CREATE SE ...
从实例学习 Go 语言、"并发内容" 学习笔记及心得体会、Go指南
第一轮学习 golang "并发内容" 学习笔记,Go指南练习题目解析.使用学习资料 <Go-zh/tour tour>.记录我认为会比较容易忘记的知识点,进行补充,整 ...
OpenHarmony 3.1 Beta版本关键特性解析——OpenHarmony图形框架
(以下内容来自开发者分享,不代表 OpenHarmony 项目群工作委员会观点) 李煜华为技术有限公司崔坤华为技术有限公司众所周知,动画是系统和应用与用户交互的重要环节.动画效果的好坏会直接影响 ...
python基础练习题（题目输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数）
day10 --------------------------------------------------------------- 实例017:字符串构成题目输入一行字符,分别统计出其中英 ...