用t-SNE进行流形学习(digits数据集)
流行学习算法:
- 是一类用于可视化的算法,它允许进行更复杂的映射,通常也可以给出更好的可视化。
- t-SNE算法是其中一种。
PCA是用于变换数据的首选方法,也可以进行可视化,但它的性质(先旋转然后减少方向)限制了有效性。因此,我们可以使用流形学习算法进行数据可视化。
1、什么是t-SNE
t-SNE算法:
主要思想:找到数据的一种二维表示,尽可能保持数据点之间的距离(高内聚,低耦合)。
这种方法不知道类别标签,是完全无监督的。
它只能变换用于训练的数据,不支持新数据(没有transform方法),即不能用于测试集。
具有调节参数(perplexity、early_exaggeration),通常默认参数的效果就很好。
2、将t-SNE应用于手写数字数据集
(1)了解一下digits数据集
from sklearn.datasets import load_digits
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
import numpy as np
digits = load_digits()
fig,axes = plt.subplots(2,5,figsize=(10,5),subplot_kw={'xticks':(),'yticks':()})
#展示前10张图片
for ax,img in zip(axes.ravel(),digits.images):
ax.imshow(img)
print(digits.images.shape)
print(digits.data.shape)
print(digits.target_names.shape)
输出:
(1797, 8, 8)
(1797, 64)
(10,)
在这个数据集中,包含1797张8*8灰度的图像。每个数据点都是一个数字,共有10种类别(数字0~9)
(2)使用PAC作为一个对比
使用PCA将数据集将至二维,并将其可视化。对pca变换后的数据的前两个主成分作图
pca = PCA(n_components=2)
pca.fit(digits.data) #t-SNE只能用于训练集 #将数据样本用pca进行转换
digits_pca = pca.transform(digits.data) plt.figure(figsize=(10,10))
plt.xlim(np.min(digits_pca[:,0]),np.max(digits_pca[:,0]))
plt.ylim(np.min(digits_pca[:,1]),np.max(digits_pca[:,1])) #将数据点绘制成文本
for i in range(len(digits.data)):
plt.text(digits_pca[i,0],digits_pca[i,1],str(digits.target[i])) plt.xlabel("First Principal component")
plt.ylabel("Second Principal cpmponent")
用pca可以将数据digits.data降到2维,没分别利用主成分1和主成分2,将数据点可视化至平面(只有两个特征才可作图到二维平面,便于观察)
利用pca前两个主成分可以把数字0,6,4相对较好地分开,但仍有重叠,其他大部分数字大量重叠。
(3)使用t-SNE
from sklearn.manifold import TSNE
tsne = TSNE(random_state=42)
digits_tsne = tsne.fit_transform(digits.data)
plt.figure(figsize=(10,10))
plt.xlim(np.min(digits_tsne[:,0]),np.max(digits_tsne[:,0])+1)
plt.ylim(np.min(digits_tsne[:,1]),np.max(digits_tsne[:,1])+1)
#将数据点绘制成文本
for i in range(len(digits.data)):
plt.text(digits_tsne[i,0],digits_tsne[i,1],str(digits.target[i]))
plt.xlabel("t-SNE feature 0")
plt.ylabel("t-SNE feature 1")
可以发现t-SNEde结果很棒,所有的类别都被明确地分开,形成密集的组
找到数据的一种二维表示,仅根据原始空间中数据点之间的靠近程度就能将各个类别明确分开
(4)关于matplotlib.pylot.text
在本次实验代码中,用到了plt.text()方法将降维后的数据在二维平面上用文本画出。
- 用法详见plt.text官方文档
ps:
利用散点图也能可视化我们上述的二维数据,但是不直观,因为类别太多了。
用t-SNE进行流形学习(digits数据集)的更多相关文章
- Scikit-Learn模块学习笔记——数据集模块datasets
scikit-learn 的 datasets 模块包含测试数据相关函数,主要包括三类: datasets.load_*():获取小规模数据集.数据包含在 datasets 里 datasets.fe ...
- 流形学习之等距特征映射(Isomap)
感觉是有很久没有回到博客园,发现自己辛苦写的博客都被别人不加转载的复制粘贴过去真的心塞,不过乐观如我,说明做了一点点东西,不至于太蠢,能帮人最好.回校做毕设,专心研究多流形学习方法,生出了考研的决心. ...
- Manifold learning 流形学习
Machine Learning 虽然名字里带了 Learning 一个词,让人乍一看觉得和 Intelligence 相比不过是换了个说法而已,然而事实上这里的 Learning 的意义要朴素得多. ...
- Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法 流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度 空间来描述数据集 . 类似 一张纸 (二维) ...
- 流形学习(manifold learning)的一些综述
流形学习(manifold learning)的一些综述 讨论与进展 issue 26 https://github.com/memect/hao/issues/26 Introduction htt ...
- 机器学习算法总结(十二)——流形学习(Manifold Learning)
1.什么是流形 流形学习的观点:认为我们所能观察到的数据实际上是由一个低维流行映射到高维空间的.由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上这些数据只要比较低的维度就能唯一的表示 ...
- 流形学习(manifold learning)综述
原文地址:https://blog.csdn.net/dllian/article/details/7472916 假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低 ...
- 流形学习 (Manifold Learning)
流形学习 (manifold learning) zz from prfans............................... dodo:流形学习 (manifold learning) ...
- ML:流形学习
很多原理性的东西需要有基础性的理解,还是篇幅过少,所以讲解的不是特别的清晰. 原文链接:http://blog.sciencenet.cn/blog-722391-583413.html 流形(man ...
随机推荐
- 老版本的Spring应用该如何应对CVE-2022-22965漏洞?
昨天,在发布了<Spring官宣承认网传大漏洞,并提供解决方案>之后.群里就有几个小伙伴问了这样的问题:我们的Spring版本比较老,该怎么办?这是一个好问题,所以DD今天单独拿出来说说. ...
- 用SimpleDateFormat求出哪天是星期几,如2008-11-11
题目5: 巧妙利用SimpleDateFormat求出: 2008-11-11是星期几?import java.text.ParseException;import java.text.SimpleD ...
- eclipse/myeclipse注释模板的修改
本文转自:http://kaminlee.iteye.com/blog/1101938 Window --> Java --> Code Style --> Code Templat ...
- 集合框架基础三——Map
Map接口 * 将键映射到值的对象 * 一个映射不能包含重复的键 * 每个键最多只能映射到一个值 Map接口和Collection接口的不同 * Map是双列的,Collection是单列的 * ...
- javaScript设计模式:发布订阅模式
发布订阅模式的思想是在观察者模式的基础上演变而来,在观察者模式中客户端监听到对象某个行为就触发对应任务程序.而在发布订阅模式中依然基于这个核心思想,所以有时候也会将两者认为是同一种设计模式.它们的不同 ...
- Django项目引入NPM和gulp管理前端资源
前言 之前写了一篇<Asp-Net-Core开发笔记:使用NPM和gulp管理前端静态文件>,现在又来用Django开发项目了,之前我搞了一个Django的快速开发脚手架「DjangoSt ...
- Java多线程与线程池技术
一.序言 Java多线程编程线程池被广泛使用,甚至成为了标配. 线程池本质是池化技术的应用,和连接池类似,创建连接与关闭连接属于耗时操作,创建线程与销毁线程也属于重操作,为了提高效率,先提前创建好一批 ...
- Masa Blazor in Blazor Day
2022年第一场Blazor中文社区的开发者分享活动,我们的团队也全程参与其中,在议程中,也分享了我们团队的Blazor 管理后台模板,针对于Blazor,先科普一波,避免有些朋友不了解,Blazor ...
- 汇编语言实验1—Debug基础操作
1.使用Debug,将下面的程序段写入内存,逐条执行,观察每条指令执行后CPU中相关寄存器中内容的变化. 记录1:最后一条指令执行完BX=(4026)H,AL=(66)H,检验结果. 两种写入:e命令 ...
- 【面试普通人VS高手】Kafka的零拷贝原理?
最近一个学员去滴滴面试,在第二面的时候遇到了这个问题: "请你简单说一下Kafka的零拷贝原理" 然后那个学员努力在大脑里检索了很久,没有回答上来. 那么今天,我们基于这个问题来看 ...