降维、特征提取与流形学习--非负矩阵分解（NMF）

非负矩阵分解(NMF)是一种无监督学习算法，目的在于提取有用的特征（可以识别出组合成数据的原始分量），也可以用于降维，通常不用于对数据进行重建或者编码。

NMF将每个数据点写成一些分量的加权求和（与PCA相同），并且分量和系数都大于0，
只能适用于每个特征都是非负的数据（正负号实际上是任意的）。

1、将NMF应用于模拟数据

应用NMF时，我们必须保证数据是正的

如图

两个分量的NMF：分量指向边界，所有的数据点都可以写成这两个分量的正数组合。
一个分量的NMF：分量指向平均值，指向这里可以对数据做出最好的解释。

在NMF中，不存在“第一非负分量”，所有分量地位平等，减少分量个数会删除一些方向。NMF使用了随机初始化，根据随机种子的不同可能会产生不同的结果。

2、将NMF应用于人脸图像

NMF的主要参数（n_components参数）：想要提取的分量个数。这个数字通常要小于输入特征的个数（否则将每个像素作为单独的分量就可以解释数据）。

（1）先观察一下运用NMF找到的15个分量长什么样

  from sklearn.datasets import fetch_lfw_people

  from sklearn.decomposition import PCA

  from sklearn.model_selection import train_test_split

  import numpy as np

  from matplotlib import pyplot as plt

  people = fetch_lfw_people(min_faces_per_person=40,resize=0.7)

  image_shape = people.images[0].shape

  #每个人最多有50张照片，防止数据偏斜

  mask = np.zeros(people.target.shape,dtype=bool)

  for target in np.unique(people.target):

      mask[np.where(people.target==target)[0][:50]]=1

  X_people = people.data[mask]

  y_people = people.target[mask]

  X_train, X_test, y_train, y_test = train_test_split(X_people,y_people,stratify=y_people,random_state=42)

  #画出nmf模型训练得到的各个分量（这里指定15个），每个分量都是一张有点人形的图片（因为每个分量保留了所有的原始特征）。

  #所有的数据点都可以写成这些分量的加权求和

  from sklearn.decomposition import NMF

  nmf = NMF(n_components=15,random_state=0)

  nmf.fit(X_train)

  X_train_nmf = nmf.transform(X_train)

  X_test_nmf = nmf.transform(X_test)

  fix,axes = plt.subplots(3,5,figsize=(15,12),subplot_kw={'xticks':(),'yticks':()})

  for i ,(component,ax) in enumerate(zip(nmf.components_,axes.ravel())):

      ax.imshow(component.reshape(image_shape))

      ax.set_title("{}.component".format(i))

（2）、按照某个分量，重建数据点

  #将数据样本点按照第10个分量排序，绘制数据点中前10张图片

  compn = 10

  inds = np.argsort(X_train_nmf[:,compn])[::-1] #按照第三个分量排序

  fig,axes = plt.subplots(2,5,figsize=(15,8),subplot_kw={'xticks':(),'yticks':()})

  for i ,(ind,ax) in enumerate(zip(inds,axes.ravel())):

      ax.imshow(X_train[ind].reshape(image_shape))

可以看出在所有数据点中，分量10排名前10的数据点长什么样（它们的具有分量10提取的特点，脸有点歪）
每个分量提取了数据的不同模式，将这些分量叠加（加权求和）就能重构出训练集中的每一张图像。

3、应用于具有叠加结构的数据（信号源数据）

（1）先了解一下数据集

  S = mglearn.datasets.make_signals()

  plt.figure(figsize=(10,2))

  plt.plot(S,'-')

  plt.xlabel("Time")

  plt.ylabel("Signal")

  print(S.shape)

  print(S)

  #输出

  (2000, 3)

  [[2.65408203 2.48908887 1.07757433]

   [2.94981947 3.45507031 0.79929765]

   [2.97649958 3.65235694 0.73473133]

   ...

   [2.22337048 1.33481395 4.31421863]

   [2.36722058 1.56522921 4.53698235]

   [1.77945297 1.62362822 0.47660599]]

可以看出该数据具有2000条，每条有对应三个信号源的数据

（2）将混合信号分解为原始分量

我们假设有100台测量装置来观测混合信号，得到了2000条具有100维特征的信号数据X

#将数据混合成100维的状态

A = np.random.RandomState(0).uniform(size=(100,3))

X = np.dot(S,A.T)

print(X)

print(X.shape)

应用NMF还原这个混合信号

#用nmf还原这三个信号被混合成100维的信号X

nmf = NMF(n_components=3,random_state=42)

S_nmf =nmf.fit_transform(X)

#用于对比的pca

pca = PCA(n_components=3,random_state=42)

S_pca = pca.fit_transform(X)  #S_pca就是H

#画图

models = [X,S,S_nmf,S_pca]

names = ["Obsevations(first measurements)",

        "Ture sourses",

        "NMF recovered signals",

        "PCA recovered signals"]

fig, axes = plt.subplots(4,figsize=(10,5),gridspec_kw={'hspace':.5},subplot_kw={'xticks':(),'yticks':()})

for model,name,ax in zip(models,names,axes):

    ax.set_title(name)

    ax.plot(model,'-')

NMF在发现原始信号源时得到了不错的结果，而PCA失败了（PCA不适合这种叠加数据结构）
NMF生成的分量是没有顺序的，如果分量顺序和原始信号完全相同（线的颜色）只是偶然。

4、参考文献

《Pyhon机器学习基础教程》P120-P126

降维、特征提取与流形学习--非负矩阵分解（NMF）的更多相关文章

非负矩阵分解NMF
http://blog.csdn.net/pipisorry/article/details/52098864 非负矩阵分解(NMF,Non-negative matrix factorization ...
文本主题模型之非负矩阵分解(NMF)
在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题.这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解 ...
【代码更新】单细胞分析实录(21): 非负矩阵分解(NMF)的R代码实现，只需两步，啥图都有
1. 起因之前的代码(单细胞分析实录(17): 非负矩阵分解(NMF)代码演示)没有涉及到python语法,只有4个python命令行,就跟Linux下面的ls grep一样的.然鹅,有几个小伙伴不 ...
浅谈隐语义模型和非负矩阵分解NMF
本文从基础介绍隐语义模型和NMF. 隐语义模型 ”隐语义模型“常常在推荐系统和文本分类中遇到,最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解. ...
推荐算法——非负矩阵分解(NMF)
一.矩阵分解回想在博文推荐算法--基于矩阵分解的推荐算法中,提到了将用户-商品矩阵进行分解.从而实现对未打分项进行打分. 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积.对于上述的用户-商品矩阵 ...
单细胞分析实录(17): 非负矩阵分解(NMF)代码演示
本次演示使用的数据来自2017年发表于Cell的头颈鳞癌单细胞文章:Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumo ...
数据降维-NMF非负矩阵分解
1.什么是非负矩阵分解? NMF的基本思想可以简单描述为:对于任意给定的一个非负矩阵V,NMF算法能够寻找到一个非负矩阵W和一个非负矩阵H,使得满足 ,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积 ...
机器学习--K折交叉验证和非负矩阵分解
1.交叉验证交叉验证(Cross validation),交叉验证用于防止模型过于复杂而引起的过拟合.有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法. 于是可以先在一个子集上做 ...
非负矩阵分解（4）：NMF算法和聚类算法的联系与区别
作者:桂. 时间:2017-04-14 06:22:26 链接:http://www.cnblogs.com/xingshansi/p/6685811.html 声明:欢迎被转载,不过记得注明出处 ...

随机推荐

java中如果我老是少捕获什么异常，如何处理？
马克-to-win:程序又一次在出现问题的情况下,优雅结束了.上例中蓝色部分是多重捕获catch.马克-to-win:观察上面三个例子,结论就是即使你已经捕获了很多异常,但是假如你还是少捕获了什么异常 ...
Python入门-程序结构扩展
deque双端队列 #双端队列,就是生产消费者模式,依赖collections模块 from collections import deque def main(): info = deque((&q ...
webpack打包学习
从上图我们可以看出,webpack 可以将多种静态资源 js.css.sass文件等转换成一个静态文件,以此可以减少页面的请求,从而提高浏览器响应速度 1.安装开发依赖包 npm install we ...
LC-454
题目给你四个整数数组 nums1.nums2.nums3 和 nums4 ,数组长度都是 n ,请你计算有多少个元组 (i, j, k, l) 能满足: 0 <= i, j, k, l < ...
k8s和Docker
Docker是一个开源的应用容器引擎k8s是一个开源的容器集群管理系统这里我尽量用比较浅显的方式来说明k8s系统一.k8s是如何管理的节点的呢:1.k8s 分master和node 2.master ...
1903021116—吉琛—Java第六周作业—类的定义
项目内容课程班级博客链接 19信计班这个作业要求链接第六周作业链接 java面向对象的概念和定义博客名称学号-姓名-Java第六周作业-题目自拟要求每道题要有题目,代码(使用插入代码, ...
es6 class解析
直入主题.源代码如下: class A{ aName = 'A' constructor(aAge){ this.aAge = aAge } static aStatic = 'aStatic' } ...
2021.11.04 P1392 取数（多路归并)
2021.11.04 P1392 取数(多路归并) P1392 取数 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 题意: 在一个n行m列的数阵中,你须在每一行取一个数(共n个数) ...
SpringCloud入门简述
1.微服务简述微服务,是一个小型的服务,也是一种设计理念,将一个大型繁杂的系统拆分为多个小型的服务,进行独立部署,这些服务在独立进程中运行,通过特定的协议进行通信优点: 轻量化:一个服务不 ...
JDK内置锁深入探究
一.序言本文讲述仅针对 JVM 层次的内置锁,不涉及分布式锁. 锁有多种分类形式,比如公平锁与非公平锁.可重入锁与非重入锁.独享锁与共享锁.乐观锁与悲观锁.互斥锁与读写锁.自旋锁.分段锁和偏向锁/轻 ...