多维尺度变换MDS(Multidimensional Scaling)

流形学习（Manifold Learning）是机器学习中一大类算法的统称，流形学习是非线性的降维方法（an approach to non-linear dimensionality reduction）。PCA、LDA等降维方法基于线性假设，经常会损失数据内部非线性的结构信息；流形学习是线性降维方法的generalization，目的是捕获数据内部非线性的结构。而MDS就是流行学习中非常经典的一种方法。

多维尺度变换是一种在低维空间展示“距离”数据结构的多元数据分析技术,是一种将多维空间的研究对象简化到低维空间进行定位、分析和归类，同时又保留对象间原始关系的数据分析方法。多维尺度变换算法集中于保留高维空间中的“相似度”信息，而在一般的问题解决的过程中，这个“相似度”通常用欧式距离来定义。

通俗来讲，就是将多维数据映射到低维空间，同时保持各个样本之间的原有相对距离不变。

多维尺度变换的目标：当n 个对象中各对对象之间的相似性（或距离）给定时，确定这些对象在低维(欧式) 空间中的表示（称为感知图, Perceptual Mapping），
并使其尽可能与原先的相似性（或距离）“大体匹配”，使得由降维所引起的任何变形达到最小。

多维尺度变换可以应用到数据可视化，通过可视化找出异常点，反欺诈应用等。

计算步骤大致如下：

第一步：计算所有数据项两两间的实际距离（可参考皮尔逊算法或欧几里德算法）

第二步：将数据项随机放置在二维图上。

第三步：针对每两两构成的一对数据项，将它们的实际距离与当前在二维图上的距离进行比较，求出一个误差值

第四步：根据误差的情况，按照比例将每个数据项的所在位置移近或移远少许量。（每一个节点的移动，都是所有其它节点施加在该节点上的推或拉的结合效应。）

第五步：重复第三步、第四步（节点每移动一次，其当前距离与实际距离的差距就会减少一些）。这一过程会不断地重复多次，直到无法再通过移动节点来减少总体误差为止。

python 实现

已知四个城市之间的距离，如何展示出他们的相对位置，原理就是利用MDS将多维数据映射到二维空间，作为经纬度坐标，同时之间的相对距离保持不变。

import numpy as np

import pandas as pd

from sklearn.manifold import MDS

import matplotlib.pyplot as plt

#%%

data = np.array([(0,1046,608,1859),

                 (1046,0,825,1149),

                 (608,825,0,1280),

                 (1859,1149,1280,0)

                ]

               )

index = ['beijing','shanghai','zhengzhou','guangzhou']

columns = ['beijing','shanghai','zhengzhou','guangzhou']

Word = pd.DataFrame(data,index,columns)

Word

#%%

mds = MDS()

mds.fit(data)

#%%

a = mds.embedding_

print(a)

plt.scatter(a[0:,0],a[0:,1],color='red')

多维尺度变换MDS(Multidimensional Scaling)的更多相关文章

SPSS数据分析—多维尺度分析
在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大.而我们的分析目的也 ...
二维DCT变换
DCT(Discrete Consine Transform),又叫离散余弦变换,它的第二种类型,经常用于信号和图像数据的压缩.经过DCT变换后的数据能量非常集中,一般只有左上角的数值是非零的,也就是 ...
SPSS数据分析—基于最优尺度变换的典型相关分析
传统的典型相关分析只能考虑变量之间的线性相关情况,且必须为连续变量,而我们依然可以使用最优尺度变换来拓展其应用范围,使其可以分析非线性相关.数据为分类数据等情况,并且不再仅限于两个变量间的分析, 虽然 ...
吴裕雄 python 机器学习——多维缩放降维MDS模型
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
二维DCT变换 | Python实现
引言最近专业课在学信息隐藏与数字水印,上到了变换域隐藏技术,提到了其中的DCT变换,遂布置了一个巨烦人的作业,让手动给两个\(8\times8\)的矩阵做二维DCT变换,在苦逼的算了一小时后,我决定 ...
Bitmap尺度变换
Bitmap bitMap = BitmapFactory.decodeFile(path); int width = bitMap.getWidth(); int height = bitMap.g ...
宏基因组扩增子图表解读2散点图：组间整体差异分析(Beta多样性)
散点图数据点在直角坐标系平面上的分布图.在宏基因组领域,散点图常用于展示样品组间的Beta多样性,常用的分析方法有主成分分析(PCA),主坐标轴分析(PCoA/MDS)和限制条件的主坐标轴分析(CP ...
R语言︱常用统计方法包+机器学习包（名称、简介）
一.一些函数包大汇总转载于:http://www.dataguru.cn/thread-116761-1-1.html 时间上有点过期,下面的资料供大家参考基本的R包已经实现了传统多元统计的很多功能 ...
ML—R常用多元统计分析包（持续更新中……）
基本的R包已经实现了传统多元统计的很多功能,然而CRNA的许多其它包提供了更深入的多元统计方法,下面要综述的包主要分为以下几个部分: 1) 多元数据可视化(Visualising multivaria ...

随机推荐

windows查看端口占用指令
1.Windows平台在windows命令行窗口下执行: 1.查看所有的端口占用情况 C:\>netstat -ano 协议本地地址外部地址 ...
perf的采样模式和统计模式
perf的采样模式和统计模式统计模式和采样模式使用寄存器的方法不相同; 在统计模式下,每次调度之前设置寄存器,调度之后清理寄存器,留个下个进程使用;PMU寄存器的使用方法; 在采样模式下,每次 pm ...
Period UVALive - 3026（next数组）
题意: 给出一个长度不超过1000000的字符串S, 对于该字符串的所有前缀求其周期, 如果周期K >= 2输出起始位置是第几个字符和其周期K 解析: 先求next数组对于每一个位置如果i % ...
IBatis Map报错10.1
检查 providers.config 把没用的给关闭掉即可
OI队测题解：
Test 17 T1: 题目大意: 喵星系有n个星球,标号为1到n,星球以及星球间的航线形成一棵树. 所有星球间的双向航线的长度都为1.小昕要在若干个星球建矿石仓库,设立每个仓库的费用为K.对于未 ...
【Visual Installer】如何注册自已的文件类型
一.前言这几天在做公司软件产品的安装包,产品有一个特定的后缀名为:.isbimqs,需要的功能是双击该后缀名文件后,会有一个启动程序launchRevit.exe去打开Revit,由Revit去打开 ...
洛谷P4606 [SDOI2018]战略游戏【圆方树 + 虚树】
题目链接洛谷P4606 双倍经验:弱化版题解两点之间必经的点就是圆方树上两点之间的圆点所以只需建出圆方树每次询问建出虚树,统计一下虚树边上有多少圆点即可还要讨论一下经不经过根\(1\)的情 ...
docker基础学习
docker的定义: Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化.容器是完全使用沙箱机 ...
【bzoj3796】Mushroom追妹纸
Portal -->bzoj3796 Description 给出字符串s1.s2.s3,找出一个字符串w,满足: 1.w是s1的子串: 2.w是s2的子串: 3.s3不是w的子串. 求w的 ...
springboot用mybatis-generator自动生成mapper和model
转:http://blog.csdn.net/u011493599/article/details/53928379 1.在pom.xml里添加maven插件 <plugin> <g ...

多维尺度变换MDS(Multidimensional Scaling)

多维尺度变换MDS(Multidimensional Scaling)的更多相关文章

随机推荐

热门专题