SPSS数据分析—聚类分析

多元分析的主要思想之一就是降维，我们已经讲过了很多降维的方法，例如因子分析、主成分分析，多维尺度分析等，还有一种重要的降维方法，就是聚类分析。

聚类分析实质上就是按照距离远近将数据分成若干个类别，使得类别内的差异尽可能小，类别间的差异尽可能大，它也是一种描述统计方法，并没有涉及假设检验。

由于聚类是根据数据间的距离来进行分类的，因此如何定义距离就成为聚类分析首先要确定的内容，统计学中定义距离的方法有几十种，最常用的是欧氏距离。

聚类的方法体系主要有三种
1.非层次聚类
代表方法有K-均值聚类法，基本思路是首先定义一个初始分类，然后通过迭代把数据在不同的类别间移动，直到达到一定标准，该方法计算速度较快，因此也称为快速聚类法，通常需要在分析前就确定具体的类别个数。
2.层次聚类
层次聚类首先定义距离算法，然后按照该算法计算数据间的距离，按照距离远近进行聚类，该方程计算速度不如非层次聚类，树状图是层次聚类的重要输出和解释结果
3.智能聚类
是随着海量数据的产生而形成的聚类方法，主要面向海量数据、数据类型复杂的情况，以实现自动判断聚类数、计算速度快等要求，比较常见的是两步聚类法

下面我们分别来看这几类方法

1.K-均值聚类

我们来看一个例子，收集了一些客户电话使用情况的数据，共有6个变量，现在希望对客户进行细分，根据调研，认为可以被分为5个群体，现在对此进行聚类分析，数据如下

由于事先已决定分为几类，并且变量数据都为连续型数据，根据要求也是对客户也就是个案进行聚类，这些都符合K-均值聚类的要求，因此我们使用k-均值聚类进行处理
从变量的定义可以看出，6个变量都是描述通话时长的，因此单位一致，接下来进行描述性统计，进一步查看数据

分析—分类—K-均值聚类

2.层次聚类法

根据运算的方向，层次聚类法可以分为合并法和分解法，这两种方法原理完全相同，只是方向相反。

相比较K-均值聚类等非层次聚类，层次聚类法的优点很明显：既可以对个案聚类也可以对变量聚类，并且变量的数据类型也没有过多要求，对距离的测量方法也非常多样，即使运算速度较慢，但是借助于计算机，也可以弥补。

例：有7名不同国家的专业裁判和1名体育爱好者，对300次体操表演进行打分，现在想根据评分差异将其归类，数据如下

接下来对数据进行预分析，在此省略具体步骤

分析—分类—系统聚类

3.两步聚类法

两步聚类法属于近几年针对海量数据分析而发展出的智能聚类法，此类方法结合了传统聚类方法的优点，并且更加智能，降低了使用门槛。

两步聚类顾名思义就是将聚类过程分成两个步骤进行，第一步是预聚类，也就是初步归类，此时最大类别数可以自己定义，第二步是正式聚类，在第一步结果的基础上再进行聚类并最终确定聚类方案

例：现在有500个病人的资料，希望通过聚类的方法对病人进行归类

可以看到，数据的类型比较多样，在此我们使用两步聚类进行

分析—分类—两步聚类

SPSS数据分析—聚类分析的更多相关文章

SPSS数据分析方法不知道如何选择
一提到数学,高等数学,线性代数,概率论与数理统计,数值分析,空间解析几何这些数学课程,头疼呀.作为文科生,遇见这些课程时,通常都是各种寻求帮助,班上有位宅男数学很厉害,各种被女生‘围观’,这数学为 ...
快速掌握SPSS数据分析
SPSS难吗?无非就是数据类型的区别后,就能理解应该用什么样的分析方法,对应着分析方法无非是找一些参考资料进行即可.甚至在线网页SPSS软件直接可以将数据分析结果指标人工智能地分析出来,这有多难呢 ...
小白学数据分析--聚类分析理论之K-means理论篇
小白学数据分析--聚类分析理论之K-means理论篇聚类分析是一类广泛被应用的分析方法,其算法众多,目前像SAS.Splus.SPSS.SPSS Modeler等分析工具均以支持聚类分析,但是如何使 ...
SPSS数据分析—多维尺度分析
在市场研究中,有一种分析是研究消费者态度或偏好,收集的数据是某些对象的评分数据,这些评分数据可以看做是对象间相似性或差异性的表现,也就是一种距离,距离近的差异性小,距离远的差异性大.而我们的分析目的也 ...
交完论文才发现spss数据分析做错了
上周,终于把毕业论文交给导师了.然而,今天导师却邮件我,叫我到他办公室谈谈.具体是谈什么呢?我百思不得其解:对论文几次大修小修后,重复率已经低于学校的上限了,论文结构也很完整,我已经在做答辩的ppt了 ...
SPSS数据分析—广义线性混合模型
广义线性混合模型是目前线性模型范畴内最为完备的模型框架,它是广义线性模型的进一步延伸,进一步突破适用条件,因变量既可以非正态,也可以非独立,由于其最为复杂,因此SPSS对其输出结果采用模型格式,而不 ...
SPSS数据分析—广义线性模型
我们前面介绍的一般线性模型.Logistic回归模型.对数线性模型.Poisson回归模型等,实际上均属于广义线性模型的范畴,广义线性模型包含的范围非常广泛,原因在于其对于因变量.因变量的概率分布等 ...
SPSS数据分析—对数线性模型
我们之前讲Logistic回归模型的时候说过,分类数据在使用卡方检验的时候,当分类过多或者每个类别的水平数过多时,单元格会划分的非常细,有可能会导致大量单元格频数很小甚至为0,并且卡方检验虽然可以分析 ...
SPSS数据分析—Probit回归模型
Probit含义为概率单位,和Logistic回归一样,Probit回归也用于因变量为分类变量的情况,通常情况下,两种回归方法的结果非常接近,但是由于Probit回归的结果解释起来比较抽象不易理解,因 ...

随机推荐

IOS程序启动原理
1.Info.plist 建立一个工程后,会在Supporting files文件夹下看到一个“工程名-Info.plist”的文件,该文件对工程做一些运行期的配置,非常重要,不能删除常见属性(红色 ...
C++模拟实现JDK中的ArrayList和LinkedList
Java实现ArrayList和LinkedList的方式采用的是数组和链表.以下是用C++代码的模拟: 声明Collection接口: #ifndef COLLECTION_H_ #define C ...
[转]SSAS没有注册类 (异常来自 HRESULT:0x80040154 (REGDB_E_CLASSNOTREG)) (Microsoft Visual Studio)的解决办法
转自:http://www.cnblogs.com/xvqm00/archive/2011/07/15/2107338.html 打开SSAS 数据源视图浏览数据时,提示没有注册类别 (异常来自 H ...
github开发
从0开始学习 GitHub 系列之「初识 GitHub」从0开始学习 GitHub 系列之「加入 GitHub」从0开始学习 GitHub 系列之「Git 速成」从0开始学习 GitHub 系列 ...
angular.extend()和 angular.copy()的区别
1.angular.copy angular.copy(source, [destination]); // source: copy的对象. 可以使任意类型, 包括null和undefined. ...
前端基础之 url src href
在实际使用中有时候会犯糊涂,因此来认真了解下这三者的具体用法. url 是资源定位器,是一种数据类型,和长度,颜色等属性并列.在写img的路径的时,如<img src="http:// ...
Spring配置文件详解
转自: http://book.51cto.com/art/201004/193743.htm 此处详细的为我们讲解了spring2.5的实现原理,感觉非常有用 spring配置文件是用于指导Sp ...
PHP优化笔记
1.指定display_function内容,用来禁用危险参数 2.指定display_errors = Off 来关闭错误显示 3.这个和上一条有因果关系,关闭了错误前台显示,但是要记录错误信息就必 ...
MySql binlog恢复数据
1. 直接导入数据库 mysqlbinlog --database=testdb mysql-bin. | mysql -uroot -f 2. 导出成SQL文 (1) 从binlog输出为SQL m ...
python re模块
re模块主要用于查找.替换.分割 print(re.__doc__) 特殊字符(元字符): "." 任意一个字符,除换行符(\n) "^" 字符串开头 &quo ...

SPSS数据分析—聚类分析

SPSS数据分析—聚类分析的更多相关文章

随机推荐

热门专题