ML: 聚类算法R包-模糊聚类

1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展，模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点，出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析，就是模糊聚类分析。FCM（Fuzzy C-Means）算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

算法流程：

标准化数据矩阵；
建立模糊相似矩阵，初始化隶属矩阵；
算法开始迭代，直到目标函数收敛到极小值；
根据迭代结果，由最后的隶属矩阵确定数据所属的类，显示最后的聚类结果。

优点：相比起前面的”硬聚类“，FCM方法会计算每个样本对所有类的隶属度，这给了我们一个参考该样本分类结果可靠性的计算方法，若某样本对某类的隶属度在所有类的隶属度中具有绝对优势，则该样本分到这个类是一个十分保险的做法，反之若该样本在所有类的隶属度相对平均，则我们需要其他辅助手段来进行分类。

缺点：KNN的缺点基本它都有

模糊聚类

cluster::fanny
e1071::cmeans

cluster::fanny

需要R安装包

install.packages("cluster")

示例代码：

library(cluster)

iris2 <- iris[-5]

fannyz=fanny(iris2,3,metric="SqEuclidean")
summary(fannyz)

分类分布:

> fannyz$clustering

  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3 2 3 3 3 3 3 3 3 3 3 3 3 3

 [66] 3 3 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 3 2 2 2 2 3 2 2 2 2 2 2 3 2 2 2 2 2 3 2 3 2 3 2 2 3 3 2 2

[131] 2 2 2 3 2 2 2 2 3 2 2 2 3 2 2 2 3 2 2 3

样本隶属度

> fannyz$membership

              [,1]         [,2]         [,3]

  [1,] 0.996623586 0.0010720343 0.0023043797

  [2,] 0.975852543 0.0074979471 0.0166495094

  [3,] 0.979825922 0.0064145785 0.0137594999

  [4,] 0.967427446 0.0101075228 0.0224650314

  [5,] 0.994470355 0.0017679352 0.0037617094

  [6,] 0.934574112 0.0206196544 0.0448062334

  [7,] 0.979491667 0.0065045178 0.0140038150

  [8,] 0.999547263 0.0001412048 0.0003115325

  [9,] 0.930379787 0.0219024180 0.0477177955

.......

图示显示：clusplot(fannyz)

结果显示

> table(iris$Species,fannyz$clustering)

              1  2  3

  setosa     50  0  0

  versicolor  0  3 47

  virginica   0 37 13

e1071::cmeans

安装包代码：

install.packages("e1071")

示例代码：

> library("e1071")

> x <- iris[-5]

> result1<-cmeans(x,3,50)

> result1

Fuzzy c-means clustering with 3 clusters

Cluster centers:

  Sepal.Length Sepal.Width Petal.Length Petal.Width

1     5.888999    2.761093     4.364049   1.3973654

2     6.775092    3.052406     5.646882   2.0535855

3     5.003966    3.414086     1.482821   0.2535487

Memberships:

                  1            2           3

  [1,] 0.0023043721 0.0010720485 0.996623579

  [2,] 0.0166481906 0.0074975084 0.975854301

  [3,] 0.0137586391 0.0064142953 0.979827066

  .......

统计结果:

> table(iris$Species,result1$cluster)

              1  2  3

  setosa      0  0 50

  versicolor 47  3  0

  virginica  13 37  0

3d效果显示示例

#install.packages("scatterplot3d")

library(scatterplot3d)

scatterplot3d(result1$membership, color=result1$cluster, type="h",

                     angle=55, scale.y=0.7, pch=16, main="Pertinence")

参考资料：

ML: 聚类算法R包-模糊聚类的更多相关文章

ML: 聚类算法R包 - 模型聚类
模型聚类 mclust::Mclust RWeka::Cobweb mclust::Mclust EM算法也称为期望最大化算法,在是使用该算法聚类时,将数据集看作一个有隐形变量的概率模型,并实现模型最 ...
ML: 聚类算法R包-层次聚类
层次聚类 stats::hclust stats::dist R使用dist()函数来计算距离,Usage: dist(x, method = "euclidean", di ...
ML: 聚类算法R包-网格聚类
网格聚类算法 optpart::clique optpart::clique CLIQUE(Clustering In QUEst)是一种简单的基于网格的聚类方法,用于发现子空间中基于密度的簇.CLI ...
ML: 聚类算法R包 - 密度聚类
密度聚类 fpc::dbscan fpc::dbscan DBSCAN核心思想:如果一个点,在距它Eps的范围内有不少于MinPts个点,则该点就是核心点.核心和它Eps范围内的邻居形成一个簇.在一个 ...
ML: 聚类算法R包-对比
测试验证环境数据: 7w+ 条,数据结构如下图: > head(car.train) DV DC RV RC SOC HV LV HT LT Type TypeName 1 379 85.09 ...
ML: 聚类算法R包-K中心点聚类
K-medodis与K-means比较相似,但是K-medoids和K-means是有区别的,不一样的地方在于中心点的选取,在K-means中,我们将中心点取为当前cluster中所有数据点的平均值, ...
聚类算法之k-均值聚类
k-均值聚类算法优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢适用数据类型:数值型数据其工作流程:首先,随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
机器学习笔记----Fuzzy c-means(FCM)模糊聚类详解及matlab实现
前言:这几天一直都在研究模糊聚类.感觉网上的文档都没有一个详细而具体的讲解,正好今天有时间,就来聊一聊模糊聚类. 一:模糊数学我们大家都知道计算机其实只认识两个数字0,1.我们平时写程序其实也是这样 ...

随机推荐

java网络编程之socket(2)
异步处理多客户端连接服务端上篇讲到的是服务端接收一个客户端的请求之后就结束了,不能再接收其他客户端的请求了,实际情况上我们希望服务端能够处理来自不同用户的请求. 想到这里,或许我们可以用一个死循环, ...
android源码分享1
技术博客 "碎片化"严重,安卓走向封闭?[Bus Weekly]48期阅读数:286 2017-05-08 按照NetMarketShare统计数据显示, ...
localStorage与location的用法
1.localStorage 是h5提供的客户端存储数据的新方法: 之前,这些都是由 cookie 完成的.但是 cookie 不适合大量数据的存储,因为它们由每个对服务器的请求来传递,这使得 coo ...
vijos1051题解
题目: 圣诞老人回到了北极圣诞区,已经快到12点了.也就是说极光表演要开始了.这里的极光不是极地特有的自然极光景象.而是圣诞老人主持的人造极光. 轰隆隆--烟花响起(来自中国的浏阳花炮之乡).接下来就 ...
php---tp框架---表单验证
自动验证是ThinkPHP模型层提供的一种数据验证方法,可以在使用create创建数据对象的时候自动进行数据验证.分为静态验证和动态验证. 关于基础知识,请查看手册"自动验证"一章 ...
Java开发从初级到中级
本人正统软件工程专业毕业,虽然实力垫底,但是大学的时候,整个学校非常热衷于OJ,ACM之类,耳濡目染,自以为基础的知识是有的.但是一直觉得学的东西都是一团浆糊,按照老师的话说,我是那种看书只看目录, ...
Kinect 常用识别手势
以下手势能被流畅的识别: ◎RaiseRightHand / RaiseLeftHand – 左手或右手举起过肩并保持至少一秒 ◎Psi –双手举起过肩并保持至少一秒 ◎Stop – 双手下垂. ◎W ...
猜年龄---while循环
#!/usr/bin/env python# -*- coding:utf-8 -*-# Author:Andy Chen age_of_oldboy = 56 count = 0while True ...
Socket通信中的 BeginReceive与EndReceive
BeginReceive 与endReceive 必须成对出现,如果BeginReceive没有及时调用endReceive,可能会出现数据被从buffer中读取二次,如果在下面这行代码下面加入别的代 ...
Dapper.Rainbow 简单使用
一. Dapper 简介一个效率比较高的微型ORM. 二 . Dapper.Rainbow Dapper的扩展,在这个扩展里面实现了 Dynamic 的插入和更新 ...

ML: 聚类算法R包-模糊聚类

ML: 聚类算法R包-模糊聚类的更多相关文章

随机推荐

热门专题