基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）

簇数的确定：

要用到k-means里面的轮廓系数

基于python的数学建模---轮廓系数的确定 - 坤丶 - 博客园 (cnblogs.com)

模糊c的代码

import copy

import math

import random

import time

global MAX  # 用于初始化隶属度矩阵U

MAX = 10000.0

global Epsilon  # 结束条件

Epsilon = 0.0000001

def import_data_format_iris(file):

    """

    file这里是输入文件的路径，如iris.txt.

    格式化数据，前四列为data，最后一列为类标号（有0，1，2三类）

    如果是你自己的data，就不需要执行此段函数了。

    """

    data = []

    cluster_location = []

    with open(str(file), 'r') as f:

        for line in f:

            current = line.strip().split(",")  # 对每一行以逗号为分割，返回一个list

            current_dummy = []

            for j in range(0, len(current) - 1):

                current_dummy.append(float(current[j]))  # current_dummy存放data

            j += 1

            # 下面注这段话提供了一个范例：若类标号不是0，1，2之类数字时该怎么给数据集

            # 归类

            if current[j] == "Iris-setosa\n":

                cluster_location.append(0)

            elif current[j] == "Iris-versicolor\n":

                cluster_location.append(1)

            else:

                cluster_location.append(2)

            data.append(current_dummy)

    print("加载数据完毕")

    return data

#    return data , cluster_location

def randomize_data(data):

    """

    该功能将数据随机化，并保持随机化顺序的记录

    """

    order = list(range(0, len(data)))

    random.shuffle(order)

    new_data = [[] for i in range(0, len(data))]

    for index in range(0, len(order)):

        new_data[index] = data[order[index]]

    return new_data, order

def de_randomise_data(data, order):

    """

    此函数将返回数据的原始顺序，将randomise_data()返回的order列表作为参数

    """

    new_data = [[] for i in range(0, len(data))]

    for index in range(len(order)):

        new_data[order[index]] = data[index]

    return new_data

def print_matrix(list):

    """

    以可重复的方式打印矩阵

    """

    for i in range(0, len(list)):

        print(list[i])

def initialize_U(data, cluster_number):

    """

    这个函数是隶属度矩阵U的每行加起来都为1. 此处需要一个全局变量MAX.

    """

    global MAX

    U = []

    for i in range(0, len(data)):

        current = []

        rand_sum = 0.0

        for j in range(0, cluster_number):

            dummy = random.randint(1, int(MAX))

            current.append(dummy)

            rand_sum += dummy

        for j in range(0, cluster_number):

            current[j] = current[j] / rand_sum

        U.append(current)

    return U

def distance(point, center):

    """

    该函数计算2点之间的距离（作为列表）。我们指欧几里德距离。闵可夫斯基距离

    """

    if len(point) != len(center):

        return -1

    dummy = 0.0

    for i in range(0, len(point)):

        dummy += abs(point[i] - center[i]) ** 2

    return math.sqrt(dummy)

def end_conditon(U, U_old):

    """

    结束条件。当U矩阵随着连续迭代停止变化时，触发结束

    """

    global Epsilon

    for i in range(0, len(U)):

        for j in range(0, len(U[0])):

            if abs(U[i][j] - U_old[i][j]) < Epsilon:

                return False

    return True

def normalise_U(U):

    """

    在聚类结束时使U模糊化。每个样本的隶属度最大的为1，其余为0

    """

    for i in range(0, len(U)):

        maximum = max(U[i])

        for j in range(0, len(U[0])):

            if U[i][j] != maximum:

                U[i][j] = 0

            else:

                U[i][j] = 1

    return U

# m的最佳取值范围为[1.5，2.5]

def fuzzy(data, cluster_number, m):

    """

    这是主函数，它将计算所需的聚类中心，并返回最终的归一化隶属矩阵U.

    参数是：簇数(cluster_number)和隶属度的因子(m)

    """

    # 初始化隶属度矩阵U

    U = initialize_U(data, cluster_number)

    # print_matrix(U)

    # 循环更新U

    while (True):

        # 创建它的副本，以检查结束条件

        U_old = copy.deepcopy(U)

        # 计算聚类中心

        C = []

        for j in range(0, cluster_number):

            current_cluster_center = []

            for i in range(0, len(data[0])):

                dummy_sum_num = 0.0

                dummy_sum_dum = 0.0

                for k in range(0, len(data)):

                    # 分子

                    dummy_sum_num += (U[k][j] ** m) * data[k][i]

                    # 分母

                    dummy_sum_dum += (U[k][j] ** m)

                # 第i列的聚类中心

                current_cluster_center.append(dummy_sum_num / dummy_sum_dum)

            # 第j簇的所有聚类中心

            C.append(current_cluster_center)

        # 创建一个距离向量, 用于计算U矩阵。

        distance_matrix = []

        for i in range(0, len(data)):

            current = []

            for j in range(0, cluster_number):

                current.append(distance(data[i], C[j]))

            distance_matrix.append(current)

        # 更新U

        for j in range(0, cluster_number):

            for i in range(0, len(data)):

                dummy = 0.0

                for k in range(0, cluster_number):

                    # 分母

                    dummy += (distance_matrix[i][j] / distance_matrix[i][k]) ** (2 / (m - 1))

                U[i][j] = 1 / dummy

        if end_conditon(U, U_old):

            print("结束聚类")

            break

    print("标准化 U")

    U = normalise_U(U)

    return U

def checker_iris(final_location):

    """

    和真实的聚类结果进行校验比对

    """

    right = 0.0

    for k in range(0, 3):

        checker = [0, 0, 0]

        for i in range(0, 50):

            for j in range(0, len(final_location[0])):

                if final_location[i + (50 * k)][j] == 1:  # i+(50*k)表示 j表示第j类

                    checker[j] += 1  # checker分别统计每一类分类正确的个数

        right += max(checker)  # 累加分类正确的个数

    print('分类正确的个数是:', right)

    answer = right / 150 * 100

    return "准确率：" + str(answer) + "%"

if __name__ == '__main__':

    # 加载数据

    data = import_data_format_iris("tae.csv")

    # print_matrix(data)

    # 随机化数据

    data, order = randomize_data(data)

    # print_matrix(data)

    start = time.time()

    # 现在我们有一个名为data的列表，它只是数字

    # 我们还有另一个名为cluster_location的列表，它给出了正确的聚类结果位置

    # 调用模糊C均值函数

    final_location = fuzzy(data, 3, 2)

    # 还原数据

    final_location = de_randomise_data(final_location, order)

    #    print_matrix(final_location)

    # 准确度分析

    print(checker_iris(final_location))

    print("用时：{0}".format(time.time() - start))

加载数据完毕

结束聚类

标准化 U

分类正确的个数是: 71.0

准确率：47.333333333333336%

用时：0.003954410552978516

　　当然这个数据集是随意找的，准确率太低了

基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）的更多相关文章

基于核方法的模糊C均值聚类
摘要: 本文主要针对于FCM算法在很大程度上局限于处理球星星团数据的不足,引入了核方法对算法进行优化. 与许多聚类算法一样,FCM选择欧氏距离作为样本点与相应聚类中心之间的非相似性指标,致使算法趋向 ...
使用Python scipy linprog 线性规划求最大值或最小值(使用Python学习数学建模笔记)
函数格式 scipy.optimize.linprog(c, A_ub=None, b_ub=None, A_eq=None, b_eq=None, bounds=None, method='simp ...
Python数学建模-01.新手必读
Python 完全可以满足数学建模的需要. Python 是数学建模的最佳选择之一,而且在其它工作中也无所不能. 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人. 1. 数学 ...
机器学习笔记----Fuzzy c-means(FCM)模糊聚类详解及matlab实现
前言:这几天一直都在研究模糊聚类.感觉网上的文档都没有一个详细而具体的讲解,正好今天有时间,就来聊一聊模糊聚类. 一:模糊数学我们大家都知道计算机其实只认识两个数字0,1.我们平时写程序其实也是这样 ...
Python数学建模-02.数据导入
数据导入是所有数模编程的第一步,比你想象的更重要. 先要学会一种未必最佳,但是通用.安全.简单.好学的方法. 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人. 1. 数据导入 ...
Python小白的数学建模课-A1.国赛赛题类型分析
分析赛题类型,才能有的放矢. 评论区留下邮箱地址,送你国奖论文分析『Python小白的数学建模课 @ Youcans』带你从数模小白成为国赛达人. 1. 数模竞赛国赛 A题类型分析年份题目要 ...
Python小白的数学建模课-A3.12 个新冠疫情数模竞赛赛题与点评
新冠疫情深刻和全面地影响着社会和生活,已经成为数学建模竞赛的背景帝. 本文收集了与新冠疫情相关的的数学建模竞赛赛题,供大家参考,欢迎收藏关注. 『Python小白的数学建模课 @ Youcans』带你 ...
Python小白的数学建模课-07 选址问题
选址问题是要选择设施位置使目标达到最优,是数模竞赛中的常见题型. 小白不一定要掌握所有的选址问题,但要能判断是哪一类问题,用哪个模型. 进一步学习 PuLP工具包中处理复杂问题的字典格式快捷建模方法. ...
Python小白的数学建模课-09 微分方程模型
小白往往听到微分方程就觉得害怕,其实数学建模中的微分方程模型不仅没那么复杂,而且很容易写出高水平的数模论文. 本文介绍微分方程模型的建模与求解,通过常微分方程.常微分方程组.高阶常微分方程 3个案例手 ...
Python小白的数学建模课-B5. 新冠疫情 SEIR模型
传染病的数学模型是数学建模中的典型问题,常见的传染病模型有 SI.SIR.SIRS.SEIR 模型. 考虑存在易感者.暴露者.患病者和康复者四类人群,适用于具有潜伏期.治愈后获得终身免疫的传染病. 本 ...

随机推荐

JAVA中自定义扩展Swagger的能力，自动生成参数取值含义说明，提升开发效率
大家好,又见面了. 在JAVA做前后端分离的项目开发的时候,服务端需要提供接口文档供周边人员做接口的对接指导.越来越多的项目都在尝试使用一些基于代码自动生成接口文档的工具来替代由开发人员手动编写接口文 ...
KingbaseESV8R6 snapshot too old的配置和测试
背景书接上文,我们很好的理解了xmin和xid的区别.我们继续上文<KingbaseESV8R6不同隔离级下xmin的区别>来讨论 snapshot too old 的功能. 当king ...
Flink基础概念入门
Flink 概述什么是 Flink Apache Apache Flink 是一个开源的流处理框架,应用于分布式.高性能.高可用的数据流应用程序.可以处理有限数据流和无限数据,即能够处理有边界和无边 ...
Kibana：运用Data Visualizer来分析CSV数据
Kubernetes 中部署 MySQL 集群
文章转载自:https://www.cnblogs.com/ludongguoa/p/15319861.html 一般情况下 Kubernetes 可以通过 ReplicaSet 以一个 Pod 模板 ...
nginx实现vue的web页面项目集群负载
问题描述项目是使用前后端分离,前端使用的是vue技术. 想实现的功能是:在前端项目部署的过程中(直接删除项目目录的文件,然后上传新的项目文件),在这个短时间内不能影响用户的使用.所以想到的就是使用n ...
部署文件：filebeat->kafka集群(zk集群)->logstash->es集群->kibana
该压缩包内包含以下文件: 1.install_java.txt 配置java环境,logstash使用 2.es.txt 三节点的es集群 3.filebeat.txt 获取日志输出到kafka集群 ...
k8s上安装elasticsearch集群
官方文档地址:https://www.elastic.co/guide/en/cloud-on-k8s/current/k8s-quickstart.html yaml文件地址:https://dow ...
vue2使用组件进行父子互相传值的sync语法糖方法和原生方法
原生方法:(事件名可以不在props通道里) 子类通过props通道绑定父类里data里的jjjjjj(@:fefefeff='jjjjjjjjjjjjj') 父组件通过监听fefeff事件来把子类传 ...
齐博x1非正常修改后台入口admin.php导致的问题
如果你不是从后台基础设置修改后台入口admin.php文件名的话,也即强行通过FTP修改admin.php文件的名的话,就会导致网站会运行异常比如会出现不能上传文件之类的.如下图所示

基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）

基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）的更多相关文章

随机推荐

热门专题