NMI计算

NMI(Normalized Mutual Information)标准化互信息，常用在聚类中，度量两个聚类结果的相近程度。是社区发现(community detection)的重要衡量指标，基本可以比较客观地评价出一个社区划分与标准划分之间相比的准确度。NMI的值域是0到1，越高代表划分得越准。

# -*- coding:utf-8 -*-

'''

Created on 2017年10月28日

@summary: 利用Python实现NMI计算

@author: dreamhome

'''

import math

import numpy as np

from sklearn import metrics

def NMI(A,B):

    #样本点数

    total = len(A)

    A_ids = set(A)

    B_ids = set(B)

    #互信息计算

    MI = 0

    eps = 1.4e-45

    for idA in A_ids:

        for idB in B_ids:

            idAOccur = np.where(A==idA)

            idBOccur = np.where(B==idB)

            idABOccur = np.intersect1d(idAOccur,idBOccur)

            px = 1.0*len(idAOccur[0])/total

            py = 1.0*len(idBOccur[0])/total

            pxy = 1.0*len(idABOccur)/total

            MI = MI + pxy*math.log(pxy/(px*py)+eps,2)

    # 标准化互信息

    Hx = 0

    for idA in A_ids:

        idAOccurCount = 1.0*len(np.where(A==idA)[0])

        Hx = Hx - (idAOccurCount/total)*math.log(idAOccurCount/total+eps,2)

    Hy = 0

    for idB in B_ids:

        idBOccurCount = 1.0*len(np.where(B==idB)[0])

        Hy = Hy - (idBOccurCount/total)*math.log(idBOccurCount/total+eps,2)

    MIhat = 2.0*MI/(Hx+Hy)

    return MIhat

if __name__ == '__main__':

    A = np.array([1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3])

    B = np.array([1,2,1,1,1,1,1,2,2,2,2,3,1,1,3,3,3])

    print NMI(A,B)

    print metrics.normalized_mutual_info_score(A,B)

原文：https://blog.csdn.net/DreamHome_S/article/details/78379635

# coding=utf-8

import numpy as np

import math

def NMI(A,B):

    # len(A) should be equal to len(B)

    total = len(A)

    A_ids = set(A)

    B_ids = set(B)

    #Mutual information

    MI = 0

    eps = 1.4e-45

    for idA in A_ids:

        for idB in B_ids:

            idAOccur = np.where(A==idA)

            idBOccur = np.where(B==idB)

            idABOccur = np.intersect1d(idAOccur,idBOccur)

            px = 1.0*len(idAOccur[0])/total

            py = 1.0*len(idBOccur[0])/total

            pxy = 1.0*len(idABOccur)/total

            MI = MI + pxy*math.log(pxy/(px*py)+eps,2)

    # Normalized Mutual information

    Hx = 0

    for idA in A_ids:

        idAOccurCount = 1.0*len(np.where(A==idA)[0])

        Hx = Hx - (idAOccurCount/total)*math.log(idAOccurCount/total+eps,2)

    Hy = 0

    for idB in B_ids:

        idBOccurCount = 1.0*len(np.where(B==idB)[0])

        Hy = Hy - (idBOccurCount/total)*math.log(idBOccurCount/total+eps,2)

    MIhat = 2.0*MI/(Hx+Hy)

    return MIhat

if __name__ == '__main__':

    A = np.array([1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3])

    B = np.array([1,2,1,1,1,1,1,2,2,2,2,3,1,1,3,3,3])

    print (NMI(A,B))

网上找到的代码

结果：0.36456

这一篇博文写的不错

自己编写了一个，同时做了排序处理

# coding=utf-8

import numpy as np

import math

import operator

def NMI(A,B):

    # len(A) should be equal to len(B)

    total = len(A)

    A_ids = set(A)

    B_ids = set(B)

    #Mutual information

    MI = 0

    eps = 1.4e-45

    for idA in A_ids:

        for idB in B_ids:

            idAOccur = np.where(A==idA)

            idBOccur = np.where(B==idB)

            idABOccur = np.intersect1d(idAOccur,idBOccur)

            px = 1.0*len(idAOccur[0])/total

            py = 1.0*len(idBOccur[0])/total

            pxy = 1.0*len(idABOccur)/total

            MI = MI + pxy*math.log(pxy/(px*py)+eps,2)

    # Normalized Mutual information

    Hx = 0

    for idA in A_ids:

        idAOccurCount = 1.0*len(np.where(A==idA)[0])

        Hx = Hx - (idAOccurCount/total)*math.log(idAOccurCount/total+eps,2)

    Hy = 0

    for idB in B_ids:

        idBOccurCount = 1.0*len(np.where(B==idB)[0])

        Hy = Hy - (idBOccurCount/total)*math.log(idBOccurCount/total+eps,2)

    MIhat = 2.0*MI/(Hx+Hy)

    return MIhat

if __name__ == '__main__':

    A = np.array([1,1,1])

    B = np.array([2,3,4])

    C = np.array([1,1,6])

    print(NMI(A,B))

    m=[]#包含了位置的互信息

    n=[]#只有互信息

    dic={}

    q=1

    m.append(NMI(A,B))

    m.append(NMI(B,C))

    m.append(NMI(A,C))

    for i in m:

        dic['第{}个互信息'.format(q)]='{}'.format(i)

        q=q+1

    print(dic)

    rankdata=sorted(dic.items(),key=operator.itemgetter(1),reverse=True)

    print(rankdata)

实验结果如图

NMI计算的更多相关文章

前端极易被误导的css选择器权重计算及css内联样式的妙用技巧
记得大学时候,专业课的网页设计书籍里面讲过css选择器权重的计算:id是100,class是10,html标签是5等等,然后全部加起来的和进行比较... 我只想说:真是误人子弟,害人不浅! 最近,在前 ...
分享一个SQLSERVER脚本（计算数据库中各个表的数据量和每行记录所占用空间）
分享一个SQLSERVER脚本(计算数据库中各个表的数据量和每行记录所占用空间) 很多时候我们都需要计算数据库中各个表的数据量和每行记录所占用空间这里共享一个脚本 CREATE TABLE #tab ...
C语言 · 薪水计算
问题描述编写一个程序,计算员工的周薪.薪水的计算是以小时为单位,如果在一周的时间内,员工工作的时间不超过40 个小时,那么他/她的总收入等于工作时间乘以每小时的薪水.如果员工工作的时间在40 到50 ...
C语言 · 阶乘计算 · 基础练习
问题描述输入一个正整数n,输出n!的值. 其中n!=1*2*3*-*n. 算法描述 n!可能很大,而计算机能表示的整数范围有限,需要使用高精度计算的方法.使用一个数组A来表示一个大整数a,A[0]表 ...
C语言 · 最大值与最小值计算
输入11个整数,计算它们的最大值和最小值. 样例输入 0 1 2 3 4 5 6 7 8 9 10 样例输出 10 0 #include<stdio.h> int main(){ ]; ...
无法向会话状态服务器发出会话状态请求。请确保 ASP.NET State Service (ASP.NET 状态服务)已启动，并且客户端端口与服务器端口相同。如果服务器位于远程计算机上，请检查。。。
异常处理汇总-服务器 http://www.cnblogs.com/dunitian/p/4522983.html 无法向会话状态服务器发出会话状态请求.请确保 ASP.NET State Ser ...
SQL Server-聚焦计算列或计算列持久化查询性能（二十二）
前言上一节我们详细讲解了计算列以及计算列持久化的问题,本节我们依然如前面讲解来看看二者查询性能问题,简短的内容,深入的理解,Always to review the basics. 持久化计算列比非 ...
SQL Server-聚焦计算列持久化（二十一）
前言上一节我们结束了Hash Match Aggregate和Stream Aggregate的讲解,本系列我们来讲讲关于SQL Server中的计算列问题,简短的内容,深入的理解,Always t ...
javascript：逆波兰式表示法计算表达式结果
逆波兰式表示法,是由栈做基础的表达式,举个例子: 5 1 2 + 4 * + 3 - 等价于 5 + ((1 + 2) * 4) - 3 原理:依次将5 1 2 压入栈中, 这时遇到了运算符 + ...

随机推荐

【9101】求n!的值
Time Limit: 10 second Memory Limit: 2 MB 问题描述用高精度的方法,求n!的精确值(n的值以一般整数输入). Input 文件输入仅一行,输入n. Output ...
关于Character的digit，forDigit，getNumericValue方法的一点理解
Character类是一个包装类. char这种数据类型是基于原始的Unicode编码的,储存一个char用16个bit,因此定义characters也是16位定长的实体集合. Unicode编码标准 ...
spring security (BCryptPasswordEncoder)加密及判断密码是否相同
通过BCryptPasswordEncoder的加密的相同字符串的结果是不同的,如果需要判断是否是原来的密码,需要用它自带的方法. 加密: BCryptPasswordEncoder encode = ...
H3C 端口绑定基本配置
js 对象的深拷贝
function deepCopy(obj) { var result = Array.isArray(obj) ? [] : {}; for (var key in obj) { if (obj.h ...
MD5登陆密码的生成
package com.cinc.ecmp.userpermission.utils; import java.security.MessageDigest;import java.security. ...
mysql常用基础语句学习
常用sql语句查询: SELECT 列名(或者*,表示所有列) FROM 表名 WHERE 筛选条件; FROM 表名:顾名思义,就是从表名指定的这张表格中: WHERE 筛选条件:意思是" ...
ZR8.2 DP
DP 1CF1101D 我们发现,最终答案一定和质因数有关我们发现\(w_i <= 2*10^5\)级别的树,他的素因子的个数不会非常多(\(<=10\)) 然后我们就设 gcd是\(d ...
POJ1741 点分治模板
传送门:http://poj.org/problem?id=1741 题意: 求树上两点间路径长度小于k的点对个数题解: 参考资料守望的淀粉质略解:https://www.luogu.org/bl ...
Visual Studio插件【一】：前端
JQuery Code Snippets https://github.com/kspearrin/Visual-Studio-jQuery-Code-Snippets 简单用法 jq +tab ...

NMI计算

NMI计算的更多相关文章

随机推荐

热门专题