根据前面几篇文章我们可以知道，当我们为模型泛化性能选择评估指标时，要根据问题本身以及数据集等因素来做选择．本篇博客主要是解释Micro Average，Macro Average，Weighted Average．这三者常用于多分类任务，他们的计算方法有细微的差别，因此在各自表示的含义和适用场景上也有细微的差别

Micro Average

Micro Average会考虑到所有类别的贡献．举个例子,　假设我们有四个类A,B,C,D. 通过模型预测得到了预测值：

真实值：A, A, A, A, B, B, B, B, B, C, C, C, C, D, D, D,

预测值：A, A, C, B, B, B, B, A, D, C, C, A, D, D, D, C

根据预测值和真实值，对每个类计算出(TP_i),假正例(FP_i), 假反例(FN_i), i表示第i个类．不了解真正例假反例的可以看我这篇博客机器学习--如何理解Accuracy, Precision, Recall, F1 score

	Class A	Class B	Class C	Class D
TP	2	3	2	2
FP	2	1	2	2
FN	2	2	2	1

首先计算MIcro Precesion, 计算公式如下

对于我们的例子，真正例就是被预测正确的样本有2+3+2+3 = 10,　接下来计算假反例．采用one vs rest 方法，对于类i (i = A,B,C,D)，属于i的样本被标记为正，不属于i的样本被标记为负．那么对于类i来说一个假正例意味着一个属于类 j (j≠i)的样本被错误的预测为i. 比如说样本属于类Ａ但被错误的预测为类Ｂ，那么对于类Ｂ而言，这个预测就是一个假正例．所以一个假反例就意味着一个错误的预测值，总的假反例就是总的错误的预测值．在我们的例子中FP = 2+2+0+2 = 6, 所以Micro Precesion = 10/(10+6)=0.625．

下面计算Micro Recall, 真正例依旧有１０例，接下来计算假正例，同样采用one vs rest 方法，对于类i (i = A,B,C,D)，一个假反例意味着一个属于类i的样本被错误的预测为类j (j≠i). 比如说样本属于类Ａ但被错误的预测为类Ｂ，那么对于类A而言，这个预测就是一个假反例．更为一般的，一个错误的预测值（Ａ被错误的预测为Ｂ），对于Ｂ而言是一个假正例，对于Ａ而言是一个假反例．因此总的假反例也就是总的错误的预测值，所以Micro Recall = 10/(10+6)=0.625．

由上我们知道Micro Recall = Micro Precesion , 而 Micro F1 = (2* Micro Precesion*Micro Recall)/(Micro Precesion + Micro Recall)，不难得出Micro Recall = Micro Precesion ＝ Micro F1.

而且我们也能看出，上边求得的值也表示了分类器的精确度(Accuracy), 即被正确分类的样本占总的样本的比例．因此对于Micro F1而言右边的等式恒成立，Micro F1 = Micro Recall = Micro Precesion = Accuracy

Macro Average

Macro Average会首先针对每个类计算评估指标如查准率Precesion，查全率 Recall , F1 Score，然后对他们取平均得到Macro Precesion, Macro Recall, Macro F1.　具体计算方式如下：

首先计算Macro Precesion，先计算每个类的查准率，再取平均： Precesion_A＝2/(2+2) = 0.5, Precesion_B＝3/(3+2) = 0.6, Precesion_C＝2/(2+0) = 1, Precesion_D＝3/(3+2) = 0.6, Macro Precesion = (Precesion_A+Precesion_B+ Precesion_C+ Precesion_D)/4 = 0.675

对于Macro Recall采用同样的计算方法，Recall_A = 2/(2+2) = 0.5, Recall_B= 3/(3+2) = 0.6, Recall_C = 2/(2+2)=0.5 , Recall_D =2/(2+0) = 1, Macro Recall = (Recall_A+Recall_B+Recall_C+Recall_D)/4 = 0.65

最后计算 Macro F1, F1_A = 0.5, F1_B = 0.6, F1_C = 0.67, F1_D= 0.75, Macro F1 = (F1_A+F1_B+F1_C+F1_D)/4 = 0.63.

Weighted Average

从计算的角度讲，先对每个类求值，再取平均得到Macro Average会比较容易．但是当数据集中存在严重类别不平衡的问题时，就不适宜单纯使用Macro Average．此时可以采取weighted average. 具体来说当我们计算Macro Average时候我们给每个类赋予相同的权重，但是当样本不平衡时，不适宜给每个类赋予同样的权重，我们可以根据每个类的样本量，给每个类赋予不同的权重，这就是weighted average的计算方法．在我们的例子中一共有１６个样本，其中Ａ类有４个，Ｂ类有５个，Ｃ类有４个，Ｄ类有３个，那么

weighted-F1 = (4*0.5+5*0.6+4*0.67+3*0.75)/16 = 0.618

weighted-Precesion = (4*0.5+5*0.6+4*1+3*0.6)/16 = 0.675

weighted-Recall = (4*0.5+5*0.6+4*0.5+3*1)/16 = 0.625

注意事项

当我们在使用F1的时候要注意，它对Precesion 和Recall赋予相同的权重．但在实际应用中我们需要从给定的问题出发，考虑Precesion 和Recall的哪一个更重要．比如把一个患病的人误诊为健康人所带来的后果远比把一个健康人误诊为患病造成的后果要严重．这个事实就应该反映在权重和代价损失函数上，进而帮助我们选出最佳分类器．二分类问题是这样，多分类问题就更为复杂．在多分类情况下，不同的预测误差可能具有不同的含义，比如说将Ｘ预测为Ｙ比将Ｗ预测为Ｒ产生更高的代价．而标准的F1是不会考虑这些事情，因此我们需要针对特定的问题选择合适的模型性能衡量指标．

reference Multi-Class Metrics Made Simple, Part II: the F1-score--Boaz Shmueli

机器学习--Micro Average,Macro Average, Weighted Average的更多相关文章

F1 score,micro F1score,macro F1score 的定义
F1 score,micro F1score,macro F1score 的定义 2018年09月28日 19:30:08 wanglei_1996 阅读数 976 本篇博客可能会继续更新最近在 ...
Micro和Macro性能学习【转载】
转自:https://datascience.stackexchange.com/questions/15989/micro-average-vs-macro-average-performance- ...
多分类评测标准（micro 和 macro)
sklearn.metrics中的评估方法介绍（accuracy_score, recall_score, roc_curve, roc_auc_score, confusion_matrix）
1 accuracy_score:分类准确率分数是指所有分类正确的百分比.分类准确率这一衡量分类器的标准比较容易理解,但是它不能告诉你响应值的潜在分布,并且它也不能告诉你分类器犯错的类型.常常误导初学 ...
python实现多分类评价指标
1.什么是多分类? 参考:https://www.jianshu.com/p/9332fcfbd197 针对多类问题的分类中,具体讲有两种,即multiclass classification和mul ...
Android 下的EXIF
一.什么是Exif Exif(Exchangeable Image File 可交换图像文件)是一种图象文件格式,它的数据存储与JPEG格式是完全相同的.实际上Exif格式就是在JPEG格式头部插入了 ...
Average Cost (AVCO) Method
http://accountingexplained.com/financial/inventories/avco-method Average Cost (AVCO) Method Aver ...
signals function|KNN|SVM|average linkage|Complete linkage|single linkage
生物医疗大数据存在系统误差使得估计量有偏,如下图红色和蓝色图形,存在随机误差使得估计量并不是同一个值,如图中除去期望之外的曲线值,为了控制随机抽样造成的误差,可以使用p-value决定是否服从假设检 ...
Linq查询操作之聚合操作(count,max,min,sum,average,aggregate,longcount)
在Linq中有一些这样的操作,根据集合计算某一单一值,比如集合的最大值,最小值,平均值等等.Linq中包含7种操作,这7种操作被称作聚合操作. 1.Count操作,计算序列中元素的个数,或者计算满足一 ...

随机推荐

「NGK每日快讯」12.1日NGK公链第28期官方快讯！
NGK全球巡回路演莫斯科站，共探BGV能否超越YFI?
近日,NGK全球巡回路演在俄罗斯首都莫斯科落下帷幕.此次路演取得了空前的成功.路演伊始俄罗斯路演讲师Andrew致开幕辞,安德鲁称,俄罗斯作为未一个幅员辽阔的大国,区块链技术有着非常大的应用场景. 俄 ...
RocketMq灰皮书(二)------本地部署启动MQ
RocketMq灰皮书(二)------本地部署启动MQ Windows10本地部署RocketMQ 在上一篇文章中,我们对rocket的几个基本概念进行了介绍,也了解了业内几大消息中间件的区别.在本 ...
redis五种数据类型的应用
redis的五种数据类型和使用场景 string类型 string类型多用于缓存 set key value(value可以为json字符串) setnx多用于分布式锁(后面详细整理) 计数器 inc ...
TKMybatis
TKMybatis与Mybatis-plus都是mybatis的扩展,有相同的地方,也有不同的地方. 1.导入坐标  <dependency> ...
Java基础语法：static修饰符
一.静态变量描述: 在类中,使用'static'修饰的成员变量,就是静态变量,反之为非静态变量. 区别: 静态变量属于类的,可以使用类名来访问:非静态变量是属于对象的,必须使用对象来访问. 静态变量 ...
windows server 2008 r2 AD域服务器设置
域控制器是指在"域"模式下,至少有一台服务器负责每一台联入网络的电脑和用户的验证工作,相当于一个单位的门卫一样,称为"域控制器(Domain Controller,简写为 ...
硬件交互 snmp 使用
# *********************************snmp使用******************************************** # coding=utf-8 ...
dubbo-zookeeper quick start
目录 dubbo快速开始服务提供者(Service provider) 定义服务接口(Defining service interfaces) 在服务提供方实现接口(Implement interf ...
你不知道的Scheduled定时任务骚操作
目录一.什么是定时任务二.项目依赖三.注解式定时任务 3.1 cron 3.2 fixedDelay 3.3 fixedDelayString 3.4 fixedRate 3.5 fixedRa ...