机器学习--如何理解Accuracy, Precision, Recall, F1 score

当我们在谈论一个模型好坏的时候，我们常常会听到准确率(Accuracy)这个词，我们也会听到＂如何才能使模型的Accurcy更高＂．那么是不是准确率最高的模型就一定是最好的模型？

这篇博文会向大家解释准确率并不是衡量模型好坏的唯一指标，同时我也会对其他衡量指标做出一些简单说明。

首先我们先要了解混淆矩阵(Confusion Matrix),　如下图，混淆矩阵经常被用来衡量一个分类模型在测试样本上的性能，本文提到的所有衡量标准都会用到下面混淆矩阵中出现的的四个值

真正例和真反例表示被正确预测的数据，假正例和假反例表示被错误预测的数据，接下来的内容基本都是围绕着四个值展开，因此我们有必要在这里弄清楚这四个值的含义是什么．

TP(True Positive) －被正确预测的正例．表示真实值为正，同时也被正确的预测为正；

TN(True Negative) －被正确预测的反例．表示真实值为反例，也被正确的预测为反例；

FP(False Positive) －表示真实值为负例，被错误的预测为正例；

FN(False Negative)－表示真实值为正例，被错误的预测为反例；

在了解了这四个值之后让我们来计算接下来的Accuracy, Precision, Recall, F1 Score

Accuracy

Accuracy是最直观的衡量模型好坏的指标，它实际上是被正确预测的数据量比上所有参与预测的数据量的值。正如我开篇提到的，有人会认为如果我们的模型具有很高的Accuracy，那么我们的模型是最好的。

首先要明确只有当我们拥有一个对称数据集时，也就是假阳性和假阴性的值几乎相同时，Accuracy才可以被用来作为一个很好的衡量标准。因此，我们必须查看其他参数才能完整地评估模型的性能。

Precision and Recall

有人翻译他们为精确率和召回率，我更喜欢用查准率和查全率来翻译这两个词．　　　　　　　　　　　　　　　　　　　　　　　　

查准率P就表示在预测结果为正例的样本里，真实情况也为正例所占的比率

适用场景:当反例被错误的预测为正例（假正例）产生的代价很高的时候，适合用查准率，因为高查准率意味着低假正率/假阳性．比如在垃圾邮件检测中，假正例意味着非垃圾邮件（实际为负）被错误的预测为垃圾邮件（预测为正）．如果一个垃圾邮件监测系统的查准率不高导致很多非垃圾邮件被归到垃圾邮箱里去，那么邮箱用户可能会丢失或者漏看一些很重要的邮件．

查全率R表示在真实情况为正例的所有样本中，预测结果也为正例的样本所占的比率

使用场景:当正例被错误的预测为反例（假反例）产生很高的代价时，用查全率，因为高查全率意味着低假反率/假阴性．比如说在银行的欺诈检测或医院的病患者检测中，如果将欺诈性交易（实际为正）预测为非欺诈性交易（预测为负），则可能会给银行带来非常严重的损失。再比如以最近的新冠疫情为例，如果一个患病者（实际为正）经过试剂检测被预测为没有患病（预测为负），这样的假反例或者说假阴性产生的风险就非常大．

F1 Score

F1是查准率和查全率的一个加权平均，根据wikipedia给出的解释，F1 Score表达式如下

F1把假反例和假正例都考虑在内，它不像Accuracy这么容易理解，但是F1比Accuracy更适用，尤其是当你的数据集类别分布不均衡时．比如说你的样本中正样本:负样本 = 100:1.

当假正例和假反例造成的代价差不多的时候直接用Accuracy就可以，但是当假正例和假反例产生的代价差别很大的时候，则可以考率更好的度量比如Precision，Recall和F1 Score.

reference : Accuracy, Precision, Recall & F1 Score: Interpretation of Performance Measures

Accuracy, Precision, Recall or F1?

机器学习--如何理解Accuracy, Precision, Recall, F1 score的更多相关文章

机器学习基础梳理—(accuracy,precision,recall浅谈)
一.TP TN FP FN TP:标签为正例,预测为正例(P),即预测正确(T) TN:标签为负例,预测为负例(N),即预测正确(T) FP:标签为负例,预测为正例(P),即预测错误(F) FN:标签 ...
Precision,Recall,F1的计算
Precision又叫查准率,Recall又叫查全率.这两个指标共同衡量才能评价模型输出结果. TP: 预测为1(Positive),实际也为1(Truth-预测对了) TN: 预测为0(Negati ...
机器学习：评价分类结果（F1 Score）
一.基础疑问1:具体使用算法时,怎么通过精准率和召回率判断算法优劣? 根据具体使用场景而定: 例1:股票预测,未来该股票是升还是降?业务要求更精准的找到能够上升的股票:此情况下,模型精准率越高越优. ...
BERT模型在多类别文本分类时的precision, recall, f1值的计算
BERT预训练模型在诸多NLP任务中都取得最优的结果.在处理文本分类问题时,即可以直接用BERT模型作为文本分类的模型,也可以将BERT模型的最后层输出的结果作为word embedding导入到我们 ...
目标检测的评价标准mAP, Precision, Recall, Accuracy
目录 metrics 评价方法 TP , FP , TN , FN 概念计算流程 Accuracy , Precision ,Recall Average Precision PR曲线 AP计算 A ...
Classification week6: precision & recall 笔记
华盛顿大学 machine learning :classification 笔记第6周 precision & recall 1.accuracy 局限性我们习惯用 accuracy ...
机器学习中的 precision、recall、accuracy、F1 Score
1. 四个概念定义:TP.FP.TN.FN 先看四个概念定义: - TP,True Positive - FP,False Positive - TN,True Negative - FN,False ...
【tf.keras】实现 F1 score、precision、recall 等 metric
tf.keras.metric 里面竟然没有实现 F1 score.recall.precision 等指标,一开始觉得真不可思议.但这是有原因的,这些指标在 batch-wise 上计算都没有意义, ...
评价指标整理：Precision, Recall, F-score, TPR, FPR, TNR, FNR, AUC, Accuracy
针对二分类的结果,对模型进行评估,通常有以下几种方法: Precision.Recall.F-score(F1-measure)TPR.FPR.TNR.FNR.AUCAccuracy 真实结果 1 ...

随机推荐

K8S部署Redis Cluster集群（三主三从模式） - 部署笔记
一.Redis 介绍 Redis代表REmote DIctionary Server是一种开源的内存中数据存储,通常用作数据库,缓存或消息代理.它可以存储和操作高级数据类型,例如列表,地图,集合和排序 ...
C/C++子函数参数传递，堆栈帧、堆栈参数详解
本文转载自C/C++子函数参数传递,堆栈帧.堆栈参数详解导语因为参数传递和汇编语言有很大联系,之后会出现较多x86汇编代码. 该文会先讲一下x86的堆栈参数传递过程,然后再分析C/C++子函数是怎 ...
Linux之根目录说明
文件系统文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基于NAND Flash的固态硬盘)或分区上的文件的方法和数据结构:即在存储设备上组织文件的方法.操作系统中负责管理和存储文件信息的软件 ...
类关系与uml图示表示
1. 关联(Association).聚合(Aggregation).组合(Composition)区别 association: 两者之间存在某种关联即可,很弱的关系,如student and co ...
docket 缺陷
docker轻量级的虚拟机依赖于内存和核数相比于正常的虚拟机来说运行速度会慢
小白养成记——Java比较器Comparable和Comparator
一.使用情景 1. 调用Arrays.sort()方法或Collections.sort()方法对自定义类的对象排序以Arrays.sort()为例.假定有如下自定义的Person类 1 publ ...
Django模型层2
目录一.聚合查询聚合函数二.分组查询利用group by进行分组查询三.F与Q查询 1. F类 2. Q类四.orm字段及参数五.自定义char字段六.orm中的事务操作 1. 什么是 ...
JavaScript：什么是回调？
翻译练习原博客地址:JavaScript: What the heck is a Callback? 在6分钟内通过简单的例子学习和理解回调的基本原理. 什么是回调? 简单地说:回调就是一个在另一个 ...
看动画轻松学会 Raft 算法
由于 Paxos 算法过于晦涩难懂且难以实现,Diego Ongaro 提出了一种更易于理解和实现并能等价于 Paxos 算法的共识算法 - Raft 算法. 因为 Raft 算法清晰易懂越来越多的开 ...
NewSQL分布式数据库，例如TIDB用K/V的底层逻辑
内容参考对分布式对定义参考这篇文章: 微服务都想用,先把分布式和微服务之间的关系说清楚对分布式架构中心或无中心对比参考这篇文章: 分布式存储单主.多主和无中心架构的特征与趋势对HDFS对内部机制 ...

机器学习--如何理解Accuracy, Precision, Recall, F1 score

机器学习--如何理解Accuracy, Precision, Recall, F1 score的更多相关文章

随机推荐

热门专题