机器学习性能度量指标：AUC

在IJCAI 于2015年举办的竞赛：Repeat Buyers Prediction Competition 中，

很多参赛队伍在最终的Slides展示中都表示使用了 AUC 作为评估指标：

那么，AUC是什么呢？

AUC是一个机器学习性能度量指标，只能用于二分类模型的评价。（拓展二分类模型的其他评价指标：logloss、accuracy、precision）

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative）四种情形，令 TP、FP、TN、FN分别表示其对应的样例数，则显然有 TP+FP+TN+FN=样例总数。

分类结果的“混淆矩阵”（confusion matrix）如下表所示：

AUC全称：Area under ROC curve

AUC的物理意义为任取一对例和负例，正例得分大于负例得分的概率，AUC越大，表明方法效果越好。

ROC全称为“受试者工作特征”（Receiver Operating Characteristic ）曲线，源于二战中用于敌机检测的雷达信号分析技术。根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了“ROC”曲线，纵轴是“真正例率”（True Positive Rate，TPR），横轴是“假正例率”（False Positive Rate，FPR）：

IJCAI-15比赛相关：

IJCAI-15 Dataset 数据集来自天猫（阿里云天池）。

论文名称：Identifying Repeat Buyers by Ensemble Learning with Historical Behavioral Features

作者：Shaohua jiang, Yunlei Mu, Qingyu Fan

会议期刊：IJCAI workshop

论文链接：http://socinf2015.isistan.unicen.edu.ar/winners

【Reference】

1. 周志华.机器学习[M].北京：清华大学出版社，2016.

机器学习性能度量指标：AUC的更多相关文章

机器学习性能度量指标:ROC曲线、查准率、查全率、F1
错误率在常见的具体机器学习算法模型中,一般都使用错误率来优化loss function来保证模型达到最优. \[错误率=\frac{分类错误的样本}{样本总数}\] \[error=\frac{1} ...
【Udacity】机器学习性能评估指标
评估指标 Evaluation metrics 机器学习性能评估指标选择合适的指标分类与回归的不同性能指标分类的指标(准确率.精确率.召回率和 F 分数) 回归的指标(平均绝对误差和均方误差) ...
机器学习实战笔记(Python实现)-07-分类性能度量指标
1.混淆矩阵下图是一个二类问题的混淆矩阵,其中的输出采用了不同的类别标签常用的衡量分类性能的指标有: 正确率(Precision),它等于 TP/(TP+FP) ,给出的是预测为正例的样本中的真正 ...
[sklearn]性能度量之AUC值（from sklearn.metrics import roc_auc_curve）
原创博文,转载请注明出处! 1.AUC AUC(Area Under ROC Curve),即ROC曲线下面积. 2.AUC意义若学习器A的ROC曲线被学习器B的ROC曲线包围,则学习器B的性能优于 ...
[机器学习] 性能评估指标（精确率、召回率、ROC、AUC)
混淆矩阵介绍这些概念之前先来介绍一个概念:混淆矩阵(confusion matrix).对于 k 元分类,其实它就是一个k x k的表格,用来记录分类器的预测结果.对于常见的二元分类,它的混淆矩阵是 ...
机器学习性能评估指标（精确率、召回率、ROC、AUC）
http://blog.csdn.net/u012089317/article/details/52156514 ,y^)=1nsamples∑i=1nsamples(yi−y^i)2
【sklearn】性能度量指标之ROC曲线（二分类）
原创博文,转载请注明出处! 1.ROC曲线介绍 ROC曲线适用场景二分类任务中,positive和negtive同样重要时,适合用ROC曲线评价 ROC曲线的意义 TPR的增长是以FPR的增长为代价 ...
机器学习实战笔记(Python实现)-07-模型评估与分类性能度量
1.经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为“精度”(acc ...
机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西？
一篇文章就搞懂啦,这个必须收藏! 我们以图片分类来举例,当然换成文本.语音等也是一样的. Positive 正样本.比如你要识别一组图片是不是猫,那么你预测某张图片是猫,这张图片就被预测成了正样本. ...

随机推荐

[Swift] Swift3.0－－GCD
reference to : http://www.jianshu.com/p/4c983388dca6 估计现在好多人在为这一块头疼,所以先来点干货. //最常用模板 //全局队列异步执行 Disp ...
PHP命名空间学习笔记
命名空间的支持版本:PHP 5 > 5.3.0,PHP 7 . 什么是命名空间从广义上来说,命名空间是一种封装事物的方法.在很多地方都可以见到这种抽象概念.例如,在操作系统中目录用来将相关文件 ...
Asp.Net Core App 部署故障示例 2
相关阅读:Windows + IIS 环境部署Asp.Net Core App 1. HTTP Error 502.5 – Process Failure 环境 Windows Server 201 ...
Word Break II leetcode java
题目: Given a string s and a dictionary of words dict, add spaces in s to construct a sentence where e ...
Android -- 触摸Area对焦区域(更新)
老早就想找关于不同点击不同地方的对焦,但是一直没有找到,现在项目又需要这个功能,又跑出来找找,最后还是找到啦~~关于对焦更多的是关于自动对焦. 废话不多说,直接来干货,主要是setFocusAreas ...
C++ vector用法(转)
在c++中,vector是一个十分有用的容器,下面对这个容器做一下总结. 1 基本操作 (1)头文件#include<vector>. (2)创建vector对象,vector<in ...
nGrinder对监控机器收集自定义数据及源码分析
转载:https://blog.csdn.net/neven7/article/details/50782451 0.背景性能测试工具nGrinder支持在无需修改源码的情况下,对目标服务器收集自定 ...
修改linux的文件时，如何快速找到要修改的内容并修改
修改linux系统下的文件时,如果文件内容很多,不容易找到需要修改的内容,下面详细介绍linux系统下如何快速修改文件. 工具/原料 linux系统方法/步骤在linux系统下,找到需 ...
java.lang.NoClassDefFoundError: com.baidu.mapapi.BMapManager
解决方案:一.右击项目->properties->Java Build Path->Order and Export,在需要引用的包前面打勾.二.Project->Clean. ...
2.6.33中关于at91sam9260的i2c controller驱动的问题
在为at91sam9260移植2.6.33内核的I2C时,直接用driver/bus/i2c-at91.c这个iic的adapter驱动是不能用的,而且在makemenuconfig时,在device ...

机器学习性能度量指标：AUC

机器学习性能度量指标：AUC的更多相关文章

随机推荐

热门专题