机器学习性能度量指标：AUC

在IJCAI 于2015年举办的竞赛：Repeat Buyers Prediction Competition 中，

很多参赛队伍在最终的Slides展示中都表示使用了 AUC 作为评估指标：

那么，AUC是什么呢？

AUC是一个机器学习性能度量指标，只能用于二分类模型的评价。（拓展二分类模型的其他评价指标：logloss、accuracy、precision）

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative）四种情形，令 TP、FP、TN、FN分别表示其对应的样例数，则显然有 TP+FP+TN+FN=样例总数。

分类结果的“混淆矩阵”（confusion matrix）如下表所示：

AUC全称：Area under ROC curve

AUC的物理意义为任取一对例和负例，正例得分大于负例得分的概率，AUC越大，表明方法效果越好。

ROC全称为“受试者工作特征”（Receiver Operating Characteristic ）曲线，源于二战中用于敌机检测的雷达信号分析技术。根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了“ROC”曲线，纵轴是“真正例率”（True Positive Rate，TPR），横轴是“假正例率”（False Positive Rate，FPR）：

IJCAI-15比赛相关：

IJCAI-15 Dataset 数据集来自天猫（阿里云天池）。

论文名称：Identifying Repeat Buyers by Ensemble Learning with Historical Behavioral Features

作者：Shaohua jiang, Yunlei Mu, Qingyu Fan

会议期刊：IJCAI workshop

论文链接：http://socinf2015.isistan.unicen.edu.ar/winners

【Reference】

1. 周志华.机器学习[M].北京：清华大学出版社，2016.

机器学习性能度量指标：AUC的更多相关文章

机器学习性能度量指标:ROC曲线、查准率、查全率、F1
错误率在常见的具体机器学习算法模型中,一般都使用错误率来优化loss function来保证模型达到最优. \[错误率=\frac{分类错误的样本}{样本总数}\] \[error=\frac{1} ...
【Udacity】机器学习性能评估指标
评估指标 Evaluation metrics 机器学习性能评估指标选择合适的指标分类与回归的不同性能指标分类的指标(准确率.精确率.召回率和 F 分数) 回归的指标(平均绝对误差和均方误差) ...
机器学习实战笔记(Python实现)-07-分类性能度量指标
1.混淆矩阵下图是一个二类问题的混淆矩阵,其中的输出采用了不同的类别标签常用的衡量分类性能的指标有: 正确率(Precision),它等于 TP/(TP+FP) ,给出的是预测为正例的样本中的真正 ...
[sklearn]性能度量之AUC值（from sklearn.metrics import roc_auc_curve）
原创博文,转载请注明出处! 1.AUC AUC(Area Under ROC Curve),即ROC曲线下面积. 2.AUC意义若学习器A的ROC曲线被学习器B的ROC曲线包围,则学习器B的性能优于 ...
[机器学习] 性能评估指标（精确率、召回率、ROC、AUC)
混淆矩阵介绍这些概念之前先来介绍一个概念:混淆矩阵(confusion matrix).对于 k 元分类,其实它就是一个k x k的表格,用来记录分类器的预测结果.对于常见的二元分类,它的混淆矩阵是 ...
机器学习性能评估指标（精确率、召回率、ROC、AUC）
http://blog.csdn.net/u012089317/article/details/52156514 ,y^)=1nsamples∑i=1nsamples(yi−y^i)2
【sklearn】性能度量指标之ROC曲线（二分类）
原创博文,转载请注明出处! 1.ROC曲线介绍 ROC曲线适用场景二分类任务中,positive和negtive同样重要时,适合用ROC曲线评价 ROC曲线的意义 TPR的增长是以FPR的增长为代价 ...
机器学习实战笔记(Python实现)-07-模型评估与分类性能度量
1.经验误差与过拟合通常我们把分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为“精度”(acc ...
机器学习常用性能度量中的Accuracy、Precision、Recall、ROC、F score等都是些什么东西？
一篇文章就搞懂啦,这个必须收藏! 我们以图片分类来举例,当然换成文本.语音等也是一样的. Positive 正样本.比如你要识别一组图片是不是猫,那么你预测某张图片是猫,这张图片就被预测成了正样本. ...

随机推荐

json和gson的区别
json是一种数据格式,便于数据传输.存储.交换gson是一种组件库,可以把java对象数据转换成json数据格式 GSON简单处理JSON json格式经常需要用到,google提供了一个处理jso ...
PyCharm中Python代码提示：Shadows name from outer scope
函数内部的变量,如果和函数被调用的外部的变量一样的话,就被PyCharm中叫做shadows name 这样的话,容易引发不容易觉察到的,由于函数内部和外部的变量名一致而引发的一些问题: 比如:内部函 ...
MyBatis使用Collection查询多对多或一对多结果集bug
情况描述:当使用JOIN查询,如果SQL查询出来的记录不是按id列排序的,则生成的List结果会有问题案例: 1) 数据库模型简而言之一个Goods包含多个Goods_Img 2) Java Be ...
Android 项目的代码混淆，Android proguard 使用说明
简单介绍 Java代码是非常easy反编译的. 为了非常好的保护Java源码,我们往往会对编译好的class文件进行混淆处理. ProGuard是一个混淆代码的开源项目.它的主要作用就是混淆,当然它还 ...
typedef的用法和相关问题
用了C和C++这么久,今天才仔细研究了下typedef的用法,真的是惭愧啊,不过基础都是不断巩固的啊. typedef 在计算机编程语言中用来为复杂的声明定义简单的别名,与宏定义有些差异.它本身是一种 ...
附1 hystrix详述（1）
一.hystrix的作用控制被依赖服务的延时和失败防止在复杂系统中的级联失败可以进行快速失败(不需要等待)和快速恢复(当依赖服务失效后又恢复正常,其对应的线程池会被清理干净,即剩下的都是未使用的 ...
Depth of field --Circle of confusion 推导
https://en.wikipedia.org/wiki/Circle_of_confusion https://developer.download.nvidia.com/books/HTML/g ...
简单JavaScript语句实现搜索关键字高亮功能
高亮功能主要是指对页面中指定区域的指定文字进行高亮显示,也就是背景着色.一般在搜索结果页面会经常用到这个功能. 下面就为大家提供一种解决方案,用javascript实现. 首先在<head> ...
.Net垃圾收集机制—了解算法与代龄
垃圾收集器在本质上就是负责跟踪所有对象被引用到的地方,关注对象不再被引用的情况,回收相应的内存.在.NET平台中同样如此,有效的提高.NET垃圾回收性能,能够提高程序执行效率. 其实垃圾收集并不是伴随 ...
Nuget出现错误怎么办？
Go to the packages folder in the Windows Explorer and delete it. Open Visual Studio and Go to To ...

机器学习性能度量指标：AUC

机器学习性能度量指标：AUC的更多相关文章

随机推荐

热门专题