错误率 在常见的具体机器学习算法模型中,一般都使用错误率来优化loss function来保证模型达到最优. \[错误率=\frac{分类错误的样本}{样本总数}\] \[error=\frac{1}{m} \sum_{i=1}^{m} I(f(x_{i})\neq y_{i})\] 但是错误率有一个严重的缺点: 错误率会掩盖样本如何被错误分类事实,这样对于有的问题很难进行下一步的分析 混淆矩阵 confusion matrix 真正例: True Positive 真反例: True Nega…
在介绍ROC曲线之前,先说说混淆矩阵及两个公式,因为这是ROC曲线计算的基础. 1.混淆矩阵的例子(是否点击广告): 说明: TP:预测的结果跟实际结果一致,都点击了广告. FP:预测结果点击了,但是真实情况是未点击. FN:预测结果没有点击,但是真实情况是点击了. TN:预测结果没有点击,真实情况也是没有点击. 2.两个公式: 1)真正率: TPR=TP/(TP+FN) 2)假正率 FPR=FP/(FP+TN) 3.ROC曲线就是真正率随假正率的变化情况.下面用一段代码展示一下(sklearn…
在IJCAI 于2015年举办的竞赛:Repeat Buyers Prediction Competition 中, 很多参赛队伍在最终的Slides展示中都表示使用了 AUC 作为评估指标:     那么,AUC是什么呢? AUC是一个机器学习性能度量指标,只能用于二分类模型的评价.(拓展二分类模型的其他评价指标:logloss.accuracy.precision)   对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive).假正例(false…
1.经验误差与过拟合 通常我们把分类错误的样本数占样本总数的比例称为“错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为“精度”(accuracy),即“精度=1一错误率”.更一般地,我(学习器的实际预测输出与样本的真实输出之间的差异称为“误差”(error),学习器在训练集上的误差称为“训练误差”(training error)或“经验误差”(empirical error),在新样本上的误差称为“泛化误差”(generaliza…
1.混淆矩阵 下图是一个二类问题的混淆矩阵,其中的输出采用了不同的类别标签 常用的衡量分类性能的指标有: 正确率(Precision),它等于 TP/(TP+FP) ,给出的是预测为正例的样本中的真正正例的比例. 召回率(Recall),他等于 TP/(TP+FN),给出的是预测为正例的真实正例占所有真实正例的比例. 2.ROC曲线 图中的横轴是伪正例的比例(假阳率=FP/(FP+TN)),而纵轴是真正例的比例(真阳率=TP/(TP+FN)).ROC曲线给出的是当阈值变化时假阳率和真阳率的变化情…
原创博文,转载请注明出处! 1.ROC曲线介绍 ROC曲线适用场景 二分类任务中,positive和negtive同样重要时,适合用ROC曲线评价 ROC曲线的意义 TPR的增长是以FPR的增长为代价 2.ROC曲线绘制 纵坐标为TPR TPR(True Positive Rate)真正确率,即模型正确识别正例的比例,TPR=TP/(TP+FN) 横坐标为FPR FPR(False Positive Rate)假正确率,即模型错误将反例识别为正例的比例,FPR=FP/(FP+TN) ROC曲线的…
一篇文章就搞懂啦,这个必须收藏! 我们以图片分类来举例,当然换成文本.语音等也是一样的. Positive 正样本.比如你要识别一组图片是不是猫,那么你预测某张图片是猫,这张图片就被预测成了正样本. Negative 负样本.比如你要识别一组图片是不是猫,那么你预测某张图片不是猫,这张图片就被预测成了负样本. TP 一组预测为正样本的图片中,真的是正样本的图片数. TN: 一组预测为负样本的图片中,真的是负样本的图片数. FP: 一组预测为正样本的图片中,其实是负样本的图片数.又称"误检&quo…
数据来自UCI机器学习仓库中的垃圾信息数据集 数据可从http://archive.ics.uci.edu/ml/datasets/sms+spam+collection下载 转成csv载入数据 import matplotlib matplotlib.rcParams['font.sans-serif']=[u'simHei'] matplotlib.rcParams['axes.unicode_minus']=False import pandas as pd import numpy as…
分类器性能指标之ROC曲线.AUC值 一 roc曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性. 横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例:(1-Specificity) 纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive…
一.准确率,召回率 TP(True Positive):正确的正例,一个实例是正类并且也被判定成正类 FN(False Negative):错误的反例,漏报,本为正类但判定为假类 FP(False Positive):错误的正例,误报,本为假类但判定为正类 TN(True Negative):正确的反例,一个实例是假类并且也被判定成假类 准确率 所有的预测正确(正类负类)的占总的比重. 召回率 即正确预测为正的占全部实际为正的比例. PR-曲线 PR曲线是以召回率作为横坐标轴,精确率作为纵坐标轴…