机器学习性能指标精确率.召回率.F1值.ROC.PRC与AUC 精确率.召回率.F1.AUC和ROC曲线都是评价模型好坏的指标,那么它们之间有什么不同,又有什么联系呢.下面让我们分别来看一下这几个指标分别是什么意思. 针对一个二分类问题,将实例分成正类(postive)或者负类(negative).但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negat…
准确率.精确率(查准率).召回率(查全率).F1值.ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前四者可以从混淆矩阵中直接计算得到,AUC值则要通过ROC曲线进行计算,而ROC曲线的横纵坐标又和混淆矩阵联系密切,所以在了解这些评价指标之前,先知道什么是混淆矩阵很有必要,也方便记忆. 1.混淆矩阵 对于一个二分类问题,我们可以得到如表 1所示的的混淆矩阵(confusion matrix): 表…
LightGBM算法总结 2018年08月21日 18:39:47 Ghost_Hzp 阅读数:2360 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/weixin_39807102/article/details/81912566 1 LightGBM原理 1.1 GBDT和 LightGBM对比 1.2 LightGBM 的动机 1.3 Xgboost 原理 1.4 LightGBM 优化 1.4.1 Histogram 算法 1.4.2…
ML神器:sklearn的快速使用 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类.本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的.希望你看完这篇文章可以最为快速的开始你的学习任务. 1. 获取数据 1.1 导入sklearn数据集 sklearn中包含了大量的优质的数据集,在你学习机器学习的过程中,你可以通过使用这些数据集实现出不同的模型,从而提高你的动手实践…
XGBoost——机器学习(理论+图解+安装方法+python代码) 目录 一.集成算法思想 二.XGBoost基本思想 三.MacOS安装XGBoost 四.用python实现XGBoost算法 在竞赛题中经常会用到XGBoost算法,用这个算法通常会使我们模型的准确率有一个较大的提升.既然它效果这么好,那么它从头到尾做了一件什么事呢?以及它是怎么样去做的呢? 我们先来直观的理解一下什么是XGBoost.XGBoost算法是和决策树算法联系到一起的.决策树算法在我的另一篇博客中讲过了. 一.集…
LightGBM的并行优化 上一篇文章介绍了LightGBM算法的特点,总结起来LightGBM采用Histogram算法进行特征选择以及采用Leaf-wise的决策树生长策略,使其在一批以树模型为基模型的boosting算法中脱颖而出.在时间和空间上都更胜一筹,准确率也比其他模型表现得更好.这些模型在处理一般规模的数据时,单机即可以解决,然而当数据规模更大时,即需要进行分布式计算,分担每台机器(worker)的压力.这篇文章介绍LightGBM的两种并行学习算法(Feature Paralle…
在搭建一个AI模型或者是机器学习模型的时候怎么去评估模型,比如我们前期讲的利用朴素贝叶斯算法做的垃圾邮件分类算法,我们如何取评估它.我们需要一套完整的评估方法对我们的模型进行正确的评估,如果模型效果比较理想的话则可以放到线上使用,如果不理想的话则需要反复的去调整相关参数进行训练直到达到目的. 而准确率.精确率.召回率和F1值则是选出目标的重要评价指标,我们看下这些指标的定义: 若一个实例为正类,实际预测为正类,即为真正类(True Positv TP) 若一个实例为负类,实际预测为负类,即为真负…
混淆矩阵 介绍这些概念之前先来介绍一个概念:混淆矩阵(confusion matrix).对于 k 元分类,其实它就是一个k x k的表格,用来记录分类器的预测结果.对于常见的二元分类,它的混淆矩阵是 2x2 的. 假设要对 15 个人预测是否患病,使用 1 表示患病,使用 0 表示正常.预测结果如下: 预测值: 1 1 1 1 1 0 0 0 0 0 1 1 1 0 1 真实值: 0 1 1 0 1 1 0 0 1 0 1 0 1 0 0 将上面的预测结果转为混淆矩阵,如下: 上图展示了一个二…
首先我们可以计算准确率(accuracy),其定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比.也就是损失函数是0-1损失时测试数据集上的准确率. 下面在介绍时使用一下例子: 一个班级有20个女生,80个男生.现在一个分类器需要从100人挑选出所有的女生.该分类器从中选出了50人,其中20个女生,30个男生. 准确率是指分类器正确分类的比例.正确分类是指正确的识别了一个样本是正例还是负例.例如分类器正确识别了20个女生和50个男生,正确识别的样本数是70个,因此该分类器的准确…
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/7668501.html 前言 机器学习中经过听到"召回率"和"精确率" 这两个名词,今天简单解释一下. 概念 首先我先简单看几个名词解释: 通常我们预测的样本中分为正样本和负样本: TP ( True Positive ):表示把正样本预测为正样本: FP ( False Positive ):表示把负样本预测为正样本: TN …