推荐一篇英文的博客:

8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset

  

  1.不平衡数据集带来的影响

  一个不平衡的两类数据集,使用准确率(accuracy)作为模型评价指标,最后得到的准确率很高,感觉结果很棒大功告成了,但再看看混淆矩阵(confusion matrix)或者少数类(样本数量少的这一类)的召回率(recall),你的心可能就拔凉拔凉的。你可能会发现少数类的样本几乎完全分错,即模型将样本基本预测为了多数类(样本数量多的一类)。

  

  2.不平衡数据集很普遍

  有些问题产生的数据生来就是不平衡的,比如癌症检测、金融诈骗。对于一个两类问题,比例为多少时,该数据集就不平衡了?英文博客中认为:如果存在类似4:1的类不平衡,则可能会导致问题。

  3.英文博客中介绍的8种处理不平衡数据的策略

1) Collect more data

  最简单而实用的方法,当获得少数类样本比较容易时,可以考虑直接获得一个比较平衡的数据集。但如果代价比较大,还是考虑别的方法吧。

2) Try Changing Your Performance Metric 修改模型评价指标

  处理不平衡数据集时,accuracy很可能不再适用,尤其当我们更加关注少数类样本。此时,可以使用confusion matrix、precision、recall、F1 score、ROC曲线的AUC值等来评价模型。

3) Try Resampling Your Dataset

  过采样(oversampling)和欠采样(undersampling)

  在这里,更多的是介绍过采样中的重采样(re-sampling),也就是不生成新的数据。

4) Try Generate Synthetic Samples

  SMOTE: Synthetic Minority Over-sampling Technique

  对少数类使用SMOTE算法“造”数据,可以想象一下对少数类进行k-means,在每个少数类样本与其k个近邻的连线上随机选择生成新的样本点,这就是SMOTE这一类算法大概的思想。SMOTE算法是过采样的一种方法,其生成了新的数据,而重采样不生成新的数据。

5) Try Different Algorithms

  树模型处理不平衡数据集效果可能比较好,比如CART、C4.5、Random Forest。

6) Try Penalized Models

  比如penalized-SVM 和penalized-LDA。

7) Try a Different Perspective

  尝试使用无监督学习中的异常检测算法。

8) Try Getting Creative

  嗯,当时我看到这里也是蒙蔽的,这是啥方法。嗯,自己根据问题创造方法吧,英文博客中也列举了一些Quora上比较好的想法。

  

  4.个人对不平衡数据集处理的总结

  对于不平衡数据集,我们一般从数据集和模型两个层面去考虑怎么处理。上面列举的第1、3、4条方法都是在数据集上的操作,第2、5、6、7条方法都是在模型方面做的一些尝试。(第2条方法修改模型评价指标,姑且也认为是在模型方面做的工作好了。)

  数据集上的操作,收集更多少数类样本,对少数类过采样、重采样,对多数类欠采样,都是为了平衡样本比例。

机器学习中如何处理不平衡数据(imbalanced data)?的更多相关文章

  1. 如何在Python中处理不平衡数据

    Index1.到底什么是不平衡数据2.处理不平衡数据的理论方法3.Python里有什么包可以处理不平衡样本4.Python中具体如何处理失衡样本印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文 ...

  2. 不平衡数据下的机器学习方法简介 imbalanced time series classification

    imbalanced time series classification http://www.vipzhuanli.com/pat/books/201510229367.5/2.html?page ...

  3. 不平衡学习 Learning from Imbalanced Data

    问题: ICC警情数据分类不均,30+分类,最多的分类数据数量1w+条,只有10个类别数量超过1k,大部分分类数量少于100条. 解决办法: 下采样:通过非监督学习,找出每个分类中的异常点,减少数据. ...

  4. 【Machine Learning】如何处理机器学习中的非均衡数据集?

    在机器学习中,我们常常会遇到不均衡的数据集.比如癌症数据集中,癌症样本的数量可能远少于非癌症样本的数量:在银行的信用数据集中,按期还款的客户数量可能远大于违约客户的样本数量.   比如非常有名的德国信 ...

  5. 机器学习&深度学习经典资料汇总,data.gov.uk大量公开数据

    <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.D ...

  6. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系?

    本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...

  7. [翻译]比较ADO.NET中的不同数据访问技术(Performance Comparison:Data Access Techniques)

    Performance Comparison: Data Access Techniques Priya DhawanMicrosoft Developer Network January 2002 ...

  8. 机器学习:从sklearn中加载数据

    一.sklearn模块 sklearn模块下有很多子模块,常用的数据集在:sklearn.datasets模块下: 通过数据集中DESCR来查看数据集的文档: 从datasets中加载数据: impo ...

  9. python中使用anaconda对不平衡数据的处理包imblearn的安装

    为了建模,处理不平衡数据,想使用SMOTEENN方法进行数据平衡处理,为此需要下载对应的包imblearn   最开始直接从anaconda中进行: conda install  imblearn 报 ...

随机推荐

  1. 通过MSSQL分析器跟踪研究EM内部行为并解决identify列问题

    今天有人问到MSSQL表里的IDENTITY字段,如何让它在复制原来数据到该表时,原来数据的IDENTITY字段不变,而新插入数据时,新插入的数据的IDENTITY依然增长,查了些资料,做了个实验,最 ...

  2. 阿里巴巴的开源项目Druid(关于数据库连接)

    1 配置 和dbcp类似,druid的常用配置项如下 配置 缺省值 说明 name   配置这个属性的意义在于,如果存在多个数据源,监控的时候可以通过名字来区分开来.如果没有配置,将会生成一个名字,格 ...

  3. Django rest_framework快速入门

    一.什么是REST 面向资源是REST最明显的特征,资源是一种看待服务器的方式,将服务器看作是由很多离散的资源组成.每个资源是服务器上一个可命名的抽象概念.因为资源是一个抽象的概念,所以它不仅仅能代表 ...

  4. BZOJ_3585_mex && BZOJ_3339_Rmq Problem_主席树

    BZOJ_3585_mex && BZOJ_3339_Rmq Problem_主席树 Description 有一个长度为n的数组{a1,a2,...,an}.m次询问,每次询问一个区 ...

  5. SQL 如何在自增列插入指定数据

    SQL Server  中数据表往往会设置自增列,常见的比如说 首列的ID列. 往数据表插入新数据的时候,自增列是跳过的,无需插入即会按照设置的自增规则进行列增长.那么,如果我们想往自增列插入我们指定 ...

  6. selenium处理iframe定位于切换问题解决办法

    首先还是围绕以下几个方面来看: 1.什么是iframe? 2.为什么我们要定位iframe? 3.我们怎样定位iframe,与切换iframe? 1.什么是iframe? ♦ b/s架构都使用ifra ...

  7. Android+appium +python 点击坐标tap方法的封装

    当常使用的查找点击元素的方法name.id.classname等无法使用时,我们将会采取坐标的点击来实现操作,同样存在一个问题,当手机的分辨率.屏幕大小不一致时,坐标的定位也会不同,因此将采用相对坐标 ...

  8. 作为一个零基础的新手,如何系统的自学Java和JavaEE开发技术?

    其实这个问题很简单,我用最简单的语言给大家描述一下,学习一样东西就要了解这样东西学完了要干什么事情,有什么作用.然后就是应该学习哪些必要的内容,该如何运用得当的方法进行有效率的学习不至于自己摸不着头脑 ...

  9. Java实现大批量数据导入导出(100W以上) -(二)导出

    使用POI或JXLS导出大数据量(百万级)Excel报表常常面临两个问题: 1. 服务器内存溢出: 2. 一次从数据库查询出这么大数据,查询缓慢. 当然也可以分页查询出数据,分别生成多个Excel打包 ...

  10. 【转】委托的N种写法,你喜欢哪种?

    一.委托调用方式 1. 最原始版本: delegate string PlusStringHandle(string x, string y); class Program { static void ...