机器学习类别不平衡处理之欠采样（undersampling）

类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况

常用的做法有三种，分别是1.欠采样， 2.过采样， 3.阈值移动

由于这几天做的project的target为正值的概率不到4%，且数据量足够大，所以我采用了欠采样：

欠采样，即去除一些反例使得正、反例数目接近，然后再进行学习，基本的算法如下：

def undersampling(train, desired_apriori):

    # Get the indices per target value

    idx_0 = train[train.target == 0].index

    idx_1 = train[train.target == 1].index

    # Get original number of records per target value

    nb_0 = len(train.loc[idx_0])

    nb_1 = len(train.loc[idx_1])

    # Calculate the undersampling rate and resulting number of records with target=0

    undersampling_rate = ((1-desired_apriori)*nb_1)/(nb_0*desired_apriori)

    undersampled_nb_0 = int(undersampling_rate*nb_0)

    print('Rate to undersample records with target=0: {}'.format(undersampling_rate))

    print('Number of records with target=0 after undersampling: {}'.format(undersampled_nb_0))

    # Randomly select records with target=0 to get at the desired a priori

    undersampled_idx = shuffle(idx_0, n_samples=undersampled_nb_0)

    # Construct list with remaining indices

    idx_list = list(undersampled_idx) + list(idx_1)

    # Return undersample data frame

    train = train.loc[idx_list].reset_index(drop=True)

    return train

因为对应具体的project，所以里面欠采样的为反例，如果要使用的话需要做一些改动。

欠采样法若随机丢弃反例，可能会丢失一些重要信息。为此，周志华实验室提出了欠采样的算法EasyEnsemble：利用集成学习机制，将反例划分为若干个集合供不同学习器使用，这样对每个学习器来看都进行了欠采样，但在全局来看却不会丢失重要信息。其实这个方法可以再基本欠采样方法上进行些许改动即可：

def easyensemble(df, desired_apriori, n_subsets=10):

    train_resample = []

    for _ in range(n_subsets):

        sel_train = undersampling(df, desired_apriori)

        train_resample.append(sel_train)

    return train_resample

仔细来看，下图是原始论文Exploratory Undersampling for Class-Imbalance Learning里的算法介绍：

PS: 对于类别不平衡的时候采用CV进行交叉验证时，由于分类问题在目标分布上表现出很大的不平衡性。如果用sklearn库中的函数进行交叉验证的话，建议采用如StratifiedKFold 和 StratifiedShuffleSplit中实现的分层抽样方法，确保相对的类别概率在每个训练和验证折叠中大致保留。

Reference:

机器学习类别不平衡处理之欠采样（undersampling）的更多相关文章

欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响
项目中出现了二分类数据不平横问题,研究总结下对于类别不平横问题的处理经验: 为什么类别不平横会影响模型的输出? 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例.在数据不 ...
机器学习 —— 类不平衡问题与SMOTE过采样算法
在前段时间做本科毕业设计的时候,遇到了各个类别的样本量分布不均的问题——某些类别的样本数量极多,而有些类别的样本数量极少,也就是所谓的类不平衡(class-imbalance)问题. 本篇简述了以下内 ...
机器学习之类别不平衡问题 (2) —— ROC和PR曲线
机器学习之类别不平衡问题 (1) -- 各种评估指标机器学习之类别不平衡问题 (2) -- ROC和PR曲线完整代码 ROC曲线和PR(Precision - Recall)曲线皆为类别不平衡问题 ...
如何解决数据类别不平衡问题（Data with Imbalanced Class）
类别不平衡问题是指:在分类任务中,数据集中来自不同类别的样本数目相差悬殊. 类别不平衡问题会造成这样的后果:在数据分布不平衡时,其往往会导致分类器的输出倾向于在数据集中占多数的类别:输出多数类会带来更 ...
类别不平衡问题之SMOTE算法（Python imblearn极简实现）
类别不平衡问题类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题 ...
类别不平衡问题和Softmax回归
目录类别不平衡(class-imbalance) Softmax回归模型类别不平衡(class-imbalance) 当不同类别的训练样本数目差别很大,则会对学习过程造成困扰.如有998个反例,但 ...
机器学习：不平衡信息有序平均加权最近邻算法IFROWANN
一背景介绍不平衡信息,特点是少数信息更珍贵,多数信息没有代表性.所以一般的分类算法会被多数信息影响,而忽略少数信息的重要性. 解决策略: 1.数据级别 (1)上采样:增加稀有类成本数 (2)下采样 ...
Focal Loss（RetinaNet）笔记一种减小类别不平衡影响的方法
Paper: https://arxiv.org/abs/1708.02002 还参考了:https://www.jianshu.com/p/8e501a159b28 其中p是预测属于某类的概率.
kaggle 欺诈信用卡预测——不平衡训练样本的处理方法综合结论就是：随机森林+过采样（直接复制或者smote后，黑白比例1:3 or 1:1）效果比较好！记得在smote前一定要先做标准化！！！其实随机森林对特征是否标准化无感，但是svm和LR就非常非常关键了
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No de ...

随机推荐

JVM terminated. Exit code=8096
http://www-01.ibm.com/support/docview.wss?uid=swg21303648 Technote (troubleshooting) Problem(Abstrac ...
HashMap 实现原理
深入Java集合学习系列:HashMap的实现原理参考文献引用文献:深入Java集合学习系列:HashMap的实现原理,大部分参考这篇博客,只对其中进行稍微修改自己曾经写过的:Hashmap ...
java -- 对Map按键排序、按值排序
java -- 对Map按键.按值排序 1.按键排序(sort by key) 直接上代码 ↓ public Map<String, Str ...
ffmpeg 时间戳处理
视频的显示和存放原理对于一个电影,帧是这样来显示的:I B B P.现在我们需要在显示B帧之前知道P帧中的信息.因此,帧可能会按照这样的方式来存储:IPBB.这就是为什么我们会有一个解码时间戳和一个 ...
从 <sofa:XXX> 标签开始看 SOFA-Boot 如何融入 Spring
前言 SOFA-Boot 现阶段支持 XML 的方式在 Spring 中定义 Bean,通过这些标签,我们就能从 Spring 容器中取出 RPC 中的引用,并进行调用,那么他是如何处理这些自定义标签 ...
学习JavaScript最佳实践方法
首先要说明的是,咱现在不是高手,最多还是一个半桶水,算是入了JS的门. 谈不上经验,都是一些教训. 这个时候有人要说,“靠,你丫半桶水,凭啥教我们”.您先别急着骂,先听我说. 你叫一个大学生去教小学数 ...
《T-SQL查询》读书笔记Part 2.执行计划
一.关于执行计划执行计划是优化器生成的用于确定如何处理一个给定查询的“工作计划”.一个计划包含一组运算符,通常按照特定的顺序来应用这些运算符.此外,一些运算符可以在它们之前的运算符还在处理时被应用( ...
go redigo的简单操作
golang操作redis主要有两个库,go-redis和redigo.两者操作都比较简单,区别上redigo更像一个client执行各种操作都是通过Do函数去做的,redis-go对函数的封装更好, ...
jenkins中集成commander应用
jenkins中集成commander应用 jenkins 集成测试 promotion 最近参加公司的集成测试平台的开发,在开发中遇到了不少问题,两个星期的迭代也即将完成,在这也用这篇博客记录下开发 ...
Python学习 Part4：模块
Python学习 Part4:模块 1. 模块是将定义保存在一个文件中的方法,然后在脚本中或解释器的交互实例中使用.模块中的定义可以被导入到其他模块或者main模块. 模块就是一个包含Python定义 ...

机器学习类别不平衡处理之欠采样（undersampling）

机器学习类别不平衡处理之欠采样（undersampling）的更多相关文章

随机推荐

热门专题