[转]类不平衡问题与SMOTE过采样算法

在前段时间做本科毕业设计的时候，遇到了各个类别的样本量分布不均的问题——某些类别的样本数量极多，而有些类别的样本数量极少，也就是所谓的类不平衡（class-imbalance）问题。

本篇简述了以下内容：

什么是类不平衡问题

为什么类不平衡是不好的

几种解决方案

SMOTE过采样算法

进一步阅读

什么是类不平衡问题

类不平衡（class-imbalance）是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题，1000个训练样本，比较理想的情况是正类、负类样本的数量相差不多；而如果正类样本有995个、负类样本仅5个，就意味着存在类不平衡。

在后文中，把样本数量过少的类别称为“少数类”。

但实际上，数据集上的类不平衡到底有没有达到需要特殊处理的程度，还要看不处理时训练出来的模型在验证集上的效果。有些时候是没必要处理的。

为什么类不平衡是不好的

从模型的训练过程来看

从训练模型的角度来说，如果某类的样本数量很少，那么这个类别所提供的“信息”就太少。

使用经验风险（模型在训练集上的平均损失）最小化作为模型的学习准则。设损失函数为0-1 loss（这是一种典型的均等代价的损失函数），那么优化目标就等价于错误率最小化（也就是accuracy最大化）。考虑极端情况：1000个训练样本中，正类样本999个，负类样本1个。训练过程中在某次迭代结束后，模型把所有的样本都分为正类，虽然分错了这个负类，但是所带来的损失实在微不足道，accuracy已经是99.9%，于是满足停机条件或者达到最大迭代次数之后自然没必要再优化下去，ok，到此为止，训练结束！于是这个模型……

模型没有学习到如何去判别出少数类。

从模型的预测过程来看

考虑二项Logistic回归模型。输入一个样本 xx ，模型输出的是其属于正类的概率 ŷ y^ 。当 ŷ >0.5y^>0.5 时，模型判定该样本属于正类，否则就是属于反类。

为什么是0.5呢？可以认为模型是出于最大后验概率决策的角度考虑的，选择了0.5意味着当模型估计的样本属于正类的后验概率要大于样本属于负类的后验概率时就将样本判为正类。但实际上，这个后验概率的估计值是否准确呢？

从几率（odds）的角度考虑：几率表达的是样本属于正类的可能性与属于负类的可能性的比值。模型对于样本的预测几率为 ŷ 1−ŷ y^1−y^ 。

模型在做出决策时，当然希望能够遵循真实样本总体的正负类样本分布：设 θθ 等于正类样本数除以全部样本数，那么样本的真实几率为 θ1−θθ1−θ 。当观测几率大于真实几率时，也就是 ŷ >θy^>θ 时，那么就判定这个样本属于正类。

虽然我们无法获悉真实样本总体，但之于训练集，存在这样一个假设：训练集是真实样本总体的无偏采样。正是因为这个假设，所以认为训练集的观测几率 θ̂ 1−θ̂ θ^1−θ^ 就代表了真实几率 θ1−θθ1−θ 。

所以，在这个假设下，当一个样本的预测几率大于观测几率时，就应该将样本判断为正类。

几种解决方案

目前主要有三种办法：

1. 调整 θθ 值

根据训练集的正负样本比例，调整 θθ 值。

这样做的依据是上面所述的对训练集的假设。但在给定任务中，这个假设是否成立，还有待讨论。

2. 过采样

对训练集里面样本数量较少的类别（少数类）进行过采样，合成新的样本来缓解类不平衡。

下面将介绍一种经典的过采样算法：SMOTE。

3. 欠采样

对训练集里面样本数量较多的类别（多数类）进行欠采样，抛弃一些样本来缓解类不平衡。

SMOTE过采样算法

JAIR'2002的文章《SMOTE: Synthetic Minority Over-sampling Technique》提出了一种过采样算法SMOTE。概括来说，本算法基于“插值”来为少数类合成新的样本。下面介绍如何合成新的样本。

设训练集的一个少数类的样本数为 TT ，那么SMOTE算法将为这个少数类合成 NTNT 个新样本。这里要求 NN 必须是正整数，如果给定的 N<1N<1 那么算法将“认为”少数类的样本数 T=NTT=NT ，并将强制 N=1N=1 。

考虑该少数类的一个样本 ii ，其特征向量为 xi,i∈{1,...,T}xi,i∈{1,...,T} ：

1. 首先从该少数类的全部 TT 个样本中找到样本 xixi 的 kk 个近邻（例如用欧氏距离），记为 xi(near),near∈{1,...,k}xi(near),near∈{1,...,k} ；

2. 然后从这 kk 个近邻中随机选择一个样本 xi(nn)xi(nn) ，再生成一个 00 到 11 之间的随机数 ζ1ζ1 ，从而合成一个新样本 xi1xi1 ：

xi1=xi+ζ1⋅(xi(nn)−xi)xi1=xi+ζ1⋅(xi(nn)−xi)

3. 将步骤2重复进行 NN 次，从而可以合成 NN 个新样本：xinew,new∈1,...,Nxinew,new∈1,...,N。

那么，对全部的 TT 个少数类样本进行上述操作，便可为该少数类合成 NTNT 个新样本。

如果样本的特征维数是 22 维，那么每个样本都可以用二维平面上的一个点来表示。SMOTE算法所合成出的一个新样本 xi1xi1 相当于是表示样本 xixi 的点和表示样本 xi(nn)xi(nn) 的点之间所连线段上的一个点。所以说该算法是基于“插值”来合成新样本。

进一步阅读

有两篇翻译自国外博客的文章：

解决真实世界问题：如何在不平衡类上使用机器学习？

从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

可以先读中文的了解一下说了哪些事情，如果感兴趣的话就去看英文原文来深入学习。

追加内容：

发现在实践中大部分时候还是欠抽样效果最好，SMOTE效果太差，制造的样本甚至会极大的影响样本的分布。

原文链接：https://www.cnblogs.com/Determined22/p/5772538.html

[转]类不平衡问题与SMOTE过采样算法的更多相关文章

机器学习 —— 类不平衡问题与SMOTE过采样算法
在前段时间做本科毕业设计的时候,遇到了各个类别的样本量分布不均的问题——某些类别的样本数量极多,而有些类别的样本数量极少,也就是所谓的类不平衡(class-imbalance)问题. 本篇简述了以下内 ...
类别不平衡问题之SMOTE算法（Python imblearn极简实现）
类别不平衡问题类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题 ...
spark实现smote近邻采样
一.smote相关理论 (1). SMOTE是一种对普通过采样(oversampling)的一个改良.普通的过采样会使得训练集中有很多重复的样本. SMOTE的全称是Synthetic Minorit ...
过采样算法之SMOTE
SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术．它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加 ...
WebRTC 音频采样算法附完整C++示例代码
之前有大概介绍了音频采样相关的思路,详情见<简洁明了的插值音频重采样算法例子 (附完整C代码)>. 音频方面的开源项目很多很多. 最知名的莫过于谷歌开源的WebRTC, 其中的音频模块就包 ...
MCMC等采样算法
一.直接采样直接采样的思想是,通过对均匀分布采样,实现对任意分布的采样.因为均匀分布采样好猜,我们想要的分布采样不好采,那就采取一定的策略通过简单采取求复杂采样. 假设y服从某项分布p(y),其累积 ...
蓄水池采样算法（Reservoir Sampling）
蓄水池采样算法问题描述分析采样问题经常会被遇到,比如: 从 100000 份调查报告中抽取 1000 份进行统计. 从一本很厚的电话簿中抽取 1000 人进行姓氏统计. 从 Google 搜索 & ...
文本主题模型之LDA(二) LDA求解之Gibbs采样算法
文本主题模型之LDA(一) LDA基础文本主题模型之LDA(二) LDA求解之Gibbs采样算法文本主题模型之LDA(三) LDA求解之变分推断EM算法(TODO) 本文是LDA主题模型的第二篇, ...
机器学习：不平衡信息有序平均加权最近邻算法IFROWANN
一背景介绍不平衡信息,特点是少数信息更珍贵,多数信息没有代表性.所以一般的分类算法会被多数信息影响,而忽略少数信息的重要性. 解决策略: 1.数据级别 (1)上采样:增加稀有类成本数 (2)下采样 ...

随机推荐

delphi xe----操作mongoDB驱动，TMongoWire(Delphi MongoDB Driver)
所有例子来自:https://github.com/stijnsanders/TMongoWire Delphi MongoDB的驱动一个Delphi的驱动程序来访问mongoDB的服务器.用jso ...
巨蟒python全栈开发数据库攻略1：基础攻略
1.什么是数据库? 2.数据库分类 3.数据库简单介绍 4.安装数据库 5.修改root密码 6.修改字符集 7.sql介绍 8.简单sql操作
Powershell About LocalGroupMembership
一: 结合active directory获取本地群组成员信息(包含本地用户和域用户,及域用户的情况 $DBServer = "xxxx" $DBDatabase = " ...
Backtracking is a form of recursion.
w https://www.cis.upenn.edu/~matuszek/cit594-2012/Pages/backtracking.html Starting at Root, your opt ...
第19章—后端分页（PageHelper）
spring boot 系列学习记录:http://www.cnblogs.com/jinxiaohang/p/8111057.html 码云源码地址:https://gitee.com/jinxia ...
CNI Proposal 摘要
原文连接:https://github.com/containernetworking/cni/blob/master/SPEC.md General consideration CNI的想法是先让容 ...
关于c#继承
如下代码所示:最后输出的是:8,3,7,4 public class A { public virtual void One(int i) { Console.Write(i); } public v ...
web前端编码规范
简要介绍本文通过参考百度腾讯等前端编码规范(链接建文末),得出个人习惯的编码规范.个人编码规范采用在不影响可读性的情况下能省就省,尽量简洁,不需要就直接去掉. 最佳原则不管是个人编码规范还是团队编码 ...
Visual Studio Code 配合 Node.js 轻松实现JS断点调试
一直喜欢vscode这个编辑器,今天看在liaoxuefeng.com学习nodejs时,看到上面讲了使用vscode配合nodejs调试JS代码,原来这么简单,现在分享如下: 本人环境: Visu ...
PHP获取与操作php.ini文件的几个函数示例
php有一套设置和获取配置信息的函数,用于设置与修改相关参数信息. 1.ini_get()获取配置参数,ini_set()设置配置参数 <?php 2.ini_get_all()获取所有配置 ...

[转]类不平衡问题与SMOTE过采样算法

[转]类不平衡问题与SMOTE过采样算法的更多相关文章

随机推荐

热门专题