过采样中用到的SMOTE算法

平时很多分类问题都会面对样本不均衡的问题，很多算法在这种情况下分类效果都不够理想。类不平衡（class-imbalance）是指在训练分类器中所使用的训练集的类别分布不均。比如说一个二分类问题，1000个训练样本，比较理想的情况是正类、负类样本的数量相差不多；而如果正类样本有995个、负类样本仅5个，就意味着存在类不平衡。把样本数量过少的类别称为“少数类”。

SMOTE算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。如图所示：

算法流程：

1、对于少数类中每一个样本a，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻。

2、根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本a，从其k近邻中随机选择若干个样本，假设选择的近邻为b。

3、对于每一个随机选出的近邻b，分别与原样本a按照如下的公式构建新的样本:c=a+rand(0,1)∗|a−b|

类别不平衡问题

类别不平衡问题，顾名思义，即数据集中存在某一类样本，其数量远多于或远少于其他类样本，从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题，例如逻辑回归在欺诈检测问题中，因为绝大多数样本都为正常样本，欺诈样本很少，逻辑回归算法会倾向于把大多数样本判定为正常样本，这样能达到很高的准确率，但是达不到很高的召回率。

类别不平衡问题在很多场景中存在，例如欺诈检测，风控识别，在这些样本中，黑样本（一般为存在问题的样本）的数量一般远少于白样本（正常样本）。

上采样(过采样)和下采样(负采样）策略是解决类别不平衡问题的基本方法之一。上采样即增加少数类样本的数量，下采样即减少多数类样本以获取相对平衡的数据集。

最简单的上采样方法可以直接将少数类样本复制几份后添加到样本集中，最简单的下采样则可以直接只取一定百分比的多数类样本作为训练集。

SMOTE算法是用的比较多的一种上采样算法，SMOTE算法的原理并不是太复杂，用python从头实现也只有几十行代码，但是python的imblearn包提供了更方便的接口，在需要快速实现代码的时候可直接调用imblearn。

imblearn类别不平衡包提供了上采样和下采样策略中的多种接口，基本调用方式一致，主要介绍一下对应的SMOTE方法和下采样中的RandomUnderSampler方法。imblearn可使用pip install imblearn直接安装。

代码示例
生成类别不平衡数据

# 使用sklearn的make_classification生成不平衡数据样本

from sklearn.datasets import make_classification

# 生成一组0和1比例为9比1的样本，X为特征，y为对应的标签

X, y = make_classification(n_classes=2, class_sep=2,

weights=[0.9, 0.1], n_informative=3,

n_redundant=1, flip_y=0,

n_features=20, n_clusters_per_class=1,

n_samples=1000, random_state=10)

查看数据分布

from collections import Counter

# 查看所生成的样本类别分布，0和1样本比例9比1，属于类别不平衡数据

print(Counter(y))

# Counter({0: 900, 1: 100})

SMOTE算法核心语句

# 使用imlbearn库中上采样方法中的SMOTE接口

from imblearn.over_sampling import SMOTE

# 定义SMOTE模型，random_state相当于随机数种子的作用

smo = SMOTE(random_state=42)

X_smo, y_smo = smo.fit_sample(X, y)

查看经过SMOTE之后的数据分布

print(Counter(y_smo))

# Counter({0: 900, 1: 900})

从上述代码中可以看出，SMOTE模型默认生成一比一的数据，如果想生成其他比例的数据，可以使用radio参数。不仅可以处理二分类问题，同样适用于多分类问题

# 可通过radio参数指定对应类别要生成的数据的数量

smo = SMOTE(ratio={1: 300 },random_state=42)

# 生成0和1比例为3比1的数据样本

X_smo, y_smo = smo.fit_sample(X, y)

print(Counter(y_smo))

# Counter({0: 900, 1: 300})

imblearn中上采样接口提供了随机上采样RandomOverSampler，SMOTE，ADASYN三种方式，调用方式和主要参数基本一样。下采样接口中也提供了多种方法，以RandomUnderSampler为例。

from imblearn.under_sampling import RandomUnderSampler

# 同理，也可使用ratio来指定下采样的比例

rus = RandomUnderSampler(ratio={0: 500 }, random_state=0)

X_rus, y_rus = rus.fit_sample(X, y)

print(Counter(y_smo))

# Counter({0: 500, 1: 300})

其他参考链接：https://www.cnblogs.com/bonelee/p/8535045.html

原文链接：https://www.jianshu.com/p/9a68934d1f56
原文链接：https://blog.csdn.net/nlpuser/article/details/81265614

过采样中用到的SMOTE算法的更多相关文章

kaggle 欺诈信用卡预测——不平衡训练样本的处理方法综合结论就是：随机森林+过采样（直接复制或者smote后，黑白比例1:3 or 1:1）效果比较好！记得在smote前一定要先做标准化！！！其实随机森林对特征是否标准化无感，但是svm和LR就非常非常关键了
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No de ...
Python：SMOTE算法——样本不均衡时候生成新样本的算法
Python:SMOTE算法直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number ...
类别不平衡问题之SMOTE算法（Python imblearn极简实现）
类别不平衡问题类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题 ...
NLP第9章 NLP 中用到的机器学习算法——基于统计学（文本分类和文本聚类）
机器学习 —— 类不平衡问题与SMOTE过采样算法
在前段时间做本科毕业设计的时候,遇到了各个类别的样本量分布不均的问题——某些类别的样本数量极多,而有些类别的样本数量极少,也就是所谓的类不平衡(class-imbalance)问题. 本篇简述了以下内 ...
[转]类不平衡问题与SMOTE过采样算法
在前段时间做本科毕业设计的时候,遇到了各个类别的样本量分布不均的问题——某些类别的样本数量极多,而有些类别的样本数量极少,也就是所谓的类不平衡(class-imbalance)问题. 本篇简述了以下内 ...
过采样算法之SMOTE
SMOTE(Synthetic Minority Oversampling Technique),合成少数类过采样技术．它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加 ...
PCL采样一致性算法
在计算机视觉领域广泛的使用各种不同的采样一致性参数估计算法用于排除错误的样本,样本不同对应的应用不同,例如剔除错误的配准点对,分割出处在模型上的点集,PCL中以随机采样一致性算法(RANSAC)为核心 ...
kaggle 欺诈信用卡预测——Smote+LR
from:https://zhuanlan.zhihu.com/p/30461746 本项目需解决的问题本项目通过利用信用卡的历史交易数据,进行机器学习,构建信用卡反欺诈预测模型,提前发现客户信用卡 ...

随机推荐

【SSH进阶之路】Spring的IOC逐层深入——Spring的IOC原理[通俗解释一下]（三）
1. IoC理论的背景我们都知道,在采用面向对象方法设计的软件系统中,它的底层实现都是由N个对象组成的,所有的对象通过彼此的合作,最终实现系统的业务逻辑. 图1:软件系统中耦合的对象如果我们打开机械 ...
nrm -- npm镜像源管理
nrm nrm(npm registry manager )是npm的镜像源管理工具,有时候国外资源太慢,使用这个就可以快速地在 npm 源间切换安装nrm 在命令行执行命令,npm install ...
bat文件注释（jenkins中windows命令行中可以使用）
1.BAT文件中如何注释:1.:: 注释内容(第一个冒号后也可以跟任何一个非字母数字的字符)2.rem 注释内容(不能出现重定向符号和管道符号)3.echo 注释内容(不能出现重定向符号和管道符号)〉 ...
K8S+GitLab+.net core-自动化分布式部署-2
K8S+GitLab-自动化分布式部署ASP.NET Core(二) ASP.NET Core DevOps K8S+GitLab-自动化分布式部署ASP.NET Core(二) ASP.NET Co ...
Oracle ROWNUM的陷阱
先抛出一个问题: 我有一张表T,现在我想对表中1/4的记录作UPDATE操作,我的SQL如下: Update t set col1='123' where mod(rownum,4)=1 我能够得到想 ...
JIRA学习
Jira是Atlassian公司出品的一款事务管理软件.无论是“需求”,还是“BUG”,或是“任务”,都是“事务”的一种,所以Jira可以胜任非常多的角色:需求管理.缺陷跟踪.任务管理等等……因为Ji ...
java接入微信JS-SDK
在微信公众号开发中不可,jssdk的接入虽然不是必须,但是根据业务需求我们还是可能用到,下面是自己整理的关于java接入的jssdk的方法,这里是记录关于接入微信JS-SDK的准备工作,关于接入JS- ...
Linux系统下Dubbo安装的详细教程
Linux系统下Dubbo安装的详细教程 1.Dubbo的简介 Dubbo是 [1] 阿里巴巴公司开源的一个高性能优秀的服务框架,使得应用可通过高性能的 RPC 实现服务的输出和输入功能,可以和 [ ...
Github-Q&A 常见错误排查（持续更新）
Q1:提交Git时出现"remote origin already exists"提示? 关联本地与网上仓库的时候,可能会出现此错误,这是因为已经存在已关联的仓库.通过如下方法 ...
Hadoop2-认识Hadoop大数据处理架构-单机部署
一.Hadoop原理介绍 1.请参考原理篇:Hadoop1-认识Hadoop大数据处理架构二.centos7单机部署hadoop 前期准备 1.创建用户 [root@web3 ~]# useradd ...

过采样中用到的SMOTE算法

过采样中用到的SMOTE算法的更多相关文章

随机推荐

热门专题