正负样本比率失衡SMOTE

正负样本比率失衡SMOTE

背景

这几天测试天池的优惠券预测数据在dnn上面会不会比集成树有较好的效果，但是正负样本差距太大，而处理这种情况的一般有欠抽样和过抽样，这里主要讲过抽样，过抽样有一种简单的方法叫随机过抽样，但是随机过抽样只是随机的复制，很容易过拟合，所以SMOTE比较好，SMOTE还有一些改进版本，更好用，这里讲一般的SMOTE即可

公式

\(x\) : 任意一个样本

\(\tilde{x}\) : \(x\)最临近的\(K\)个样本的随机一个，\(x\not= \tilde{x}\)

\[x_{new}=x+rand(0,1)\times(\tilde{x}-x)
\]

python实现

import random

from sklearn.neighbors import NearestNeighbors

import numpy as np

class Smote:

    def __init__(self,N=1,k=5):

        self.__shape=None

        self.__N=N

        self.__k=k

    def fit(self, samples):

        self.__shape=samples.shape #源样本的shape

        # 塑形为两位度才可以用KNN

        self.__samples=samples.reshape((self.__shape[0],-1))

        self.__tmp_shape=self.__samples.shape

        # 返回值的维度

        self.__ret_shape=(self.__shape[0]*self.__N,)+self.__shape[1:]

    def transform(self):

        # 如果没有喂给数据，则直接返回None

        if self.__shape == None:

            return None

        self.__index=0 # 清零新增数据的索引

        self.__X = np.zeros((self.__tmp_shape[0] * self.__N, self.__tmp_shape[1])) # 构造返回的数据，具体数据待填充

        neighbors=NearestNeighbors(n_neighbors=self.__k).fit(self.__samples)

        for i in range(self.__shape[0]): # 根据每一个样本产生一个新样本

            # nnarray当前样本最近k个的样本的索引

            nnarray=neighbors.kneighbors(self.__samples[i].reshape(1,-1),return_distance=False)[0]

            # 根据当前样本索引和，最近k和样本生成一个新样本

            self.__new_one_sample(i,nnarray)

        return self.__X.reshape(self.__ret_shape) # 重新塑形并返回

    def fit_transform(self, samples):

        self.fit(samples)

        return self.transform()

    # 根据当前样本索引和，最近k和样本生成一个新样本

    def __new_one_sample(self,i,nnarray):

        for _ in range(self.__N):

            #从K个最近的样本随机挑选不同于当前样本的一个样本

            nn_idx=random.choice(nnarray)

            while (nn_idx==i):

                nn_idx=random.choice(nnarray)

            gap=self.__samples[nn_idx]-self.__samples[i]

            prob=random.random()

            # 根据公式生成新样本

            self.__X[self.__index]=self.__samples[i]+prob*gap

            self.__index+=1

if __name__ == '__main__':

    a=np.array([[1,3,4],[2,5,6],[4,1,2],[5,1,4],[3,2,4],[5,3,5]])

    print("\n"*2, "测试维度为" , a.shape)

    print("*"*100)

    s=Smote()

    s.fit(a)

    print (s.transform())

    # 测试多维度支持

    b=np.zeros((10,)+a.shape)

    print("\n"*2, "测试维度为" , b.shape)

    print("*"*100)

    for i in range(10):

        b[i,:]=s.fit_transform(a)

    print (s.fit_transform(b))

代码的使用方法

假设你已经有label很少的数据 data (不包括label列)

s=Smote()

s.fit(data)

s.transform()

上面的实例是默认参数，可根据情况选择参数N和k

数据扩增N被，从最近的k个样本选择一个样本参考（这里参考这个词可能不太准确，想不出其他词）来生成样本

s=Smote(N=2, k=4)

s.fit(data)

s.transform()

正负样本比率失衡SMOTE的更多相关文章

DDBNet：Anchor-free新训练方法，边粒度IoU计算以及更准确的正负样本 | ECCV 2020
论文针对当前anchor-free目标检测算法的问题提出了DDBNet,该算法对预测框进行更准确地评估,包括正负样本以及IoU的判断.DDBNet的创新点主要在于box分解和重组模块(D&R) ...
gluoncv rpn 正负样本
https://github.com/dmlc/gluon-cv/blob/master/gluoncv/model_zoo/rpn/rpn_target.py def forward(self, i ...
不平衡分类学习方法 --Imbalaced_learn
最近在进行一个产品推荐课题时,由于产品的特性导致正负样本严重失衡,远远大于3:1的比例(个人认为3:1是建模时正负样本的一个临界点),这样的样本不适合直接用来建模,例如正负样本的比例达到了50:1,就 ...
XGB算法梳理
学习内容: 1.CART树 2.算法原理 3.损失函数 4.分裂结点算法 5.正则化 6.对缺失值处理 7.优缺点 8.应用场景 9.sklearn参数 1.CART树 CART算法是一种二分递归分割 ...
Kaggle ： Display Advertising Challenge( ctr 预估 )
原文:http://blog.csdn.net/hero_fantao/article/details/42747281 Display Advertising Challenge --------- ...
论文阅读 | FoveaBox: Beyond Anchor-based Object Detector
论文阅读——FoveaBox: Beyond Anchor-based Object Detector 概述这是一篇ArXiv 2019的文章,作者提出了一种新的anchor-free的目标检测框架 ...
论文阅读 | Region Proposal by Guided Anchoring
论文阅读 | Region Proposal by Guided Anchoring 相关链接论文地址:https://arxiv.org/abs/1901.03278 概述众所周知,anchor ...
focal loss和ohem
公式推导:https://github.com/zimenglan-sysu-512/paper-note/blob/master/focal_loss.pdf 使用的代码:https://githu ...
Python：SMOTE算法——样本不均衡时候生成新样本的算法
Python:SMOTE算法直接用python的库, imbalanced-learn imbalanced-learn is a python package offering a number ...

随机推荐

ECMAScript 5 新特性
Strict模式开启strict: 在文件头部,或者在一个function头部内,添加‘use strict’或者“use strict”. Strict模式的限制,以及违反时出现的异常: 新定制了 ...
React Native之Image组件
同 HTML 的 img 元素一样,React Native 提供的 Image 组件可以用来显示各种途径的图片,比如网络图片.本地图片.照相机图片等. 虽然效果是一样的.然而用法还是有区别的. 1. ...
Spark算子--groupByKey
转载请标明出处http://www.cnblogs.com/haozhengfei/p/0e90fe79f9f2e4b91a5d8e659ee68eaf.html groupByKey--Transf ...
Angular 4 自定义组件封装遇见的一些事儿
你用Angular 吗? 一.介绍说说封装Angular 组建过程中遇见的一些问题和感悟.用久了Angular,就会遇见很多坑,许多基于Angular开发的框架最喜欢做的事情就是封装组件,然后复用. ...
CCF系列之窗口(201403-2)
试题编号: 201403-2时间限制: 1.0s 内存限制: 256.0MB 问题描述在某图形操作系统中,有 N 个窗口,每个窗口都是一个两边与坐标轴分别平行的矩形区域.窗口的边界上的点也属于该窗口 ...
Python 使用Pillow模块生成验证码
1.安装 pip3 install pillow 2.使用步骤生成验证码和验证字符串绘制图片,将验证码放入session中将图片返回给页面 3.代码demo #!/usr/bin/env pyt ...
三十天学不会TCP,UDP/IP网络编程 - UDP的实践--DHCP
在经历了一顿忙碌加出去玩了玩之后,我又开始重新更新了~这是最新的一篇~完整版可以去gitbook(https://www.gitbook.com/@rogerzhu/)看到,在gitbook的后台流量 ...
js promise看这篇就够了
一.背景大家都知道nodejs很快,为什么会这么快呢,原因就是node采用异步回调的方式来处理需要等待的事件,使得代码会继续往下执行不用在某个地方等待着.但是也有一个不好的地方,当我们有很多回调的时 ...
【转】GPS网平差
进行GPS网平差的目的主要有三个: (1)消除由观测量和已知条件中存在的误差所引起的GPS网在几何上的不一致.包括闭合环闭合差不为0:复测基线较差不为0:通过由基线向量所形成的导线,将坐标由一个已知点 ...
知识点干货—多线程同步【6】之synchronized
"明日复明日,明日何其多. 我生待明日,万事成蹉跎. 世人若被明日累,春去秋来老将至. 朝看水东流,暮看日西坠. 百年明日能几何?请君听我明日歌. 明日复明日,明日何其多! 日日待明日,万世 ...

正负样本比率失衡SMOTE

正负样本比率失衡SMOTE

背景

公式

python实现

代码的使用方法

正负样本比率失衡SMOTE的更多相关文章

随机推荐

热门专题