Sample a balance dataset from imbalance dataset and save it（从不平衡数据中抽取平衡数据，并保存）

有时我们在实际分类数据挖掘中经常会遇到，类别样本很不均衡，直接使用这种不均衡数据会影响一些模型的分类效果，如logistic regression，SVM等，一种解决办法就是对数据进行均衡采样，这里就提供了一个建议代码实现，要求输入和输出数据格式为Label+Tab+Features, 如Libsvm format

-1 1:0.875 2:-1 3:-0.333333 4:-0.509434 5:-0.347032 6:-1 7:1 8:-0.236641 9:1 10:-0.935484 11:-1 12:-0.333333 13:-1

+1 1:0.166667 2:1 3:-0.333333 4:-0.433962 5:-0.383562 6:-1 7:-1 8:0.0687023 9:-1 10:-0.903226 11:-1 12:-1 13:1

+1 1:0.708333 2:1 3:1 4:-0.320755 5:-0.105023 6:-1 7:1 8:-0.419847 9:-1 10:-0.225806 12:1 13:-1

-1 1:0.583333 2:-1 3:0.333333 4:-0.603774 5:1 6:-1 7:1 8:0.358779 9:-1 10:-0.483871 12:-1 13:1

用法 Usage：

Usage: {0} [options] dataset subclass_size [output]

options:

-s method : method of selection (default 0)

     0 -- over-sampling & under-sampling given subclass_size

     1 -- over-sampling (subclass_size: any value)

     2 -- under-sampling(subclass_size: any value)

Bash example：

python SampleDataset.py -s 0 heart_scale 20 heart_scale.txt

这里s参数表示抽样的方法，

-s 0：Over sampling &Under sampling ，即对类别多的进行降采样，对类别少的进行重采样

-s 1: Over sampling 对类别少的进行重采样，采样后的每类样本数与最多的那一类一致

-s 2：Under sampling 对类别多的进行降采样，采样后的每类样本数与最少的那一类一值

输入数据文件heart_scale

输出数据文件heart_scale.txt

下面是代码文件：SampleDataset.py：

#!/usr/bin/env python

from sklearn.datasets import load_svmlight_file

from sklearn.datasets import dump_svmlight_file

import numpy as np

from sklearn.utils import check_random_state

from scipy.sparse import hstack,vstack

import os, sys, math, random

from collections import defaultdict

if sys.version_info[0] >= 3:

    xrange = range

def exit_with_help(argv):

    print("""\

Usage: {0} [options] dataset subclass_size [output]

options:

-s method : method of selection (default 0)

     0 -- over-sampling & under-sampling given subclass_size

     1 -- over-sampling (subclass_size: any value)

     2 -- under-sampling(subclass_size: any value)

output : balance set file (optional)

If output is omitted, the subset will be printed on the screen.""".format(argv[0]))

    exit(1)

def process_options(argv):

    argc = len(argv)

    if argc < 3:

        exit_with_help(argv)

    # default method is over-sampling & under-sampling

    method = 0

    BalanceSet_file = sys.stdout

    i = 1

    while i < argc:

        if argv[i][0] != "-":

            break

        if argv[i] == "-s":

            i = i + 1

            method = int(argv[i])

            if method not in [0,1,2]:

                print("Unknown selection method {0}".format(method))

                exit_with_help(argv)

        i = i + 1

    dataset = argv[i]

    BalanceSet_size = int(argv[i+1])

    if i+2 < argc:

        BalanceSet_file = open(argv[i+2],'w')

    return dataset, BalanceSet_size, method, BalanceSet_file

def stratified_selection(dataset, subset_size, method):

    labels = [line.split(None,1)[0] for line in open(dataset)]

    label_linenums = defaultdict(list)

    for i, label in enumerate(labels):

        label_linenums[label] += [i]

    l = len(labels)

    remaining = subset_size

    ret = []

    # classes with fewer data are sampled first;

    label_list = sorted(label_linenums, key=lambda x: len(label_linenums[x]))

    min_class = label_list[0]

    maj_class = label_list[-1]

    min_class_num = len(label_linenums[min_class])

    maj_class_num = len(label_linenums[maj_class])

    random_state = check_random_state(42)

    for label in label_list:

        linenums = label_linenums[label]

        label_size = len(linenums)

        if  method == 0:

            if label_size<subset_size:

                ret += linenums

                subnum = subset_size-label_size

            else:

                subnum = subset_size

            ret += [linenums[i] for i in random_state.randint(low=0, high=label_size,size=subnum)]

        elif method == 1:

            if label == maj_class:

                ret += linenums

                continue

            else:

                ret += linenums

                subnum = maj_class_num-label_size

                ret += [linenums[i] for i in random_state.randint(low=0, high=label_size,size=subnum)]

        elif method == 2:

            if label == min_class:

                ret += linenums

                continue

            else:

                subnum = min_class_num

                ret += [linenums[i] for i in random_state.randint(low=0, high=label_size,size=subnum)]

    random.shuffle(ret)

    return ret

def main(argv=sys.argv):

    dataset, subset_size, method, subset_file = process_options(argv)

    selected_lines = []

    selected_lines = stratified_selection(dataset, subset_size,method)

    #select instances based on selected_lines

    dataset = open(dataset,'r')

    datalist = dataset.readlines()

    for i in selected_lines:

        subset_file.write(datalist[i])

    subset_file.close()

    dataset.close()

if __name__ == '__main__':

    main(sys.argv)

Sample a balance dataset from imbalance dataset and save it（从不平衡数据中抽取平衡数据，并保存）的更多相关文章

Compute Mean Value of Train and Test Dataset of Caltech-256 dataset in matlab code
Compute Mean Value of Train and Test Dataset of Caltech-256 dataset in matlab code clc;imPath = '/ho ...
XML与DataSet相互转换，DataSet查询
以FileShare.Read形式读XML文件: string hotspotXmlStr = string.Empty; try { Stream fileStream = new FileStre ...
Spark：几种给Dataset增加列的方式、Dataset删除列、Dataset替换null列
几种给Dataset增加列的方式首先创建一个DF对象: scala> spark.version res0: String = .cloudera1 scala> val , , 2.0 ...
黑马程序员_ADO.Net（ExecuteReader，Sql注入与参数添加，DataSet，总结DataSet与SqlDataReader ）
转自https://blog.csdn.net/u010796875/article/details/17386131 一．执行有多行结果集的用ExecuteReader SqlDateReader ...
cannot use the same dataset for report.dataset and page.dataset
把page中的dataset中填的数据表删除.(改成not assigned)
什么叫强类型的DATASET ？对DATASET的操作处理？强类型DataSet的使用简明教程
强类型DataSet,是指需要预先定义对应表的各个字段的属性和取值方式的数据集.对于所有这些属性都需要从DataSet, DataTable, DataRow继承,生成相应的用户自定义类.强类型的一个 ...
（原）强类型dataset（类型化dataset）中动态修改查询条件（不确定参数查询）
原创博客,转载请注明:http://www.cnblogs.com/albert1017/p/3361932.html 查询时有多个参数,参数个数由客户输入决定,不能确定有多少个参数,按一般的方法每种 ...
python概念-常用模块之究竟你是什么鬼
模块: 一个模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀. 说白了,就是一个python文件中定义好了类和方法,实现了一些功能,可以被别的python文件所调用 ...
Spark提高篇——RDD/DataSet/DataFrame（一）
该部分分为两篇,分别介绍RDD与Dataset/DataFrame: 一.RDD 二.DataSet/DataFrame 先来看下官网对RDD.DataSet.DataFrame的解释: 1.RDD ...

随机推荐

win7 ins 30131 oracle 12c
Cause - Failed to access the temporary location. Action - Ensure that the current user has required ...
Linux:-杀进程的技巧
<---kill进程的技巧---> 1.杀掉某个关键字的进程 pgrep -f 2.批量杀掉某个关键字的进程 pkill - "name" 3.批量杀掉多个关键字的进程
build.gradle文件介绍
对于以前用Eclipse开发安卓的小伙伴来说,Gradle文件是陌生的. 不同于Eclipse,而Android Studio 是采用Gradle来构建项目的. 先来介绍最外层目录下的build.gr ...
Android守护进程
这几天,一位做Android的朋友和我探讨了一个问题:因为业务需求的原因,在自己的App长时间不使用被kill掉之后,如何让它再重新运行起来. 虽然,我本身很排斥这种做法,有点类似“流氓软件”的行为, ...
Js控制Div在浏览器中的高度
//需求是,我需要通过浏览器内容可视化的高度来控制div的高度boxheight(); //执行函数function boxheight(){ //函数:获取尺寸 //获取浏览器窗口高度 var wi ...
<<Windows via C/C++>>学习笔记 —— 线程优先级【转】
转自:http://www.cnblogs.com/wz19860913/archive/2008/08/04/1259807.html 每个线程都有一个“优先级”,范围是0-31,0为最低优先级,3 ...
2017年1月4日星期三 --出埃及记 Exodus 21:30
2017年1月4日星期三 --出埃及记 Exodus 21:30 However, if payment is demanded of him, he may redeem his life by ...
一行R代码来实现繁琐的可视化
ggfortify 有着简单易用的统一的界面来用一行代码来对许多受欢迎的R软件包结果进行二维可视化的一个R工具包.这让许多的统计学家以及数据科学家省去了许多繁琐和重复的过程,不用对结果进行任何处理就能 ...
关于C语言宏定义使用do{ xxxx }while()
暂时感觉像是由于":"的原因,关于使用习惯方面的问题!! 下面是copy的: 这样的宏见过么: Cpp代码 #define FOO(x) do {\ some_code_line_ ...
iOS常见面试题
一.为什么要在主线程中更新UI,这样做有什么好处? UIKit中的大部分类都不是“线程安全”的,为了解决这个线程不安全的问题,苹果推荐所有应用程序的UI操作都在主线程中执行,这样就不会出现多个线程同时 ...

Sample a balance dataset from imbalance dataset and save it（从不平衡数据中抽取平衡数据，并保存）

Sample a balance dataset from imbalance dataset and save it（从不平衡数据中抽取平衡数据，并保存）的更多相关文章

随机推荐

热门专题